रपटर () में विभाजन की संख्या कैसे चुननी है?


9

मैंने उपयोग किया rpart.controlहै minsplit=2, और rpart()फ़ंक्शन से निम्नलिखित परिणाम प्राप्त किए हैं। डेटा को ओवरफ़िट करने से बचने के लिए, क्या मुझे विभाजन 3 या विभाजन 7 का उपयोग करने की आवश्यकता है? क्या मुझे विभाजन 7 का उपयोग नहीं करना चाहिए? कृपया मुझे बताओ।

पेड़ के निर्माण में वास्तव में प्रयुक्त चर:

[1] ct_a ct_b usr_a

Root node error: 23205/60 = 386.75

n= 60        

    CP nsplit rel error  xerror     xstd
1 0.615208      0  1.000000 1.05013 0.189409
2 0.181446      1  0.384792 0.54650 0.084423
3 0.044878      2  0.203346 0.31439 0.063681
4 0.027653      3  0.158468 0.27281 0.060605
5 0.025035      4  0.130815 0.30120 0.058992
6 0.022685      5  0.105780 0.29649 0.059138
7 0.013603      6  0.083095 0.21761 0.045295
8 0.010607      7  0.069492 0.21076 0.042196
9 0.010000      8  0.058885 0.21076 0.042196

1
मैंने इसका उत्तर पिछले Q में पोस्ट किए गए अनुवर्ती में दिया। यह देखते हुए, इसके लिए कोई आवश्यकता नहीं थी। मैंने उल्लेख किया है कि आपको भविष्य के संदर्भ के लिए Q का अनुसरण नहीं करना चाहिए !
गैविन सिम्पसन

1
भविष्य में संबंधित प्रश्न की खोज से बचने के लिए, यहाँ पिछले Q: आँकड़े . stackexchange.com/questions/13446/… का लिंक दिया गया है ।
२५'११ को

जवाबों:


10

कन्वेंशन सबसे अच्छा ट्री (सबसे कम क्रॉस-वेलिडेट रिलेटिव एरर) या सबसे छोटे (सिंपल) ट्री को एक बेस्ट ट्री के एक स्टैंडर्ड एरर के अंदर इस्तेमाल करना है। पंक्ति 8 (7 विभाजन) में सबसे अच्छा पेड़ है, लेकिन पंक्ति 7 (6 विभाजन) xerrorमें पेड़ प्रभावी रूप से एक ही काम करता है ( पंक्ति 7 में पेड़ के लिए = 0.21761, जो कि xerrorसबसे अच्छा पेड़ से एक से भी छोटा है) त्रुटि, xstd(0.21076 + 0.042196) = 0.252956) और सरल है, इसलिए 1 मानक त्रुटि नियम इसे चुनेंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.