रपटर () में विभाजन की संख्या कैसे चुननी है?

मैंने उपयोग किया rpart.controlहै minsplit=2, और rpart()फ़ंक्शन से निम्नलिखित परिणाम प्राप्त किए हैं। डेटा को ओवरफ़िट करने से बचने के लिए, क्या मुझे विभाजन 3 या विभाजन 7 का उपयोग करने की आवश्यकता है? क्या मुझे विभाजन 7 का उपयोग नहीं करना चाहिए? कृपया मुझे बताओ।

पेड़ के निर्माण में वास्तव में प्रयुक्त चर:

[1] ct_a ct_b usr_a

Root node error: 23205/60 = 386.75

n= 60        

    CP nsplit rel error  xerror     xstd
1 0.615208      0  1.000000 1.05013 0.189409
2 0.181446      1  0.384792 0.54650 0.084423
3 0.044878      2  0.203346 0.31439 0.063681
4 0.027653      3  0.158468 0.27281 0.060605
5 0.025035      4  0.130815 0.30120 0.058992
6 0.022685      5  0.105780 0.29649 0.059138
7 0.013603      6  0.083095 0.21761 0.045295
8 0.010607      7  0.069492 0.21076 0.042196
9 0.010000      8  0.058885 0.21076 0.042196

r cart rpart

— samarasa
स्रोत

मैंने इसका उत्तर पिछले Q में पोस्ट किए गए अनुवर्ती में दिया। यह देखते हुए, इसके लिए कोई आवश्यकता नहीं थी। मैंने उल्लेख किया है कि आपको भविष्य के संदर्भ के लिए Q का अनुसरण नहीं करना चाहिए !

— गैविन सिम्पसन

भविष्य में संबंधित प्रश्न की खोज से बचने के लिए, यहाँ पिछले Q: आँकड़े . stackexchange.com/questions/13446/… का लिंक दिया गया है ।

— २५'११ को

कन्वेंशन सबसे अच्छा ट्री (सबसे कम क्रॉस-वेलिडेट रिलेटिव एरर) या सबसे छोटे (सिंपल) ट्री को एक बेस्ट ट्री के एक स्टैंडर्ड एरर के अंदर इस्तेमाल करना है। पंक्ति 8 (7 विभाजन) में सबसे अच्छा पेड़ है, लेकिन पंक्ति 7 (6 विभाजन) xerrorमें पेड़ प्रभावी रूप से एक ही काम करता है ( पंक्ति 7 में पेड़ के लिए = 0.21761, जो कि xerrorसबसे अच्छा पेड़ से एक से भी छोटा है) त्रुटि, xstd(0.21076 + 0.042196) = 0.252956) और सरल है, इसलिए 1 मानक त्रुटि नियम इसे चुनेंगे।

— गेविन सिम्पसन
स्रोत