CART मॉडल बनाने के लिए rpart () रूटीन में, आप उस जटिलता पैरामीटर को निर्दिष्ट करते हैं, जिसमें आप अपने पेड़ को प्रून करना चाहते हैं। मैंने जटिलता पैरामीटर चुनने के लिए दो अलग-अलग सिफारिशें देखी हैं:
न्यूनतम संभव क्रॉस-मान्य त्रुटि के साथ जुड़े जटिलता पैरामीटर चुनें। यह विधि क्विक-आर और एचएसएयूआर द्वारा अनुशंसित है ।
सबसे बड़ी जटिलता पैरामीटर चुनें, जिसकी अनुमानित क्रॉस-वैरिफाइड त्रुटि अभी भी न्यूनतम संभव क्रॉस-वैलिडेटेड एरर के एसई के भीतर है। यह पैकेज प्रलेखन की मेरी व्याख्या है, जो कहता है: "छंटाई के लिए cp का एक अच्छा विकल्प अक्सर सबसे बाईं ओर होता है, जिसके लिए इसका मतलब क्षैतिज रेखा के नीचे होता है" इस भूखंड के संदर्भ में ।
Cp के दो विकल्प मेरे डेटासेट में काफी अलग पेड़ पैदा करते हैं।
ऐसा लगता है कि पहली विधि हमेशा एक अधिक जटिल, संभावित रूप से ओवरफीड, पेड़ का उत्पादन करेगी। क्या साहित्य में अन्य फायदे, नुकसान, सिफारिशें हैं, मुझे यह ध्यान रखना चाहिए कि किस विधि का उपयोग करना है? मैं अपनी विशेष मॉडलिंग समस्या के बारे में अधिक जानकारी प्रदान कर सकता हूं यदि यह उपयोगी होगा, लेकिन मैं इस प्रश्न को व्यापक रूप से दूसरों के लिए प्रासंगिक रखने की कोशिश कर रहा हूं।
party
पैकेज है जो महत्व परीक्षणों का उपयोग करता है (आमतौर पर मैं जो कुछ सुझाता हूं, लेकिन यह यहां प्रासंगिक लगता है)। हमेशा की तरह, हालांकि, सबसे अच्छा परीक्षण उपयोगिता और समझदारी है; यह विशेष रूप से सच है यदि आप मुख्य रूप से स्पष्टीकरण में रुचि रखते हैं।