पेड़ों को बढ़ाने में ट्यूनिंग मापदंडों के लिए इष्टतम मान कैसे खोजें?

9

मुझे लगता है कि बूस्टिंग ट्री मॉडल में 3 ट्यूनिंग पैरामीटर हैं, अर्थात

पेड़ों की संख्या (पुनरावृत्तियों की संख्या)
संकोचन पैरामीटर
विभाजन की संख्या (प्रत्येक घटक पेड़ों का आकार)

मेरा सवाल यह है: ट्यूनिंग मापदंडों में से प्रत्येक के लिए, मुझे इसका इष्टतम मूल्य कैसे खोजना चाहिए? और कौन सी विधि?

ध्यान दें: संकोचन पैरामीटर और पेड़ों के पैरामीटर की संख्या एक साथ संचालित होती है, यानी संकोचन पैरामीटर के लिए एक छोटा मान पेड़ों की संख्या के लिए उच्च मूल्य की ओर जाता है। और हमें इसे भी ध्यान में रखना होगा।

मैं विशेष रूप से विभाजन की संख्या के लिए इष्टतम मूल्य खोजने के लिए विधि में रुचि रखता हूं। क्या यह मॉडल के पीछे क्रॉस-मान्यता या डोमेन ज्ञान के आधार पर होना चाहिए?

और gbmआर में पैकेज में इन चीजों को कैसे किया जाता है ?

— मेरा नाम जेफ़ है
स्रोत

6

कैरट आर में पैकेज इस के लिए बने दर्जी है।

इसका ट्रेन फ़ंक्शन पैरामीटर मानों की एक ग्रिड लेता है और क्रॉस-सत्यापन या बूटस्ट्रैप के विभिन्न स्वादों का उपयोग करके प्रदर्शन का मूल्यांकन करता है। पैकेज लेखक ने एक पुस्तक एप्लाइड प्रेडिक्टिव मॉडलिंग लिखी है , जिसकी अत्यधिक अनुशंसा की जाती है। पूरे पुस्तक में 10-गुना क्रॉस-सत्यापन के 5 दोहराव का उपयोग किया जाता है।

पेड़ की गहराई चुनने के लिए, मैं सबसे पहले समस्या के बारे में विषय ज्ञान के लिए जाऊंगा, अर्थात यदि आप किसी परस्पर क्रिया की अपेक्षा नहीं रखते हैं - तो गहराई को 1 तक सीमित करें या एक लचीले पैरामीट्रिक मॉडल के लिए जाएं (जो समझने और व्याख्या करने में बहुत आसान है)। यह कहा जा रहा है, मैं अक्सर खुद को पेड़ की गहराई को देखते हुए पाता हूं क्योंकि विषय ज्ञान अक्सर बहुत सीमित होता है।

मुझे लगता है कि gbm पैकेज पेड़ों की गहराई और संकोचन के निश्चित मूल्यों के लिए पेड़ों की संख्या को ट्यून करता है।

— ErikL
स्रोत

क्या पुस्तक में R कोड भी शामिल है?

— user1769197

मेरा मतलब है कि काम किया उदाहरण है जिसमें आर कोड शामिल है इसलिए हम समझते हैं कि कैसे मॉडल को कम्प्यूटेशनल रूप से लागू किया जाता है और एक डेटासेट पर लागू किया जाता है

— user1769197

1

हाँ यह करता है। अधिक जानकारी के लिए पुस्तक के वेबपेज applypredictivemodeling.com देखें ।

— एरिकएल

1

संवर्धित प्रतिगमन पेड़ों और gbm पैकेज के लिए दो अच्छे स्रोत हैं। बीआरटी की व्याख्या और पेड़ों की संख्या के अनुकूलन के लिए ( nt), सीखने की दर ( lr) और पेड़ की जटिलता ( tc) को देखते हुए प्रतिगमन पेड़ों को बढ़ावा देने के लिए एक कार्य मार्गदर्शिका देखें हालांकि यह पारिस्थितिकी पर ध्यान केंद्रित कर रहा है मुझे लगता है कि आप बीआरटी का बेहतर परिचय नहीं ढूंढ सकते हैं ।

Gbm पैकेज में BRT के कार्यान्वयन के लिए, पारिस्थितिक मॉडलिंग के लिए बूस्टेड रिग्रेशन ट्रीज़ देखें

संक्षेप में, अंगूठे का एक नियम एक सीखने की दर का चयन करना है जो बीआरटी मॉडल को कम से कम 1000 पेड़ों को फिट करने की अनुमति देता है, इसलिए संभवतः आपको इसे पूरा करने के लिए कम सीखने की दर, 0.001 की आवश्यकता होगी। लेकिन यह आपके डेटा के आकार पर निर्भर करता है, अंजीर देखें। बीआरटी के लिए कार्य गाइड में 2 और 3। मुझे लगता है कि एक संभावित तरीका आपके डेटा आकार के अनुसार BRT में विभिन्न मॉडल सेट करेगा, उदाहरण के लिए अलग बैग के साथ अलग lr (0.1, 0.01, 0.001), tc (1, 3, 5, 7, 9, 20)। .fractions (0.5, 0.7, 0.9) और सबसे कम विचलन या उच्चतम आरओसी स्कोर के अनुसार सर्वश्रेष्ठ चुनें। शायद इससे मदद मिली।

— user3624251
स्रोत

1

संदर्भ के लिए, BRT_MODEL$self.statistics$correlation[[1]]प्रशिक्षण डेटा के लिए परीक्षण का सहसंबंध है, जो एक अच्छा परीक्षण मीट्रिक है।

— dez93_2000

मेरे लिए प्रयोग के एक सांख्यिकीय डिजाइन की तरह लगता है। : पी

— एंगरस्टूडेंट