पेड़ों को बढ़ाने में ट्यूनिंग मापदंडों के लिए इष्टतम मान कैसे खोजें?


9

मुझे लगता है कि बूस्टिंग ट्री मॉडल में 3 ट्यूनिंग पैरामीटर हैं, अर्थात

  1. पेड़ों की संख्या (पुनरावृत्तियों की संख्या)
  2. संकोचन पैरामीटर
  3. विभाजन की संख्या (प्रत्येक घटक पेड़ों का आकार)

मेरा सवाल यह है: ट्यूनिंग मापदंडों में से प्रत्येक के लिए, मुझे इसका इष्टतम मूल्य कैसे खोजना चाहिए? और कौन सी विधि?

ध्यान दें: संकोचन पैरामीटर और पेड़ों के पैरामीटर की संख्या एक साथ संचालित होती है, यानी संकोचन पैरामीटर के लिए एक छोटा मान पेड़ों की संख्या के लिए उच्च मूल्य की ओर जाता है। और हमें इसे भी ध्यान में रखना होगा।

मैं विशेष रूप से विभाजन की संख्या के लिए इष्टतम मूल्य खोजने के लिए विधि में रुचि रखता हूं। क्या यह मॉडल के पीछे क्रॉस-मान्यता या डोमेन ज्ञान के आधार पर होना चाहिए?

और gbmआर में पैकेज में इन चीजों को कैसे किया जाता है ?

जवाबों:


6

कैरट आर में पैकेज इस के लिए बने दर्जी है।

इसका ट्रेन फ़ंक्शन पैरामीटर मानों की एक ग्रिड लेता है और क्रॉस-सत्यापन या बूटस्ट्रैप के विभिन्न स्वादों का उपयोग करके प्रदर्शन का मूल्यांकन करता है। पैकेज लेखक ने एक पुस्तक एप्लाइड प्रेडिक्टिव मॉडलिंग लिखी है , जिसकी अत्यधिक अनुशंसा की जाती है। पूरे पुस्तक में 10-गुना क्रॉस-सत्यापन के 5 दोहराव का उपयोग किया जाता है।

पेड़ की गहराई चुनने के लिए, मैं सबसे पहले समस्या के बारे में विषय ज्ञान के लिए जाऊंगा, अर्थात यदि आप किसी परस्पर क्रिया की अपेक्षा नहीं रखते हैं - तो गहराई को 1 तक सीमित करें या एक लचीले पैरामीट्रिक मॉडल के लिए जाएं (जो समझने और व्याख्या करने में बहुत आसान है)। यह कहा जा रहा है, मैं अक्सर खुद को पेड़ की गहराई को देखते हुए पाता हूं क्योंकि विषय ज्ञान अक्सर बहुत सीमित होता है।

मुझे लगता है कि gbm पैकेज पेड़ों की गहराई और संकोचन के निश्चित मूल्यों के लिए पेड़ों की संख्या को ट्यून करता है।


क्या पुस्तक में R कोड भी शामिल है?
user1769197

मेरा मतलब है कि काम किया उदाहरण है जिसमें आर कोड शामिल है इसलिए हम समझते हैं कि कैसे मॉडल को कम्प्यूटेशनल रूप से लागू किया जाता है और एक डेटासेट पर लागू किया जाता है
user1769197

1
हाँ यह करता है। अधिक जानकारी के लिए पुस्तक के वेबपेज applypredictivemodeling.com देखें
एरिकएल

1

संवर्धित प्रतिगमन पेड़ों और gbm पैकेज के लिए दो अच्छे स्रोत हैं। बीआरटी की व्याख्या और पेड़ों की संख्या के अनुकूलन के लिए ( nt), सीखने की दर ( lr) और पेड़ की जटिलता ( tc) को देखते हुए प्रतिगमन पेड़ों को बढ़ावा देने के लिए एक कार्य मार्गदर्शिका देखें हालांकि यह पारिस्थितिकी पर ध्यान केंद्रित कर रहा है मुझे लगता है कि आप बीआरटी का बेहतर परिचय नहीं ढूंढ सकते हैं ।

Gbm पैकेज में BRT के कार्यान्वयन के लिए, पारिस्थितिक मॉडलिंग के लिए बूस्टेड रिग्रेशन ट्रीज़ देखें

संक्षेप में, अंगूठे का एक नियम एक सीखने की दर का चयन करना है जो बीआरटी मॉडल को कम से कम 1000 पेड़ों को फिट करने की अनुमति देता है, इसलिए संभवतः आपको इसे पूरा करने के लिए कम सीखने की दर, 0.001 की आवश्यकता होगी। लेकिन यह आपके डेटा के आकार पर निर्भर करता है, अंजीर देखें। बीआरटी के लिए कार्य गाइड में 2 और 3। मुझे लगता है कि एक संभावित तरीका आपके डेटा आकार के अनुसार BRT में विभिन्न मॉडल सेट करेगा, उदाहरण के लिए अलग बैग के साथ अलग lr (0.1, 0.01, 0.001), tc (1, 3, 5, 7, 9, 20)। .fractions (0.5, 0.7, 0.9) और सबसे कम विचलन या उच्चतम आरओसी स्कोर के अनुसार सर्वश्रेष्ठ चुनें। शायद इससे मदद मिली।


1
संदर्भ के लिए, BRT_MODEL$self.statistics$correlation[[1]]प्रशिक्षण डेटा के लिए परीक्षण का सहसंबंध है, जो एक अच्छा परीक्षण मीट्रिक है।
dez93_2000

मेरे लिए प्रयोग के एक सांख्यिकीय डिजाइन की तरह लगता है। : पी
एंगरस्टूडेंट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.