सामान्यीकृत बूस्ट रिग्रेशन मॉडल में पेड़ों की संख्या कैसे चुनें?


11

क्या GBM में पेड़ों की संख्या चुनने की कोई रणनीति है? विशेष रूप से, 's फ़ंक्शन ntreesमें तर्क ।Rgbm

मैं नहीं देखता कि आपको ntreesउच्चतम उचित मूल्य पर सेट क्यों नहीं करना चाहिए । मैंने देखा है कि पेड़ों की एक बड़ी संख्या स्पष्ट रूप से कई जीबीएम से परिणामों की परिवर्तनशीलता को कम करती है। मुझे नहीं लगता कि अधिक संख्या में पेड़ ओवरफिटिंग का कारण बनेंगे।

कोई विचार?

जवाबों:


3

यह GBM है:

" मुझे नहीं लगता कि ... " कई वाक्यों का खतरनाक पहला हिस्सा रहा है।

अच्छाई की माप के बिना काफी अच्छा व्यर्थ है, एक रूब्रिक।

किसी अन्य विधि के लिए अच्छाई के उपाय क्या हैं?

  • मॉडल और डेटा (sse, ...) के बीच अंतर
  • होल्डआउट सेट में त्रुटि का विचलन (प्रशिक्षण त्रुटि बनाम परीक्षण त्रुटि)
  • नमूना गणना अनुपात के लिए पैरामीटर गणना (अधिकांश लोग प्रति पैरामीटर 5 नमूने या प्रति पैरामीटर 30 नमूने)
  • क्रॉस सत्यापन (त्रुटि परीक्षणों के विचलन पर पुख्ता तरीके)

एक तंत्रिका नेटवर्क, या तख़्ता की तरह, आप डेटा पर टुकड़े-टुकड़े रैखिक प्रक्षेप कर सकते हैं और एक मॉडल प्राप्त कर सकते हैं जो सामान्य नहीं कर सकता है। आपको सामान्य प्रयोज्यता - सामान्यीकरण के बदले में कुछ "कम त्रुटि" छोड़नी होगी।

अधिक लिंक:


2

मुझे समस्या में कुछ अंतर्दृष्टि मिली: http://cran.r-project.org/web/packages/dismo/vignettes/brt.pdf

gbm.stepसमारोह पेड़ों की इष्टतम संख्या निर्धारित करने के लिए इस्तेमाल किया जा सकता। मुझे अभी भी यकीन नहीं है कि एक निश्चित संख्या में पेड़ों के बाद मॉडल डिवोर्स बढ़ने का कारण क्या है, इसलिए मैं अभी भी एक प्रतिक्रिया स्वीकार करने को तैयार हूं जो इस सवाल का जवाब देता है!


2
ओवरफिटिंग बढ़ जाती है। अधिकांश अच्छे तरीके एक होल्डआउट सेट करते हैं, और इसका उपयोग मॉडल का परीक्षण करने के लिए करते हैं, लेकिन मॉडल को अपडेट करने के लिए नहीं। यह ओवरफिट की शुरुआत का पता लगाने की अनुमति देता है।
20

0

यह एलिथ एट अल से प्रतिगमन पेड़ों को बढ़ावा देने के लिए कार्य करने वाली मार्गदर्शिका है: http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full बहुत उपयोगी!

आपको कम से कम 1000 पेड़ों का उपयोग करना चाहिए। जहां तक ​​मुझे समझ में आया, आपको सीखने की दर, वृक्ष की जटिलता और पेड़ों की संख्या का उपयोग करना चाहिए जो कि मीनुम की अनुमानित त्रुटि को प्राप्त करता है। सीखने की दर के छोटे मूल्यों को पुनरावृत्तियों की समान संख्या के लिए बड़ा प्रशिक्षण जोखिम होता है, जबकि प्रत्येक पुनरावृत्ति प्रशिक्षण जोखिम को कम करता है। यदि पेड़ों की संख्या पर्याप्त रूप से बड़ी है, तो जोखिम को मनमाने ढंग से छोटा किया जा सकता है (देखें: हस्ती एट अल।, 2001, "द एलिमेंट्स ऑफ़ स्टैटिस्टिकल लर्निंग, डेटा माइनिंग, इंट्रेंस एंड प्रेडिक्शन" )।


यह सच है कि एलीथ एट अल। 1000 पेड़ों का उपयोग करने के लिए अंगूठे के नियम के रूप में सुझाव दें। हालांकि, यह पेपर में उपयोग किए जाने वाले विशिष्ट डेटासेट के लिए भविष्य कहनेवाला स्थिरता के विस्तृत विश्लेषण पर आधारित है। ऐसा लगता नहीं है कि समान संख्या किसी भी संभावित डेटासेट के लिए काम करेगी। हो सकता है कि आप विशेष रूप से परिशिष्ट S1 में उनके द्वारा किए गए विश्लेषण पर कुछ विवरण देकर अपने उत्तर का विस्तार कर सकें।
डेलिविन

0

कुछ मशीन लर्निंग एल्गोरिदम में आम के रूप में, बूस्टिंग पेड़ों की संख्या के बारे में बाया-विचरण व्यापार-बंद के अधीन है। धीरे-धीरे बोलना, यह व्यापार बंद आपको बताता है कि: (i) कमजोर मॉडल उच्च पूर्वाग्रह और निम्न विचरण करते हैं: वे प्रशिक्षण डेटासेट में परिवर्तनशीलता को पकड़ने के लिए बहुत कठोर हैं, इसलिए या तो परीक्षण सेट (उच्च परीक्षण) में अच्छा प्रदर्शन नहीं करेंगे त्रुटि) (ii) बहुत मजबूत मॉडल में कम पूर्वाग्रह और उच्च विचरण होता है: वे बहुत लचीले होते हैं और वे प्रशिक्षण सेट को ओवरफिट करते हैं, इसलिए परीक्षण सेट में (जैसा कि डेटापॉंट प्रशिक्षण सेट से अलग होता है) वे भी अच्छा प्रदर्शन नहीं करेंगे। (उच्च परीक्षण त्रुटि)

बूस्टिंग पेड़ों की अवधारणा उथले पेड़ों (कमजोर मॉडल) के साथ शुरू करना है और अधिक उथले पेड़ों को जोड़ना है जो पिछले पेड़ों की कमजोरियों को ठीक करने की कोशिश करते हैं। जैसा कि आप इस प्रक्रिया को करते हैं, परीक्षण त्रुटि नीचे जाती है (क्योंकि समग्र मॉडल अधिक लचीला / शक्तिशाली हो जाता है)। हालाँकि, यदि आप उन बहुत से पेड़ों को जोड़ते हैं, तो आप प्रशिक्षण डेटा को ओवरफिट करना शुरू कर देते हैं और इसलिए परीक्षण त्रुटि बढ़ जाती है। क्रॉस-सत्यापन मिठाई स्थान को खोजने में मदद करता है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.