रैखिक प्रतिगमन के लिए धीरे-धीरे बूस्टिंग - यह काम क्यों नहीं करता है?


35

ग्रैडिएंट बूस्टिंग के बारे में सीखते हुए, मैंने किसी "कमजोर क्लासिफायरियर" के गुणों के बारे में किसी भी बाधा के बारे में नहीं सुना है जो कि मॉडल का निर्माण करने और कलाकारों की टुकड़ी का उपयोग करता है। हालांकि, मैं एक जीबी के आवेदन की कल्पना नहीं कर सकता था जो रैखिक प्रतिगमन का उपयोग करता है, और वास्तव में जब मैंने कुछ परीक्षण किए हैं - यह काम नहीं करता है। मैं चुकता अवशिष्ट के योग की एक ढाल के साथ सबसे मानक दृष्टिकोण का परीक्षण कर रहा था और बाद के मॉडल को एक साथ जोड़ रहा था।

स्पष्ट समस्या यह है कि पहले मॉडल के अवशेषों को इस तरह से आबाद किया गया है कि अब फिट होने के लिए कोई प्रतिगमन रेखा नहीं है। मेरा एक और अवलोकन यह है कि बाद के रैखिक प्रतिगमन मॉडल की राशि को एकल प्रतिगमन मॉडल के रूप में अच्छी तरह से प्रस्तुत किया जा सकता है (सभी अवरोधों और इसी गुणांक को जोड़ते हुए) इसलिए मैं कल्पना नहीं कर सकता कि कैसे कभी मॉडल में सुधार हो सकता है। अंतिम अवलोकन यह है कि एक रेखीय प्रतिगमन (सबसे विशिष्ट दृष्टिकोण) एक नुकसान फ़ंक्शन के रूप में चुकता अवशिष्ट के योग का उपयोग कर रहा है - वही जो जीबी उपयोग कर रहा है।

मैंने सीखने की दर को कम करने या प्रत्येक पुनरावृत्ति के लिए केवल भविष्यवाणियों के एक सबसेट का उपयोग करने के बारे में सोचा, लेकिन यह अभी भी अंततः एकल मॉडल प्रतिनिधित्व तक अभिव्यक्त किया जा सकता है, इसलिए मुझे लगता है कि यह कोई सुधार नहीं लाएगा।

मुझे यहां क्या समझ नहीं आ रहा है? क्या लीनियर रिग्रेशन किसी तरह ग्रैडिएंट बूस्टिंग के साथ उपयोग करना अनुचित है? क्या यह इसलिए है क्योंकि रैखिक प्रतिगमन एक हानि फ़ंक्शन के रूप में चुकता अवशिष्टों के योग का उपयोग करता है? क्या कमजोर भविष्यवक्ताओं पर कोई विशेष अड़चन है ताकि उन्हें ग्रैडिएंट बूस्टिंग पर लागू किया जा सके?


सहज रूप से मुझे लगता है कि आप उनमें से योग का उपयोग नहीं करना चाहिए उनमें से एक ही प्रकार का क्लासिफायरियर है। जैसे रैखिक कार्यों का योग एक रैखिक कार्य है।
user18764

मुझे पता है कि यह पुराना है, लेकिन मेरी समझ यह है कि मौजूदा कदम मौजूदा अवशेषों और आधार शिक्षार्थी (जो आपके मामले में एक रेखीय प्रतिगामी है) के बीच नुकसान की दर को कम करता है, जो कि सीखने की दर से गुणा होता है। तो जब तक बेस लर्नर एमएसई कम कर देता है, बूस्टर द्वारा उपयोग किया जाने वाला नुकसान फ़ंक्शन एक ही एमएपीई हो सकता है?
डेविड वाटरवर्थ

जवाबों:


35

मुझे यहां क्या समझ नहीं आ रहा है?

मुझे नहीं लगता कि आप वास्तव में कुछ भी याद कर रहे हैं!

एक और अवलोकन यह है कि बाद के रेखीय प्रतिगमन मॉडल की राशि को एकल प्रतिगमन मॉडल के रूप में भी दर्शाया जा सकता है (सभी अंतरा और इसी गुणांक को जोड़ते हुए), इसलिए मैं कल्पना नहीं कर सकता कि कैसे कभी मॉडल में सुधार हो सकता है। अंतिम अवलोकन यह है कि एक रेखीय प्रतिगमन (सबसे विशिष्ट दृष्टिकोण) एक नुकसान फ़ंक्शन के रूप में चुकता अवशिष्ट के योग का उपयोग कर रहा है - वही जो जीबी उपयोग कर रहा है।

मुझे लगता है कि आपने इसे वहीं नंगा कर दिया है, और इस बात का प्रमाण दिया है कि रैखिक प्रतिगमन इस सेटिंग में रेखीय प्रतिगमन को बढ़ाता है।

पांडित्यपूर्ण होने के लिए, दोनों विधियाँ निम्न अनुकूलन समस्या को हल करने का प्रयास कर रही हैं

β^=argminβ(y-एक्सβ)टी(y-एक्सβ)

रेखीय प्रतिगमन सिर्फ यह देखता है कि आप इसे रैखिक समीकरण के हल का पता लगाकर सीधे हल कर सकते हैं

एक्सटीएक्सβ=एक्सटीy

इससे आप अपने आप का सबसे अच्छा संभव मूल्य देता है सभी संभावनाओं से बाहर।β

β1,β2,...

एक्सβ1+एक्सβ2++एक्सβn=एक्स(β1+β2++βn)

इनमें से प्रत्येक चरण को चुकता त्रुटियों के योग को और कम करने के लिए चुना जाता है। लेकिन हमें इस कार्यात्मक रूप में चौकोर त्रुटियों का न्यूनतम संभव योग मिल सकता है ।

इस स्थिति में बढ़ावा देने का एक संभावित बचाव यह निहित नियमितीकरण हो सकता है। संभवतः (मैंने इसके साथ नहीं खेला है) आप पूर्ण रेखीय प्रतिगमन की कमी को रोकने के लिए एक क्रॉस सत्यापन के साथ-साथ एक ग्रेडिएंट बूस्टर की शुरुआती रोक सुविधा का उपयोग कर सकते हैं। यह आपके प्रतिगमन को एक नियमितीकरण प्रदान करेगा, और संभवतः ओवरफिटिंग में मदद करेगा। यह विशेष रूप से व्यावहारिक नहीं है, क्योंकि इस सेटिंग में रिज रिग्रेशन और इलास्टिक नेट जैसे बहुत कुशल और अच्छी तरह से समझे गए विकल्प हैं।

जब आसपास कोई क्रियात्मक रूप न हो तो बूस्टिंग चमकता है। बूस्टिंग डिसाइड ट्री से डेटा को फिट करने के लिए रेजिस्टर / क्लासिफायर का कार्यात्मक रूप धीरे-धीरे विकसित होने देता है, जिसके परिणामस्वरूप अक्सर जटिल आकृतियों को हाथ और आंख से सपना नहीं देखा जा सकता है। जब एक सरल कार्यात्मक रूप है वांछित, बढ़ाने आप इसे खोजने में मदद करने नहीं जा रहा है (या कम से कम शायद यह पता लगाने के लिए एक नहीं बल्कि अक्षम तरीका है)।


2
β

यह बहुत अच्छा और स्पष्ट जवाब है। पुष्टि / स्पष्टीकरण के लिए धन्यवाद मैथ्यू!
मटके

"बूस्टिंग चमकता है जब चारों ओर कोई क्रियात्मक रूप नहीं होता है।" यह वह उत्तर है जिसकी मुझे तलाश है। तो, बस की पुष्टि करना चाहते हैं, तो आप क्या मतलब है मेरे सवाल का जवाब है हां, लेकिन आधार के रूप में मॉडल रैखिक कोई भी उपयोग शिक्षार्थी ?, stats.stackexchange.com/questions/231286/...
हैताओ दू

5

सबसे कम वर्ग प्रक्षेपण मैट्रिक्स द्वारा दिया जाता है

एक्स(एक्सटीएक्स)-1एक्सटी

y^

y^=एक्स(एक्सटीएक्स)-1एक्सटीy

मान लें कि आप एक प्रतिगमन फिट करते हैं और बाद में आप अपने अवशिष्टों की गणना करते हैं

=y-y^=y-एक्स(एक्सटीएक्स)-1एक्सटीy

y^2

y^2=एक्स(एक्सटीएक्स)-1एक्सटी=एक्स(एक्सटीएक्स)-1एक्सटी(y-एक्स(एक्सटीएक्स)-1एक्सटीy)=एक्स(एक्सटीएक्स)-1एक्सटीy-एक्स(एक्सटीएक्स)-1एक्सटीएक्स(एक्सटीएक्स)-1एक्सटीy=एक्स(एक्सटीएक्स)-1एक्सटीy-एक्स(एक्सटीएक्स)-1एक्सटीy=0

y^

इसका मतलब है कि एक प्रतिगमन फिटिंग का सरल तरीका और फिर पहले प्रतिगमन से अवशेषों पर एक नया प्रतिगमन फिट करने से कुछ भी समझदारी नहीं होगी क्योंकि एक्स पूरी तरह से ई के साथ असंबंधित है।

मैं यह लिखता हूं क्योंकि आपने कहा था कि फिट होने के लिए वास्तव में एक नई लाइन नहीं है जो उपरोक्त व्युत्पत्तियों से मेल खाती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.