लीनियर बेस लर्नर बढ़ाने में कैसे काम करता है? और यह xgboost लाइब्रेरी में कैसे काम करता है?

मुझे पता है कि XGBoost में रैखिक उद्देश्य फ़ंक्शन और रैखिक बूस्ट को कैसे लागू किया जाए। मेरा ठोस सवाल यह है: जब एल्गोरिथ्म यह अवशिष्ट (या नकारात्मक ढाल) फिट बैठता है तो क्या यह प्रत्येक चरण में एक विशेषता का उपयोग कर रहा है (यानी एकतरफा मॉडल) या सभी विशेषताएं (बहुभिन्नरूपी मॉडल)?

XGBoost में रैखिक बूस्ट के बारे में दस्तावेज़ीकरण के किसी भी संदर्भ की सराहना की जाएगी।

EDIT: 'बूस्टर' पैरामीटर को 'gblinear' सेट करके XGBoost में रैखिक बूस्ट लागू किया जा सकता है। देखें: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/ रेखीय बूस्टिंग पर उपयोगी जानकारी के लिए। ध्यान दें कि मैं ऑब्जेक्टिव फंक्शन (जो कि रैखिक भी हो सकता है) के बारे में नहीं बोल रहा हूँ, बल्कि उन्हें बढ़ाने के बारे में बोल रहा हूँ।

धन्यवाद!

— Escachator
स्रोत

मुझे नहीं पता कि यह कैसे लागू किया गया है, लेकिन मुझे कोई कारण नहीं दिखता है कि इसे एक बार में केवल एक ही विशेषता पर क्यों विचार करना चाहिए

— अलेक्सी ग्रिगोरेव

@AlexeyGrigorev सबसे शायद एक समय में कई सुविधाएँ लेता है, लेकिन फिर, इन सुविधाओं का चयन कैसे किया जाता है? रेखीय बूस्टिंग के लिए विशिष्ट प्रक्रिया पर कोई भी दस्तावेज बहुत स्पष्ट होगा।

— एस्काटाटर

आपके प्रश्न का संक्षिप्त उत्तर:

जब एल्गोरिथ्म यह अवशिष्ट (या नकारात्मक ढाल) को फिट करता है, तो क्या यह प्रत्येक चरण (यानी यूनीवेट मॉडल) या सभी सुविधाओं (बहुभिन्नरूपी मॉडल) में एक विशेषता का उपयोग कर रहा है?

एल्गोरिथ्म एक विशेषताओं का उपयोग कर रहा है या सभी सुविधाएँ आपके सेट अप पर निर्भर करती हैं। नीचे सूचीबद्ध मेरे लंबे उत्तर में, दोनों निर्णय स्टंप और रैखिक शिक्षार्थी उदाहरणों में, वे सभी विशेषताओं का उपयोग करते हैं, लेकिन यदि आप चाहें, तो आप सुविधाओं का सबसेट भी फिट कर सकते हैं। नमूनाकरण कॉलम (सुविधाओं) को मॉडल के विचरण को कम करने या मॉडल की "मजबूती" बढ़ाने के रूप में देखा जाता है, खासकर यदि आपके पास बड़ी संख्या में विशेषताएं हैं।

में xgboost, पेड़ आधार शिक्षार्थी के लिए, आप सेट कर सकते हैं colsample_bytreeनमूना प्रत्येक चरण में फिट करने के लिए सुविधाओं के लिए। लीनियर बेस लर्नर के लिए, इस तरह के विकल्प नहीं हैं, इसलिए, यह सभी विशेषताओं को फिट करना चाहिए। इसके अलावा, बहुत से लोग xgboost में लीनियर लर्नर का उपयोग नहीं करते हैं या सामान्य रूप से ग्रेडिएंट बूस्टिंग करते हैं।

बूस्टिंग के लिए कमजोर शिक्षार्थी के रूप में रैखिक के लिए लंबा जवाब:

ज्यादातर मामलों में, हम बेस लर्नर के रूप में रैखिक शिक्षार्थी का उपयोग नहीं कर सकते हैं। कारण सरल है: कई रैखिक मॉडल को एक साथ जोड़ना अभी भी एक रैखिक मॉडल होगा।

हमारे मॉडल को बढ़ाने में आधार शिक्षार्थियों का योग है:

f (x) = \sum_{m = 1}^{M} b_{m} (x)

$f(x)=\sum_{m=1}^M b_m(x)$

जहां बूस्टिंग में पुनरावृत्तियों की संख्या है, पुनरावृति के लिए मॉडल है । $M$ $b_m$ $m^{th}$

यदि आधार शिक्षार्थी रैखिक है, उदाहरण के लिए, मान लें कि हम सिर्फ पुनरावृत्तियों को चलाते हैं , और और , तब $2$ $b_1=\beta_0+ \beta_1x$ $b_2=\theta_0+ \theta_1x$

f (x) = \sum_{m = 1}^{2} b_{m} (x) = β_{0} + β_{1} x + θ_{0} + θ_{1} x = (β_{0} + θ_{0}) + (β_{1} + θ_{1}) x

$f(x)=\sum_{m=1}^2 b_m(x)=\beta_0+ \beta_1x+\theta_0+ \theta_1x=(\beta_0+\theta_0)+ (\beta_1+ \theta_1)x$

जो एक सरल रैखिक मॉडल है! दूसरे शब्दों में, पहनावा मॉडल में बेस लर्नर के साथ "समान शक्ति" है!

इससे भी महत्वपूर्ण बात यह है कि अगर हम रेखीय मॉडल को आधार शिक्षार्थी के रूप में उपयोग करते हैं, तो हम इसे रेखीय प्रणाली को हल करने के बजाय एक कदम कर सकते हैं, हालांकि बूस्टिंग में कई पुनरावृत्तियों। $X^T X \beta = X^T y$

इसलिए, लोग बेस लर्नर के रूप में रैखिक मॉडल की तुलना में अन्य मॉडलों का उपयोग करना पसंद करेंगे। पेड़ एक अच्छा विकल्प है, क्योंकि दो पेड़ जोड़ना एक पेड़ के बराबर नहीं है। मैं इसे एक साधारण मामले के साथ प्रदर्शित करूंगा: निर्णय स्टंप, जो केवल 1 विभाजन वाला एक पेड़ है।

मैं एक फ़ंक्शन फिटिंग कर रहा हूं, जहां डेटा एक साधारण द्विघात फ़ंक्शन, द्वारा उत्पन्न होता है । यहाँ भरा समोच्च जमीनी सच्चाई (बाएं) और अंतिम निर्णय स्टंप बूस्टिंग फिटिंग (दाएं) है। $f(x,y)=x^2+y^2$

अब, पहले चार पुनरावृत्तियों की जाँच करें।

ध्यान दें, रैखिक शिक्षार्थी से भिन्न, 4 पुनरावृति में मॉडल को एक पुनरावृत्ति (एक एकल निर्णय स्टंप) अन्य मापदंडों के साथ प्राप्त नहीं किया जा सकता है।

अब तक, मैंने समझाया, क्यों लोग रैखिक शिक्षार्थी को आधार शिक्षार्थी के रूप में उपयोग नहीं कर रहे हैं। हालांकि, कुछ भी लोगों को ऐसा करने से नहीं रोकता है। यदि हम रेखीय मॉडल को आधार शिक्षार्थी के रूप में उपयोग करते हैं, और पुनरावृत्तियों की संख्या को प्रतिबंधित करते हैं, तो यह एक रेखीय प्रणाली को हल करने के बराबर है, लेकिन हल करने की प्रक्रिया के दौरान पुनरावृत्तियों की संख्या को सीमित करता है।

एक ही उदाहरण, लेकिन 3 डी प्लॉट में, लाल वक्र डेटा हैं, और हरा विमान अंतिम फिट है। आप आसानी से देख सकते हैं, अंतिम मॉडल एक रैखिक मॉडल है, और यह वह है z=mean(data$label)जो x, y विमान के समानांतर है। (आप सोच सकते हैं कि ऐसा क्यों है क्योंकि हमारा डेटा "सममित" है, इसलिए विमान के किसी भी झुकाव से नुकसान बढ़ जाएगा)। अब, पहले 4 पुनरावृत्तियों में क्या हुआ है इसकी जांच करें: सज्जित मॉडल धीरे-धीरे इष्टतम मूल्य (माध्य) पर जा रहा है।

अंतिम निष्कर्ष, लीनियर लर्नर का व्यापक रूप से उपयोग नहीं किया जाता है, लेकिन कुछ भी लोगों को इसका उपयोग करने या इसे आर लाइब्रेरी में लागू करने से नहीं रोकता है। इसके अलावा, आप इसका उपयोग कर सकते हैं और मॉडल को नियमित करने के लिए पुनरावृत्तियों की संख्या को सीमित कर सकते हैं।