आपके प्रश्न का संक्षिप्त उत्तर:
जब एल्गोरिथ्म यह अवशिष्ट (या नकारात्मक ढाल) को फिट करता है, तो क्या यह प्रत्येक चरण (यानी यूनीवेट मॉडल) या सभी सुविधाओं (बहुभिन्नरूपी मॉडल) में एक विशेषता का उपयोग कर रहा है?
एल्गोरिथ्म एक विशेषताओं का उपयोग कर रहा है या सभी सुविधाएँ आपके सेट अप पर निर्भर करती हैं। नीचे सूचीबद्ध मेरे लंबे उत्तर में, दोनों निर्णय स्टंप और रैखिक शिक्षार्थी उदाहरणों में, वे सभी विशेषताओं का उपयोग करते हैं, लेकिन यदि आप चाहें, तो आप सुविधाओं का सबसेट भी फिट कर सकते हैं। नमूनाकरण कॉलम (सुविधाओं) को मॉडल के विचरण को कम करने या मॉडल की "मजबूती" बढ़ाने के रूप में देखा जाता है, खासकर यदि आपके पास बड़ी संख्या में विशेषताएं हैं।
में xgboost, पेड़ आधार शिक्षार्थी के लिए, आप सेट कर सकते हैं colsample_bytreeनमूना प्रत्येक चरण में फिट करने के लिए सुविधाओं के लिए। लीनियर बेस लर्नर के लिए, इस तरह के विकल्प नहीं हैं, इसलिए, यह सभी विशेषताओं को फिट करना चाहिए। इसके अलावा, बहुत से लोग xgboost में लीनियर लर्नर का उपयोग नहीं करते हैं या सामान्य रूप से ग्रेडिएंट बूस्टिंग करते हैं।
बूस्टिंग के लिए कमजोर शिक्षार्थी के रूप में रैखिक के लिए लंबा जवाब:
ज्यादातर मामलों में, हम बेस लर्नर के रूप में रैखिक शिक्षार्थी का उपयोग नहीं कर सकते हैं। कारण सरल है: कई रैखिक मॉडल को एक साथ जोड़ना अभी भी एक रैखिक मॉडल होगा।
हमारे मॉडल को बढ़ाने में आधार शिक्षार्थियों का योग है:
f(x)=∑m=1Mbm(x)
जहां बूस्टिंग में पुनरावृत्तियों की संख्या है, पुनरावृति के लिए मॉडल है ।Mbmmth
यदि आधार शिक्षार्थी रैखिक है, उदाहरण के लिए, मान लें कि हम सिर्फ पुनरावृत्तियों को चलाते हैं , और और , तब2b1=β0+β1xb2=θ0+θ1x
f(x)=∑m=12bm(x)=β0+β1x+θ0+θ1x=(β0+θ0)+(β1+θ1)x
जो एक सरल रैखिक मॉडल है! दूसरे शब्दों में, पहनावा मॉडल में बेस लर्नर के साथ "समान शक्ति" है!
इससे भी महत्वपूर्ण बात यह है कि अगर हम रेखीय मॉडल को आधार शिक्षार्थी के रूप में उपयोग करते हैं, तो हम इसे रेखीय प्रणाली को हल करने के बजाय एक कदम कर सकते हैं, हालांकि बूस्टिंग में कई पुनरावृत्तियों।XTXβ=XTy
इसलिए, लोग बेस लर्नर के रूप में रैखिक मॉडल की तुलना में अन्य मॉडलों का उपयोग करना पसंद करेंगे। पेड़ एक अच्छा विकल्प है, क्योंकि दो पेड़ जोड़ना एक पेड़ के बराबर नहीं है। मैं इसे एक साधारण मामले के साथ प्रदर्शित करूंगा: निर्णय स्टंप, जो केवल 1 विभाजन वाला एक पेड़ है।
मैं एक फ़ंक्शन फिटिंग कर रहा हूं, जहां डेटा एक साधारण द्विघात फ़ंक्शन, द्वारा उत्पन्न होता है । यहाँ भरा समोच्च जमीनी सच्चाई (बाएं) और अंतिम निर्णय स्टंप बूस्टिंग फिटिंग (दाएं) है।f(x,y)=x2+y2

अब, पहले चार पुनरावृत्तियों की जाँच करें।

ध्यान दें, रैखिक शिक्षार्थी से भिन्न, 4 पुनरावृति में मॉडल को एक पुनरावृत्ति (एक एकल निर्णय स्टंप) अन्य मापदंडों के साथ प्राप्त नहीं किया जा सकता है।
अब तक, मैंने समझाया, क्यों लोग रैखिक शिक्षार्थी को आधार शिक्षार्थी के रूप में उपयोग नहीं कर रहे हैं। हालांकि, कुछ भी लोगों को ऐसा करने से नहीं रोकता है। यदि हम रेखीय मॉडल को आधार शिक्षार्थी के रूप में उपयोग करते हैं, और पुनरावृत्तियों की संख्या को प्रतिबंधित करते हैं, तो यह एक रेखीय प्रणाली को हल करने के बराबर है, लेकिन हल करने की प्रक्रिया के दौरान पुनरावृत्तियों की संख्या को सीमित करता है।
एक ही उदाहरण, लेकिन 3 डी प्लॉट में, लाल वक्र डेटा हैं, और हरा विमान अंतिम फिट है। आप आसानी से देख सकते हैं, अंतिम मॉडल एक रैखिक मॉडल है, और यह वह है z=mean(data$label)जो x, y विमान के समानांतर है। (आप सोच सकते हैं कि ऐसा क्यों है क्योंकि हमारा डेटा "सममित" है, इसलिए विमान के किसी भी झुकाव से नुकसान बढ़ जाएगा)। अब, पहले 4 पुनरावृत्तियों में क्या हुआ है इसकी जांच करें: सज्जित मॉडल धीरे-धीरे इष्टतम मूल्य (माध्य) पर जा रहा है।

अंतिम निष्कर्ष, लीनियर लर्नर का व्यापक रूप से उपयोग नहीं किया जाता है, लेकिन कुछ भी लोगों को इसका उपयोग करने या इसे आर लाइब्रेरी में लागू करने से नहीं रोकता है। इसके अलावा, आप इसका उपयोग कर सकते हैं और मॉडल को नियमित करने के लिए पुनरावृत्तियों की संख्या को सीमित कर सकते हैं।
संबंधित पोस्ट:
रैखिक प्रतिगमन के लिए धीरे-धीरे बूस्टिंग - यह काम क्यों नहीं करता है?
एक निर्णय एक रैखिक मॉडल स्टंप है?