आपके प्रश्न का संक्षिप्त उत्तर:
जब एल्गोरिथ्म यह अवशिष्ट (या नकारात्मक ढाल) को फिट करता है, तो क्या यह प्रत्येक चरण (यानी यूनीवेट मॉडल) या सभी सुविधाओं (बहुभिन्नरूपी मॉडल) में एक विशेषता का उपयोग कर रहा है?
एल्गोरिथ्म एक विशेषताओं का उपयोग कर रहा है या सभी सुविधाएँ आपके सेट अप पर निर्भर करती हैं। नीचे सूचीबद्ध मेरे लंबे उत्तर में, दोनों निर्णय स्टंप और रैखिक शिक्षार्थी उदाहरणों में, वे सभी विशेषताओं का उपयोग करते हैं, लेकिन यदि आप चाहें, तो आप सुविधाओं का सबसेट भी फिट कर सकते हैं। नमूनाकरण कॉलम (सुविधाओं) को मॉडल के विचरण को कम करने या मॉडल की "मजबूती" बढ़ाने के रूप में देखा जाता है, खासकर यदि आपके पास बड़ी संख्या में विशेषताएं हैं।
में xgboost
, पेड़ आधार शिक्षार्थी के लिए, आप सेट कर सकते हैं colsample_bytree
नमूना प्रत्येक चरण में फिट करने के लिए सुविधाओं के लिए। लीनियर बेस लर्नर के लिए, इस तरह के विकल्प नहीं हैं, इसलिए, यह सभी विशेषताओं को फिट करना चाहिए। इसके अलावा, बहुत से लोग xgboost में लीनियर लर्नर का उपयोग नहीं करते हैं या सामान्य रूप से ग्रेडिएंट बूस्टिंग करते हैं।
बूस्टिंग के लिए कमजोर शिक्षार्थी के रूप में रैखिक के लिए लंबा जवाब:
ज्यादातर मामलों में, हम बेस लर्नर के रूप में रैखिक शिक्षार्थी का उपयोग नहीं कर सकते हैं। कारण सरल है: कई रैखिक मॉडल को एक साथ जोड़ना अभी भी एक रैखिक मॉडल होगा।
हमारे मॉडल को बढ़ाने में आधार शिक्षार्थियों का योग है:
f(x)=∑m=1Mbm(x)
जहां बूस्टिंग में पुनरावृत्तियों की संख्या है, पुनरावृति के लिए मॉडल है ।Mbmmth
यदि आधार शिक्षार्थी रैखिक है, उदाहरण के लिए, मान लें कि हम सिर्फ पुनरावृत्तियों को चलाते हैं , और और , तब2b1=β0+β1xb2=θ0+θ1x
f(x)=∑m=12bm(x)=β0+β1x+θ0+θ1x=(β0+θ0)+(β1+θ1)x
जो एक सरल रैखिक मॉडल है! दूसरे शब्दों में, पहनावा मॉडल में बेस लर्नर के साथ "समान शक्ति" है!
इससे भी महत्वपूर्ण बात यह है कि अगर हम रेखीय मॉडल को आधार शिक्षार्थी के रूप में उपयोग करते हैं, तो हम इसे रेखीय प्रणाली को हल करने के बजाय एक कदम कर सकते हैं, हालांकि बूस्टिंग में कई पुनरावृत्तियों।XTXβ=XTy
इसलिए, लोग बेस लर्नर के रूप में रैखिक मॉडल की तुलना में अन्य मॉडलों का उपयोग करना पसंद करेंगे। पेड़ एक अच्छा विकल्प है, क्योंकि दो पेड़ जोड़ना एक पेड़ के बराबर नहीं है। मैं इसे एक साधारण मामले के साथ प्रदर्शित करूंगा: निर्णय स्टंप, जो केवल 1 विभाजन वाला एक पेड़ है।
मैं एक फ़ंक्शन फिटिंग कर रहा हूं, जहां डेटा एक साधारण द्विघात फ़ंक्शन, द्वारा उत्पन्न होता है । यहाँ भरा समोच्च जमीनी सच्चाई (बाएं) और अंतिम निर्णय स्टंप बूस्टिंग फिटिंग (दाएं) है।f(x,y)=x2+y2
अब, पहले चार पुनरावृत्तियों की जाँच करें।
ध्यान दें, रैखिक शिक्षार्थी से भिन्न, 4 पुनरावृति में मॉडल को एक पुनरावृत्ति (एक एकल निर्णय स्टंप) अन्य मापदंडों के साथ प्राप्त नहीं किया जा सकता है।
अब तक, मैंने समझाया, क्यों लोग रैखिक शिक्षार्थी को आधार शिक्षार्थी के रूप में उपयोग नहीं कर रहे हैं। हालांकि, कुछ भी लोगों को ऐसा करने से नहीं रोकता है। यदि हम रेखीय मॉडल को आधार शिक्षार्थी के रूप में उपयोग करते हैं, और पुनरावृत्तियों की संख्या को प्रतिबंधित करते हैं, तो यह एक रेखीय प्रणाली को हल करने के बराबर है, लेकिन हल करने की प्रक्रिया के दौरान पुनरावृत्तियों की संख्या को सीमित करता है।
एक ही उदाहरण, लेकिन 3 डी प्लॉट में, लाल वक्र डेटा हैं, और हरा विमान अंतिम फिट है। आप आसानी से देख सकते हैं, अंतिम मॉडल एक रैखिक मॉडल है, और यह वह है z=mean(data$label)
जो x, y विमान के समानांतर है। (आप सोच सकते हैं कि ऐसा क्यों है क्योंकि हमारा डेटा "सममित" है, इसलिए विमान के किसी भी झुकाव से नुकसान बढ़ जाएगा)। अब, पहले 4 पुनरावृत्तियों में क्या हुआ है इसकी जांच करें: सज्जित मॉडल धीरे-धीरे इष्टतम मूल्य (माध्य) पर जा रहा है।
अंतिम निष्कर्ष, लीनियर लर्नर का व्यापक रूप से उपयोग नहीं किया जाता है, लेकिन कुछ भी लोगों को इसका उपयोग करने या इसे आर लाइब्रेरी में लागू करने से नहीं रोकता है। इसके अलावा, आप इसका उपयोग कर सकते हैं और मॉडल को नियमित करने के लिए पुनरावृत्तियों की संख्या को सीमित कर सकते हैं।
संबंधित पोस्ट:
रैखिक प्रतिगमन के लिए धीरे-धीरे बूस्टिंग - यह काम क्यों नहीं करता है?
एक निर्णय एक रैखिक मॉडल स्टंप है?