कई ब्लॉग पोस्ट, यूट्यूब वीडियो, आदि के विचारों के बारे में कर रहे हैं जीत या बढ़ाने के पेड़। मेरी सामान्य समझ यह है कि प्रत्येक के लिए छद्म कोड है:
जीतना:
- नमूने के x% और सुविधाओं के y% के N यादृच्छिक नमूने लें
- अपने मॉडल (जैसे, निर्णय पेड़) को एन के प्रत्येक पर फिट करें
- प्रत्येक एन के साथ भविष्यवाणी करें
- अंतिम भविष्यवाणी प्राप्त करने के लिए भविष्यवाणियों को औसत करें
बढ़ाने:
- अपने मॉडल (जैसे, निर्णय वृक्ष) को अपने डेटा में फिट करें
- अवशिष्ट प्राप्त करें
- अपने मॉडल को अवशेषों में फिट करें
- एन बूस्टिंग राउंड के लिए 2 पर जाएं
- अंतिम भविष्यवाणी अनुक्रमिक भविष्यवक्ताओं की एक भारित राशि है।
मैं अपनी समझ से ऊपर कोई स्पष्टीकरण लूंगा, लेकिन मेरा इच्छित प्रश्न इस प्रकार है:
XGBoost और LightGBM दोनों के पास ऐसे परमिशन हैं जो बैगिंग के लिए अनुमति देते हैं। एप्लिकेशन बैजिंग या बूस्टिंग नहीं है (जो हर ब्लॉग पोस्ट के बारे में बात करता है), लेकिन बैजिंग और बूस्टिंग। संयुक्त बैगिंग और बूस्टिंग कहां और कब होता है इसके लिए छद्म कोड क्या है?
मुझे उम्मीद है कि यह "बैज्ड बूस्टेड ट्रीज़" होगा, लेकिन ऐसा लगता है कि यह "बूस्टेड बैग्स ट्रीज़" है। अंतर पर्याप्त लगता है।
उगे हुए पेड़
- नमूने के x% और सुविधाओं के y% के N यादृच्छिक नमूने लें
- फ़िट प्रत्येक एन नमूनों पर बूस्टेड पेड़
- प्रत्येक एन के साथ भविष्यवाणी करें
- अंतिम भविष्यवाणी प्राप्त करने के लिए भविष्यवाणियों को औसत करें
यह ऐसा करने का सबसे अच्छा तरीका लगता है। आखिरकार, बूस्टिंग में जोखिम अधिक है और बैगिंग का प्राथमिक लाभ ओवरफिटिंग को कम करना है; बढ़े हुए मॉडल का एक गुच्छा प्राप्त करना एक महान विचार जैसा लगता है।
हालाँकि, देखने से, उदाहरण के लिए scikit-learn
gradient_boosting.py (जो कि नमूना बैगिंग, लेकिन रैंडम फ़ीचर चयन नहीं करता है), और लाइटबॉगम और XGBoost के बारे में पोस्टों पर कुछ छोटे नगों को एक साथ जोड़कर, यह XGBoost और LightGBM के रूप में निम्नानुसार काम करता है:
बढ़े हुए पेड़ लगे हुए:
- अपने डेटा के लिए एक निर्णय ट्री फिट करें
- मैं एन को बढ़ाने के दौर में:
- अवशिष्ट प्राप्त करें
- अगर मैं mod bag_frequency == 0 (यानी, बैग हर 5 राउंड):
- नमूने के x% और सुविधाओं के y% का एकल यादृच्छिक नमूना लें; आगे जाने वाले इस यादृच्छिक नमूने का उपयोग करें
- अवशेषों के लिए फिट पेड़
- अंतिम भविष्यवाणी अनुक्रमिक भविष्यवक्ताओं की एक भारित राशि है।
कृपया मेरी समझ को यहाँ सुधारें और विवरण भरें। बूस्टेड बैज ट्री (बैग_फ्रीक्वेंसी के हिसाब से सिर्फ 1 रैंडम ट्री के साथ) बोस्टेड बूस्टेड पेड़ जितना शक्तिशाली नहीं लगता।