अपने दूसरे प्रश्न के साथ शुरू करना और फिर पहले पर जाना आसान है।
ऊलजलूल का कपड़ा
रैंडम फॉरेस्ट एक बैगिंग एल्गोरिथम है। यह विचरण को कम करता है।
कहें कि आपके पास बहुत अविश्वसनीय मॉडल हैं, जैसे निर्णय पेड़। (क्यों अविश्वसनीय है? क्योंकि यदि आप अपना डेटा थोड़ा-बहुत बदलते हैं, तो बनाया गया निर्णय ट्री बहुत भिन्न हो सकता है।) ऐसी स्थिति में, आप बैगिंग के माध्यम से एक मजबूत मॉडल (विचरण कम करें) का निर्माण कर सकते हैं - जब आप विभिन्न मॉडल बनाते हैं परिणामी मॉडल को और अधिक मजबूत बनाने के लिए अपने डेटा को पुनः साझा करके।
रैंडम फॉरेस्ट जिसे हम निर्णय पेड़ों पर लगाए गए बैगिंग के लिए कहते हैं, लेकिन यह अन्य बैगिंग एल्गोरिदम से अलग नहीं है।
तुमने ऐसा क्यों करना चाहोगे? यह समस्या पर निर्भर करता है। लेकिन आमतौर पर, मॉडल के स्थिर होने के लिए यह अत्यधिक वांछनीय है।
बढ़ाने
बूस्टिंग, विचरण को कम करता है, और पूर्वाग्रह को भी कम करता है। यह भिन्नता को कम करता है क्योंकि आप कई मॉडल (बैगिंग) का उपयोग कर रहे हैं। यह बाद के मॉडल को प्रशिक्षित करके पूर्वाग्रह को कम करता है कि उसे यह बताएं कि पिछले मॉडल (बूस्टिंग पार्ट) में क्या त्रुटियां हैं।
दो मुख्य एल्गोरिदम हैं:
- Adaboost: यह मूल एल्गोरिथ्म है; आप बाद के मॉडल को पिछले मॉडल द्वारा गलत किए गए अधिक भारी टिप्पणियों को दंडित करने के लिए कहते हैं
- ग्रेडिंग बूस्टिंग: आप प्रत्येक बाद के मॉडल को अवशिष्ट (अनुमानित और सच्चे मूल्यों के बीच का अंतर) का उपयोग करके प्रशिक्षित करते हैं
इन पहनावों में, आपका आधार सीखने वाला कमजोर होना चाहिए। यदि यह डेटा ओवरफिट करता है, तो बाद के मॉडल के निर्माण के लिए कोई अवशिष्ट या त्रुटियां नहीं होंगी। ये अच्छे मॉडल क्यों हैं? खैर, कागले जैसी वेबसाइटों में अधिकांश प्रतियोगिताओं को धीरे-धीरे बढ़ाने वाले पेड़ों का उपयोग करके जीता गया है। डेटा विज्ञान एक अनुभवजन्य विज्ञान है, "क्योंकि यह काम करता है" काफी अच्छा है। किसी भी तरह, ध्यान दें कि बूस्टिंग मॉडल ओवरफिट हो सकता है (हालांकि अनुभवजन्य रूप से यह बहुत आम नहीं है)।
एक और कारण है कि विशेष रूप से ढाल बूस्टिंग, भी बहुत अच्छा है: क्योंकि यह विभिन्न नुकसान कार्यों का उपयोग करना बहुत आसान बनाता है, तब भी जब व्युत्पन्न उत्तल नहीं होता है। उदाहरण के लिए, जब संभावित पूर्वानुमान का उपयोग करते हैं, तो आप अपने नुकसान के कार्य के रूप में पिनबॉल फ़ंक्शन जैसे सामान का उपयोग कर सकते हैं ; कुछ जो तंत्रिका नेटवर्क के साथ बहुत कठिन है (क्योंकि व्युत्पन्न हमेशा स्थिर होता है)।
[दिलचस्प ऐतिहासिक नोट: बूस्टिंग मूल रूप से एक सैद्धांतिक आविष्कार था जो सवाल से प्रेरित था " क्या हम कमजोर मॉडल का उपयोग करके एक मजबूत मॉडल का निर्माण कर सकते हैं ]
सूचना: लोग कभी-कभी यादृच्छिक वन और ढाल बढ़ाने वाले पेड़ों को भ्रमित करते हैं, सिर्फ इसलिए कि दोनों निर्णय पेड़ों का उपयोग करते हैं, लेकिन वे दासों के दो बहुत अलग परिवार हैं।