यादृच्छिक वन एक बूस्टिंग एल्गोरिथ्म है?


51

बढ़ाने की संक्षिप्त परिभाषा :

क्या कमजोर शिक्षार्थियों का एक समूह एक मजबूत शिक्षार्थी बना सकता है? एक कमजोर शिक्षार्थी को एक क्लासिफायरियर के रूप में परिभाषित किया जाता है जो केवल सच्चे वर्गीकरण से थोड़ा संबंधित है (यह यादृच्छिक अनुमान से बेहतर उदाहरणों को लेबल कर सकता है)।

यादृच्छिक वन की लघु परिभाषा :

यादृच्छिक जंगलों में कई वर्गीकरण पेड़ उगते हैं। एक इनपुट वेक्टर से एक नई वस्तु को वर्गीकृत करने के लिए, जंगल के प्रत्येक पेड़ के नीचे इनपुट वेक्टर डालें। प्रत्येक पेड़ एक वर्गीकरण देता है, और हम उस वर्ग के लिए पेड़ को "वोट" कहते हैं। जंगल सबसे अधिक वोट (जंगल में सभी पेड़ों पर) होने का वर्गीकरण चुनता है।

रैंडम फ़ॉरेस्ट की एक और छोटी परिभाषा :

एक यादृच्छिक वन एक मेटा अनुमानक है जो डेटासेट के विभिन्न उप-नमूनों पर कई निर्णय ट्री क्लासिफायर को फिट करता है और पूर्वानुमान की सटीकता में सुधार करने और ओवर-फिटिंग को नियंत्रित करने के लिए औसत का उपयोग करता है।

जैसा कि मैं समझता हूं कि रैंडम फॉरेस्ट एक बूस्टिंग एल्गोरिथम है जो पेड़ों को अपने कमजोर वर्ग के रूप में उपयोग करता है। मुझे पता है कि यह अन्य तकनीकों का भी उपयोग करता है और उन पर सुधार करता है। किसी ने मुझे सही किया कि रैंडम फ़ॉरेस्ट एक बूस्टिंग एल्गोरिथम नहीं है?

क्या कोई इस बारे में विस्तार से बता सकता है कि रैंडम फ़ॉरेस्ट एक बूस्टिंग एल्गोरिथम क्यों नहीं है?


13
रैंडम वन एक बैगिंग एल्गोरिथ्म है: en.wikipedia.org/wiki/Bootstrap_aggregating । मेरा सुझाव है कि आप अंतर को देखने के लिए बढ़ावा देने के कम से कम संभावित विवरण से अधिक पढ़ें। बढ़ावा देने में, रेज़मैप्लिंग रणनीति यादृच्छिक नहीं है।
मार्क क्लेसेन

12
मजेदार तथ्य: मूल रैंडम फ़ॉरेस्ट पेपर में ब्रेमेन का सुझाव है कि AdaBoost (निश्चित रूप से एक बूस्टिंग एल्गोरिथ्म) ज्यादातर रैंडम फ़ॉरेस्ट करता है, जब कुछ पुनरावृत्तियों के बाद, इसका अनुकूलन स्थान इतना शोर हो जाता है कि यह बस स्टोचस्टिक रूप से घूमता है।

जवाबों:


81

रैंडम फॉरेस्ट एक बूस्टिंग एल्गोरिथम के बजाय एक बैगिंग एल्गोरिथम है। कम त्रुटि प्राप्त करने के लिए वे दो विपरीत तरीके हैं।

हम जानते हैं कि त्रुटि को पूर्वाग्रह और भिन्नता से जोड़ा जा सकता है। एक बहुत ही जटिल मॉडल में कम पूर्वाग्रह होता है, लेकिन बड़ा विचरण होता है, जबकि एक बहुत ही सरल मॉडल में कम विचरण होता है, लेकिन बड़े पूर्वाग्रह, दोनों एक उच्च त्रुटि लेकिन दो अलग-अलग कारणों का कारण बनते हैं। नतीजतन, समस्या को हल करने के दो अलग-अलग तरीके लोगों के दिमाग में आते हैं (शायद ब्रेमेन और अन्य), एक जटिल मॉडल के लिए विचरण में कमी, या एक साधारण मॉडल के लिए पूर्वाग्रह में कमी, जो यादृच्छिक वन और बढ़ावा देने को संदर्भित करता है।

यादृच्छिक वन कम पूर्वाग्रह वाले "जटिल" मॉडल की एक बड़ी संख्या के विचरण को कम करता है। हम देख सकते हैं कि रचना तत्व "कमजोर" मॉडल नहीं हैं, बल्कि बहुत जटिल मॉडल हैं। यदि आप एल्गोरिथ्म के बारे में पढ़ते हैं, तो अंतर्निहित पेड़ों को "कुछ हद तक" बड़े "संभव" के रूप में लगाया जाता है। अंतर्निहित पेड़ स्वतंत्र समानांतर मॉडल हैं। और उन्हें और भी अधिक स्वतंत्र बनाने के लिए अतिरिक्त रैंडम वैरिएबल सेलेक्शन की शुरुआत की जाती है, जो इसे "बैडमिंटन" नाम के साधारण बैगिंग और एट्रिब्यूट से बेहतर बनाता है।

जबकि बढ़ावा देने से कम विचरण के साथ बड़ी संख्या में "छोटे" मॉडल के पूर्वाग्रह कम हो जाते हैं। जैसा कि आपने उद्धृत किया वे "कमजोर" मॉडल हैं। अंतर्निहित तत्व किसी तरह "चेन" या "नेस्टेड" पुनरावृत्त मॉडल की तरह हैं जो प्रत्येक स्तर के पूर्वाग्रह के बारे में हैं। इसलिए वे स्वतंत्र समानांतर मॉडल नहीं हैं, लेकिन प्रत्येक मॉडल को वजन करके सभी पूर्व छोटे मॉडल के आधार पर बनाया गया है। यह एक-एक करके तथाकथित "बूस्टिंग" है।

ब्रेमन के कागजात और किताबें पेड़ों, बेतरतीब जंगल और काफी को बढ़ावा देने के बारे में चर्चा करती हैं। यह आपको एल्गोरिथ्म के पीछे के सिद्धांत को समझने में मदद करता है।


25

एक यादृच्छिक वन को एल्गोरिथम का एक बढ़ावा देने वाला प्रकार नहीं माना जाता है।

जैसा कि आपके बूस्टिंग लिंक में बताया गया है:

... अधिकांश बूस्टिंग एल्गोरिदम एक वितरण के संबंध में चलने वाले कमजोर क्लासिफायर को सीखने और अंतिम रूप से मजबूत क्लासिफायर के साथ जोड़ने से मिलकर होते हैं। जब उन्हें जोड़ा जाता है, तो उन्हें आमतौर पर किसी तरह से भारित किया जाता है जो आमतौर पर कमजोर शिक्षार्थियों की सटीकता से संबंधित होता है। कमजोर शिक्षार्थी को जोड़ने के बाद, डेटा फिर से लोड किया जाता है ...

इस पुनरावृत्तीय प्रक्रिया का एक उदाहरण adaboost है, जिसके तहत कमजोर परिणामों को बढ़ाया जाता है या कई पुनरावृत्तियों पर पुन: लोड किया जाता है ताकि शिक्षार्थी उन क्षेत्रों पर अधिक ध्यान केंद्रित कर सकें, जो गलत थे, और उन टिप्पणियों पर कम थे जो सही थे।

एक यादृच्छिक वन, इसके विपरीत, एक पहनावा बैगिंग या औसत तरीका है जिसका उद्देश्य अलग-अलग पेड़ों के विचरण को बेतरतीब ढंग से चुनकर (और इस तरह डी-सहसंबंधित) डेटासेट से कई पेड़ों को कम करना है, और उन्हें औसत करना है।


7

यह बैगिंग का विस्तार है। प्रक्रिया इस प्रकार है, आप अपने डेटा का बूटस्ट्रैप नमूना लेते हैं और फिर इसका उपयोग वर्गीकरण या प्रतिगमन पेड़ (CART) विकसित करने के लिए करते हैं। यह पूर्वनिर्धारित संख्या में किया जाता है और भविष्यवाणी तब व्यक्तिगत पेड़ों की भविष्यवाणियों का एकत्रीकरण है, यह बहुसंख्यक वोट (वर्गीकरण के लिए) या औसत (प्रतिगमन के लिए) हो सकता है। इस दृष्टिकोण को बैगिंग (ब्रीमन 1994) कहा जाता है। के लिए इसके अलावा उम्मीदवार चर प्रत्येक के विभाजन प्रत्येकपेड़ सभी उपलब्ध स्वतंत्र चर के यादृच्छिक नमूने से लिया गया है। यह और भी अधिक परिवर्तनशीलता का परिचय देता है और पेड़ों को अधिक विविध बनाता है। इसे यादृच्छिक उप-विधि विधि (हो, 1998) कहा जाता है। जैसा कि उल्लेख किया गया है, यह उन पेड़ों का उत्पादन करता है जो बहुत विविध हैं जो पेड़ों में अनुवाद करते हैं जो एक दूसरे से अत्यधिक स्वतंत्र हैं। की वजह से जेन्सेन की असमानता हम जानते हैं कि इन पेड़ों भविष्यवाणियों की त्रुटियों की औसत छोटे या औसत पेड़ कि डेटा सेट से बड़ा हो गया की त्रुटि के बराबर हो जाएगा। इसे देखने का एक और तरीका है मीन स्क्वेर्ड एरर को देखना और नोटिस करना कि यह पूर्वाग्रह और विचरण भागों में कैसे विघटित हो सकता है (यह पर्यवेक्षित शिक्षा में एक मुद्दे से संबंधित है जिसे पूर्वाग्रह-विचरण व्यापार कहा जाता है)। यादृच्छिक वन ऑर्थोगोनल पेड़ों की भविष्यवाणी के औसत के माध्यम से विचरण को कम करके बेहतर सटीकता प्राप्त करते हैं। यह ध्यान दिया जाना चाहिए कि यह अपने पेड़ों के पूर्वाग्रह को विरासत में मिला है, जो काफी चर्चा की समस्या है, उदाहरण के लिए इस प्रश्न की जांच करें ।


5

मेरा मानना ​​है कि आप सामान्य रूप से कलाकारों की टुकड़ी के साथ विशेष रूप से बूस्टिंग को भ्रमित कर रहे हैं, जिनमें से कई हैं। बढ़ावा देने की आपकी "परिभाषा" पूरी परिभाषा नहीं है, जो पैट के जवाब में विस्तृत है। यदि आप कलाकारों की टुकड़ी के तरीकों के बारे में अधिक जानना चाहते हैं, तो मैं आपको निम्नलिखित पुस्तक लेने की सलाह देता हूं:

जॉन एल्डर और जियोवानी सेनी। डाटा माइनिंग में एसेम्बल मेथड्स: कंबाइंड प्रीडिक्शन के जरिए सटीकता में सुधार । (2010)


3

रैंडम फॉरेस्ट एक बैगिंग तकनीक है न कि एक बूस्टिंग तकनीक। जैसा कि नाम से पता चलता है, को बढ़ावा देने में, एक दूसरे से सीख रहा है जो बदले में सीखने को बढ़ाता है।

यादृच्छिक जंगलों में पेड़ों को समानांतर में चलाया जाता है। पेड़ों के निर्माण के दौरान इन पेड़ों के बीच कोई बातचीत नहीं होती है। एक बार जब सभी पेड़ बन जाते हैं, तो सभी पेड़ों की भविष्यवाणी के आधार पर मतदान या औसत लिया जाता है, इस पर निर्भर करता है कि समस्या एक वर्गीकरण है या प्रतिगमन समस्या।

GBM- ग्रैडिएंट बूस्टिंग मशीन जैसे एल्गोरिदम को बढ़ावा देने वाले पेड़ों को क्रमिक रूप से प्रशिक्षित किया जाता है।

मान लीजिए कि पहला पेड़ प्रशिक्षित हो गया और उसने प्रशिक्षण के आंकड़ों पर कुछ भविष्यवाणियाँ कीं। ये सभी भविष्यवाणियां सही नहीं होंगी। मान लीजिए कि कुल 100 भविष्यवाणियों में से, पहले पेड़ ने 10 टिप्पणियों के लिए गलती की। दूसरा पेड़ बनाते समय अब ​​इन 10 अवलोकनों को अधिक वेटेज दिया जाएगा। ध्यान दें कि पहले पेड़ के सीखने से दूसरे पेड़ की सीख को बढ़ावा मिला। इसलिए, शब्द बूस्टिंग। इस तरह, प्रत्येक पेड़ पिछले पेड़ों से सीख के आधार पर क्रमिक रूप से बनाए गए हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.