हमें XGBoost और यादृच्छिक वन की आवश्यकता क्यों है?


25

मैं कुछ अवधारणाओं पर स्पष्ट नहीं था:

  1. XGBoost कमजोर शिक्षार्थियों को मजबूत शिक्षार्थियों में परिवर्तित करता है। ऐसा करने से क्या फायदा? केवल एक पेड़ का उपयोग करने के बजाय कई कमजोर शिक्षार्थियों का संयोजन?

  2. रैंडम फॉरेस्ट एक पेड़ बनाने के लिए पेड़ से विभिन्न नमूने का उपयोग करता है। केवल एक विलक्षण पेड़ का उपयोग करने के बजाय इस पद्धति का क्या फायदा है?

जवाबों:


35

अपने दूसरे प्रश्न के साथ शुरू करना और फिर पहले पर जाना आसान है।

ऊलजलूल का कपड़ा

रैंडम फॉरेस्ट एक बैगिंग एल्गोरिथम है। यह विचरण को कम करता है।

कहें कि आपके पास बहुत अविश्वसनीय मॉडल हैं, जैसे निर्णय पेड़। (क्यों अविश्वसनीय है? क्योंकि यदि आप अपना डेटा थोड़ा-बहुत बदलते हैं, तो बनाया गया निर्णय ट्री बहुत भिन्न हो सकता है।) ऐसी स्थिति में, आप बैगिंग के माध्यम से एक मजबूत मॉडल (विचरण कम करें) का निर्माण कर सकते हैं - जब आप विभिन्न मॉडल बनाते हैं परिणामी मॉडल को और अधिक मजबूत बनाने के लिए अपने डेटा को पुनः साझा करके।

रैंडम फॉरेस्ट जिसे हम निर्णय पेड़ों पर लगाए गए बैगिंग के लिए कहते हैं, लेकिन यह अन्य बैगिंग एल्गोरिदम से अलग नहीं है।

तुमने ऐसा क्यों करना चाहोगे? यह समस्या पर निर्भर करता है। लेकिन आमतौर पर, मॉडल के स्थिर होने के लिए यह अत्यधिक वांछनीय है।

बढ़ाने

बूस्टिंग, विचरण को कम करता है, और पूर्वाग्रह को भी कम करता है। यह भिन्नता को कम करता है क्योंकि आप कई मॉडल (बैगिंग) का उपयोग कर रहे हैं। यह बाद के मॉडल को प्रशिक्षित करके पूर्वाग्रह को कम करता है कि उसे यह बताएं कि पिछले मॉडल (बूस्टिंग पार्ट) में क्या त्रुटियां हैं।

दो मुख्य एल्गोरिदम हैं:

  • Adaboost: यह मूल एल्गोरिथ्म है; आप बाद के मॉडल को पिछले मॉडल द्वारा गलत किए गए अधिक भारी टिप्पणियों को दंडित करने के लिए कहते हैं
  • ग्रेडिंग बूस्टिंग: आप प्रत्येक बाद के मॉडल को अवशिष्ट (अनुमानित और सच्चे मूल्यों के बीच का अंतर) का उपयोग करके प्रशिक्षित करते हैं

इन पहनावों में, आपका आधार सीखने वाला कमजोर होना चाहिए। यदि यह डेटा ओवरफिट करता है, तो बाद के मॉडल के निर्माण के लिए कोई अवशिष्ट या त्रुटियां नहीं होंगी। ये अच्छे मॉडल क्यों हैं? खैर, कागले जैसी वेबसाइटों में अधिकांश प्रतियोगिताओं को धीरे-धीरे बढ़ाने वाले पेड़ों का उपयोग करके जीता गया है। डेटा विज्ञान एक अनुभवजन्य विज्ञान है, "क्योंकि यह काम करता है" काफी अच्छा है। किसी भी तरह, ध्यान दें कि बूस्टिंग मॉडल ओवरफिट हो सकता है (हालांकि अनुभवजन्य रूप से यह बहुत आम नहीं है)।

एक और कारण है कि विशेष रूप से ढाल बूस्टिंग, भी बहुत अच्छा है: क्योंकि यह विभिन्न नुकसान कार्यों का उपयोग करना बहुत आसान बनाता है, तब भी जब व्युत्पन्न उत्तल नहीं होता है। उदाहरण के लिए, जब संभावित पूर्वानुमान का उपयोग करते हैं, तो आप अपने नुकसान के कार्य के रूप में पिनबॉल फ़ंक्शन जैसे सामान का उपयोग कर सकते हैं ; कुछ जो तंत्रिका नेटवर्क के साथ बहुत कठिन है (क्योंकि व्युत्पन्न हमेशा स्थिर होता है)।

[दिलचस्प ऐतिहासिक नोट: बूस्टिंग मूल रूप से एक सैद्धांतिक आविष्कार था जो सवाल से प्रेरित था " क्या हम कमजोर मॉडल का उपयोग करके एक मजबूत मॉडल का निर्माण कर सकते हैं ]


सूचना: लोग कभी-कभी यादृच्छिक वन और ढाल बढ़ाने वाले पेड़ों को भ्रमित करते हैं, सिर्फ इसलिए कि दोनों निर्णय पेड़ों का उपयोग करते हैं, लेकिन वे दासों के दो बहुत अलग परिवार हैं।


1
बूस्टिंग कम करके एक अवशिष्ट औसत लेकर अवशिष्ट और विचरण को मॉडलिंग करके पूर्वाग्रह को कम करता है; सीएफ Ability 5.5 पूर्वाग्रह, भिन्नता और स्थिरता , पीपी। 118, बूस्टिंग: फ़ाउंडेशन एंड अल्गोरिद्म , रॉबर्ट ई। शेपायर, योव फ्रंड।
Emre

@ आगे, आप निश्चित रूप से सही हैं। किसी ने मेरी पोस्ट संपादित और बदल को कम से वृद्धि हुई है । मैंने इसे वापस कर दिया है।
रिकार्डो क्रूज़

8

जब आप एक पेड़ का निर्माण करते हैं, तो आपको नोड्स को विभाजित करने के लिए कुछ मानदंडों को परिभाषित करने की आवश्यकता होती है। इनमें सूचना लाभ और गिन्नी सूचकांक जैसे मैट्रिक्स शामिल हैं। वे हेयुरिस्टिक दृष्टिकोण हैं, उन्हें सर्वश्रेष्ठ संभव विभाजन देने की गारंटी नहीं है ।

वास्तव में वजन कुछ विशेषताएं कम प्रासंगिक और / या अधिक शोर, और वास्तविक डेटा में होने वाली कई अन्य समस्याएं हैं। संक्षेप में, आप एक सभ्य कम्प्यूटेशनल समय में एक आदर्श पेड़ का निर्माण नहीं कर सकते हैं (आप निश्चित रूप से सभी संभव पेड़ों का निर्माण कर सकते हैं और सबसे अच्छा परीक्षण कर सकते हैं, लेकिन फिर आपको मध्यम आकार के डेटासेट में भी प्रशिक्षण के लिए कुछ साल इंतजार करना होगा)।

चूंकि हमारे पास सबसे अच्छा पेड़ नहीं हो सकता है , हमारे पास अनुमान हैं। एक अनुमान कई पेड़ों (विभिन्न डेटा विभाजन या विशेषता विभाजन का उपयोग करके) का निर्माण करने के लिए है, क्योंकि हम उम्मीद करते हैं कि अधिकांश पेड़ कुछ हद तक सही हों, और एक मतदान प्रणाली में उनके वर्गीकरण पर विचार करें; यह सबसे अधिक शोर से निपटना चाहिए, ऊर्ध्वाधर विभाजन अप्रासंगिक विशेषताओं से निपट सकता है, हेयुरिस्टिक का कम महत्व है, और शायद अन्य फायदे।


1

मैं अच्छे उत्तरों में एक छोटा सा जोड़ दूंगा। मुख्य समस्या ओवरफिटिंग है। जैसे ही आपके पास एक से अधिक पैरामीटर हैं और गैर-रेखीय फ़ंक्शन भी जोड़ते हैं, सभी एल्गोरिदम ओवरफिट होने लगते हैं। वे डेटा में कुछ ऐसा देखते हैं जो मौजूद नहीं है। जैसे कि जब यह अंधेरा होता है या कोहरा मजबूत होता है तो लोग अंधेरे / कोहरे में ऐसी चीजों को देखते हैं जो मौजूद नहीं हैं। लगभग सभी कम्प्यूटेशनल एल्गोरिदम मनुष्यों की तुलना में अधिक ओवरफिटिंग करते हैं। यहां तक ​​कि जब रैखिक अत्यधिक सहसंबद्ध होते हैं, तो रेखीय पंजीकरण भी अजीब गुणांक दिखाने लगते हैं। यदि ओवरफिटिंग नहीं होती थी, तो सामान्य निर्णय वाले पेड़, जिन पर वे एल्गोरिदम आधारित होते हैं, रैंडम फॉरेस्ट या एक्सजीबीओस्ट से बेहतर होते।

और कोई सटीक विज्ञान नहीं है कि ओवरफिटिंग क्यों होती है और क्यों कुछ एल्गोरिदम दूसरों की तुलना में बेहतर हैं। सिद्धांत रूप में एआरआईएमए मॉडल बहुत ही ध्वनि हैं, लेकिन अभ्यास से पता चलता है कि घातीय चौरसाई तकनीक का उपयोग करना बेहतर है और एआरआईएमए भी अलग-अलग चर नहीं कर सकता है जो एआरआईएमए के अनुसार व्यवहार करते हैं, लेकिन विभिन्न मापदंडों के साथ।

कुछ तंत्रिका नेटवर्क और विशेष रूप से दृढ़ तंत्रिका नेटवर्क में कम ओवरफ़िटिंग दिखाई देती है। एक ही समय में पूरी तरह से जुड़े तंत्रिका नेटवर्क का मूल विचार ओवरफिटिंग की वजह से उच्च संख्या में न्यूरॉन्स के साथ विफल हो जाता है।

ओवरफिटिंग से लड़ने की मुख्य संभावनाएं हैं:

  1. यादृच्छिक नमूना
  2. कई मॉडलों में औसत
  3. मॉडल को यादृच्छिक बनाना (तंत्रिका नेटवर्क का प्रशिक्षण करते समय न्यूरॉन्स की यादृच्छिक गिरावट)

अगर मैं एल्गोरिदम को सही ढंग से समझता हूं तो रैंडम फ़ॉरेस्ट और XGBoost दोनों कई मॉडलों में यादृच्छिक नमूने और औसत करते हैं और इस तरह ओवरफिटिंग को कम करने का प्रबंधन करते हैं।

ImageNet छवि मान्यता प्रतियोगिता में 2016 के लिए सबसे अच्छा मॉडल (शाओ एट अल) कई वास्तव में अच्छे मॉडल का एक संयोजन था। उनमें से कुछ ने पिछले वर्षों में प्रतियोगिता जीती थी। इस मॉडल पर आधारित किसी भी मॉडल की तुलना में 20% कम त्रुटि थी। इस तरह से कई मॉडलों में औसत ओवरफिटिंग से लड़ने में मजबूत हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.