बूस्टिंग विधि आउटलेर्स के लिए संवेदनशील क्यों है


12

मुझे कई लेख मिले जो बताते हैं कि बढ़ावा देने के तरीके बाहरी लोगों के लिए संवेदनशील हैं, लेकिन कोई भी लेख क्यों नहीं समझा रहा है।

मेरे अनुभव में किसी भी मशीन लर्निंग एल्गोरिदम के लिए आउटलेयर खराब हैं, लेकिन विशेष रूप से संवेदनशील के रूप में एकल को बढ़ावा देने वाले तरीकों को क्यों बढ़ाया जाता है?

आउटकमर्स को संवेदनशीलता के मामले में रैंक करने के लिए निम्नलिखित एल्गोरिदम कैसे होगा: बूस्ट-ट्री, रैंडम फॉरेस्ट, न्यूरल नेटवर्क, एसवीएम, और लॉजिस्टिक रिग्रेशन जैसे सरल रिग्रेशन तरीके?


1
मैंने स्पष्ट करने का प्रयास करने के लिए संपादित किया है (यदि आप एक पंक्ति की शुरुआत में रिक्त स्थान डालते हैं, तो स्टैकएक्सचेंज इसे कोड के रूप में माना जाएगा)। अपने दूसरे पैरा के लिए, बूस्टिंग तो क्या है? आपको संवेदनशीलता को परिभाषित करना पड़ सकता है।
जेरेमी मील्स

1
इसके अलावा, आउटलेयर और नोइस एक ही चीज नहीं हैं।
जेरेमी मील्स

इस प्रश्न को मैं अभी तक हल नहीं कर पाया हूँ। यह स्पष्ट नहीं है कि अगर बूस्टिंग वास्तव में अन्य तरीकों से अधिक आउटलेर्स से ग्रस्त है या नहीं। ऐसा लगता है कि स्वीकृत जवाब ज्यादातर पुष्टि पूर्वाग्रह के कारण स्वीकार किया गया था।
rinspy

क्या आप कृपया इनमें से कुछ लेख साझा कर सकते हैं?
अचलनाब

जवाबों:


11

बूस्टर को बढ़ाने के लिए बुरा हो सकता है क्योंकि बूस्टिंग प्रत्येक पेड़ को पिछले पेड़ों के अवशेषों / त्रुटियों पर बनाता है। गैर-आउटलेर्स की तुलना में आउटलेर के बहुत बड़े अवशिष्ट होंगे, इसलिए धीरे-धीरे बूस्टिंग उन बिंदुओं पर अपने ध्यान की अनुपातहीन मात्रा को ध्यान में रखेगा।


2
बेहतर होगा कि आप ओपी को अधिक गणितीय विवरण दे सकें!
मेट्रियट

5
@ मेटमैटिका मैं असहमत हूं कि गणितीय विवरण जोड़ने से यहां अतिरिक्त स्पष्टता मिलेगी। यह सिर्फ पेड़ के ढाल, और बाद में पेड़ों के लिए एक सीखने की दर का प्रतीक होगा।
रयान ज़ोटी

1
@RyanZotti: मैं मेटेरिएट से सहमत हूं। अधिक औपचारिक संकेतन कुछ भ्रम को हल करेगा। उदाहरण के लिए वाक्य में 'आउटलेयर में गैर-आउटलेर्स की तुलना में बहुत अधिक अवशिष्ट होंगे' का अर्थ है कि अवशिष्ट क्या है? अनुमानित मॉडल या सच? यदि पूर्व, सामान्य रूप से सही नहीं है और यदि बाद वाला है, तो यह अप्रासंगिक है।
user603

1

आपके द्वारा निर्दिष्ट एल्गोरिदम वर्गीकरण के लिए हैं, इसलिए मैं मान रहा हूं कि आप लक्ष्य चर में आउटलेर का मतलब नहीं है, लेकिन इनपुट चर आउटलेर हैं। बूस्टेड ट्री मेथड्स फीचर में आउटलेर्स के लिए काफी मजबूत होना चाहिए क्योंकि बेस लर्नर ट्री स्प्लिट्स होते हैं। उदाहरण के लिए, यदि विभाजन है x > 3तो 5 और 5,000,000 समान हैं। यह अच्छी बात हो सकती है या नहीं, लेकिन यह एक अलग सवाल है।

यदि इसके बजाय आप लक्ष्य चर में प्रतिगमन और आउटलेर के बारे में बात कर रहे थे , तो बढ़े हुए पेड़ के तरीकों की संवेदनशीलता उपयोग की गई लागत फ़ंक्शन पर निर्भर करेगी। बेशक, चुकता त्रुटि आउटलेर्स के लिए संवेदनशील है क्योंकि अंतर चुकता है और यह अगले पेड़ को अत्यधिक प्रभावित करेगा क्योंकि यह नुकसान को (ढाल) फिट करने के प्रयासों को बढ़ावा देता है। हालांकि, अधिक मजबूत त्रुटि कार्य हैं जो ह्यूबर लॉस और एब्सोल्यूट लॉस जैसे पेड़ के तरीकों को बढ़ावा देने के लिए उपयोग किया जा सकता है ।


0

बूस्टिंग में हम उन डेटासेट को चुनने की कोशिश करते हैं जिन पर एल्गोरिदम के परिणाम डेटा के सबसेट को बेतरतीब ढंग से चुनने के बजाय खराब थे। ये कठिन उदाहरण सीखने के लिए महत्वपूर्ण हैं, इसलिए यदि डेटा सेट में बहुत अधिक आउटलेयर हैं और एल्गोरिदम उन लोगों पर अच्छा प्रदर्शन नहीं कर रहा है, तो उन कठिन उदाहरणों को सीखने के लिए एल्गोरिदम उन उदाहरणों के साथ सबसेट लेने की कोशिश करेगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.