क्या 1% जैसी कम घटना दर वाले डेटा के लिए ग्रेडिंग बूस्ट उचित है?


14

मैं एंटरप्राइज़ माइनर का उपयोग करके लगभग 1% की दर से एक डेटासेट पर ग्रेडिंग बढ़ाने की कोशिश कर रहा हूं, लेकिन यह किसी भी आउटपुट का उत्पादन करने में विफल हो रहा है। मेरा प्रश्न यह है कि चूंकि यह एक निर्णय आधारित पेड़ है, इसलिए क्या इस तरह के निम्न घटना के साथ ढाल को बढ़ावा देना सही है?


3
आप असंतुलित डेटासेट के साथ काम कर रहे हैं। बूस्टिंग वास्तव में इससे निपटने का एक अच्छा तरीका है। जानकारी के लिए देखें आँकड़े ।stackexchange.com
questions/

लेकिन मेरे लिए लॉजिस्टिक रिग्रेशन रैंडमटेस्ट या ग्रेडिएंट बूस्टिंग की तुलना में बेहतर परिणाम दे रहा है। मैं अपने मॉडल के प्रदर्शन में सुधार करना चाहता था, बढ़े हुए पेड़ों की कोशिश करके।
user2542275

बूस्टिंग कमजोर क्लासीफायर पर आधारित है। सैद्धांतिक रूप से, कोई भी कमजोर क्लासिफायरियर जो यादृच्छिक से थोड़ा बेहतर होता है। व्यवहार में अलग-अलग एल्गोरिदम कुछ डेटा सेट के लिए अधिक उपयुक्त होते हैं, इसलिए आपके द्वारा चुने गए कमजोर क्लासिफ़ायर महत्वपूर्ण हैं। क्या आप उपयोग किए गए एल्गोरिदम, उनके परिणामों और डेटा सेट के बारे में अधिक बता सकते हैं?
DaL

ठीक है। डेटासेट के बारे में: नमूना आकार> 4 मीटर, घटना दर = 1.2%। भविष्यवाणियों की संख्या जो महत्वपूर्ण पी-मूल्य हैं <0.05 150 हैं। सबसे महत्वपूर्ण चर के साथ लॉजिस्टिक प्रतिगमन 20% आबादी पर 3 की लिफ्ट दी। तंत्रिका नेटवर्क ने लगभग 2.8 की लिफ्ट दी। धीरे-धीरे बूस्टिंग ने कोई आउटपुट नहीं दिया, जब तक कि मैंने उलट पूर्व वजन के साथ स्तरीकृत नमूने का उपयोग नहीं किया। लेकिन प्रदर्शन खराब है।
user2542275

चूंकि आपका डेटा सेट काफी बड़ा है, इसलिए आपके पास अपने अल्पसंख्यक वर्ग के पर्याप्त नमूने होने चाहिए, इसलिए समस्या सापेक्ष असंतुलन के कारण है। आपके पास कुछ विशेषताएं हैं लेकिन बहुत अधिक नहीं, लेकिन वास्तव में निर्णय ट्री ऐसे डेटासेट के लिए कम उपयुक्त हैं। मेरा सुझाव है कि आप एक संतुलित डेटासेट बनाएंगे और देखेंगे कि आपके एल्गोरिदम इस पर कितना अच्छा प्रदर्शन करते हैं। जिस तरह से मैंने पहली टिप्पणी में वर्णित किया था, उसके मूल एल्गोरिथ्म पर एल्गोरिथ्म लागू कर सकेंगे।
DaL

जवाबों:


7

(इसका संक्षिप्त उत्तर देने के लिए :)

असंतुलित डेटासेट के साथ काम करते समय एक ढाल बूस्टिंग मशीन एल्गोरिदम का उपयोग करना ठीक है। जब एक दृढ़ता से असंतुलित डेटासेट के साथ काम करते हैं, तो उपयोग की जाने वाली मीट्रिक की उपयुक्तता पर सवाल उठाना अधिक प्रासंगिक होता है। हमें संभावित रूप से सटीक या रिकॉल जैसे मेट्रिक्स से बचना चाहिए, जो कि मनमाने ढंग से थ्रेसहोल्ड पर आधारित होते हैं, और एयूसीपीआर या बायर स्कोरिंग जैसे मैट्रिक्स के लिए चुनते हैं, जो अधिक सटीक तस्वीर देते हैं - उत्कृष्ट CV.SE थ्रेड देखें: सटीकता क्यों नहीं है वर्गीकरण मॉडल का आकलन करने के लिए सबसे अच्छा उपाय? अधिक जानकारी के लिए)। इसी तरह, हम संभावित रूप से विभिन्न गर्भपात लागतों को निर्दिष्ट करके एक लागत-संवेदनशील दृष्टिकोण को नियोजित कर सकते हैं (उदाहरण के लिए मसनदी-शिराज़ी और वास्कोनसेलोस (2011) लागत-संवेदनशील बूस्टिंगएक सामान्य दृष्टिकोण और ज्ञात बूस्टिंग एल्गोरिदम के लिए प्रस्तावित परिवर्तनों के लिए या एक सरल दृष्टिकोण के साथ एक विशेष दिलचस्प आवेदन के लिए XGBoost एल्गोरिथ्म के लिए हिग्स बोसोन चुनौती रिपोर्ट की जांच करें; चेन एंड हे (2015) बूस्टेड ट्रीज के साथ हिग्स बोसोन डिस्कवरी अधिक विवरण प्रदान करता है)।

यह भी ध्यान देने योग्य है कि यदि हम एक संभाव्य क्लासिफायरिफायर (जैसे GBMs) को नियोजित करते हैं, तो हम सक्रिय रूप से लौटी हुई संभावनाओं को कैलिब्रेट कर सकते हैं (जैसे कि Zadrozny & Elkan (2002) देखें) क्लासिफायरिफायर स्कोर को सटीक मल्टीप्लेयर प्रायिकता अनुमानों या Kull et al में बदलना । 2017) बीटा अंशांकन: हमारे शिक्षार्थी के प्रदर्शन को बढ़ाने के लिए एक अच्छी तरह से स्थापित और बाइनरी क्लासिफायर के लिए लॉजिस्टिक अंशांकन पर आसानी से लागू किया गया सुधार । खासकर जब असंतुलित डेटा के साथ काम करना पर्याप्त रूप से प्रवृत्ति परिवर्तन को कैप्चर करता है तो डेटा को लेबल करने की तुलना में अधिक जानकारीपूर्ण हो सकता है। उस सीमा तक, कुछ का तर्क हो सकता है कि लागत-संवेदनशील दृष्टिकोण अंत में फायदेमंद नहीं हैं (उदाहरण के लिए निकोलाउ एट अल (2016 देखें)।लागत-संवेदनशील बूस्टिंग एल्गोरिदम: क्या हमें वास्तव में उनकी आवश्यकता है? )। हालांकि मूल बिंदु को दोहराना, एल्गोरिदम को बढ़ावा देना असंतुलित डेटा के लिए स्वाभाविक रूप से खराब नहीं है और कुछ मामलों में वे बहुत प्रतिस्पर्धी विकल्प की पेशकश कर सकते हैं।


मेरा मानना ​​है कि ब्रायर स्कोरिंग सटीकता के माप के बराबर है, इसलिए दुर्लभ घटना मॉडल का आकलन करते समय सटीकता के समान सीमाएं होंगी।
रॉबर्ट 23

बैरियर स्कोर एक्यूरेसी के बराबर नहीं है। कृपया ध्यान दें कि हम Brier स्कोर की गणना के लिए अनुमानित संभावना का उपयोग करते हैं, जबकि सटीकता गणना के लिए हम अनुमानित संभावनाओं की हार्ड थ्रॉल्डिंग के आधार पर लेबल का उपयोग करते हैं।
us --r11852

स्पष्ट करने के लिए धन्यवाद - अनुमानित वर्ग के लिए 0/1 के बजाय अनुमानित संभावना का उपयोग करना अधिक समझ में आता है।
रॉबर्ट एफएफ

ठंडा। मुझे खुशी है कि हमने इसे सुलझा लिया! :)
us18r11852
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.