(इसका संक्षिप्त उत्तर देने के लिए :)
असंतुलित डेटासेट के साथ काम करते समय एक ढाल बूस्टिंग मशीन एल्गोरिदम का उपयोग करना ठीक है। जब एक दृढ़ता से असंतुलित डेटासेट के साथ काम करते हैं, तो उपयोग की जाने वाली मीट्रिक की उपयुक्तता पर सवाल उठाना अधिक प्रासंगिक होता है। हमें संभावित रूप से सटीक या रिकॉल जैसे मेट्रिक्स से बचना चाहिए, जो कि मनमाने ढंग से थ्रेसहोल्ड पर आधारित होते हैं, और एयूसीपीआर या बायर स्कोरिंग जैसे मैट्रिक्स के लिए चुनते हैं, जो अधिक सटीक तस्वीर देते हैं - उत्कृष्ट CV.SE थ्रेड देखें: सटीकता क्यों नहीं है वर्गीकरण मॉडल का आकलन करने के लिए सबसे अच्छा उपाय? अधिक जानकारी के लिए)। इसी तरह, हम संभावित रूप से विभिन्न गर्भपात लागतों को निर्दिष्ट करके एक लागत-संवेदनशील दृष्टिकोण को नियोजित कर सकते हैं (उदाहरण के लिए मसनदी-शिराज़ी और वास्कोनसेलोस (2011) लागत-संवेदनशील बूस्टिंगएक सामान्य दृष्टिकोण और ज्ञात बूस्टिंग एल्गोरिदम के लिए प्रस्तावित परिवर्तनों के लिए या एक सरल दृष्टिकोण के साथ एक विशेष दिलचस्प आवेदन के लिए XGBoost एल्गोरिथ्म के लिए हिग्स बोसोन चुनौती रिपोर्ट की जांच करें; चेन एंड हे (2015) बूस्टेड ट्रीज के साथ हिग्स बोसोन डिस्कवरी अधिक विवरण प्रदान करता है)।
यह भी ध्यान देने योग्य है कि यदि हम एक संभाव्य क्लासिफायरिफायर (जैसे GBMs) को नियोजित करते हैं, तो हम सक्रिय रूप से लौटी हुई संभावनाओं को कैलिब्रेट कर सकते हैं (जैसे कि Zadrozny & Elkan (2002) देखें) क्लासिफायरिफायर स्कोर को सटीक मल्टीप्लेयर प्रायिकता अनुमानों या Kull et al में बदलना । 2017) बीटा अंशांकन: हमारे शिक्षार्थी के प्रदर्शन को बढ़ाने के लिए एक अच्छी तरह से स्थापित और बाइनरी क्लासिफायर के लिए लॉजिस्टिक अंशांकन पर आसानी से लागू किया गया सुधार । खासकर जब असंतुलित डेटा के साथ काम करना पर्याप्त रूप से प्रवृत्ति परिवर्तन को कैप्चर करता है तो डेटा को लेबल करने की तुलना में अधिक जानकारीपूर्ण हो सकता है। उस सीमा तक, कुछ का तर्क हो सकता है कि लागत-संवेदनशील दृष्टिकोण अंत में फायदेमंद नहीं हैं (उदाहरण के लिए निकोलाउ एट अल (2016 देखें)।लागत-संवेदनशील बूस्टिंग एल्गोरिदम: क्या हमें वास्तव में उनकी आवश्यकता है? )। हालांकि मूल बिंदु को दोहराना, एल्गोरिदम को बढ़ावा देना असंतुलित डेटा के लिए स्वाभाविक रूप से खराब नहीं है और कुछ मामलों में वे बहुत प्रतिस्पर्धी विकल्प की पेशकश कर सकते हैं।