अत्यधिक पक्षपाती डेटासेट के साथ ट्री एन्सेम्बल के प्रशिक्षण के लिए निहितार्थ क्या हैं?


14

मेरे पास अत्यधिक पक्षपाती द्विआधारी डेटासेट है - मेरे पास सकारात्मक वर्ग की तुलना में नकारात्मक वर्ग के 1000x अधिक उदाहरण हैं। मैं इस डेटा पर ट्री एनसेंबल (जैसे एक्स्ट्रा रैंडम ट्री या रैंडम फ़ॉरेस्ट) को प्रशिक्षित करना चाहूंगा, लेकिन प्रशिक्षण डेटासेट बनाना मुश्किल है जिसमें सकारात्मक वर्ग के पर्याप्त उदाहरण हैं।

सकारात्मक और नकारात्मक उदाहरणों की संख्या को सामान्य करने के लिए एक स्तरीकृत नमूनाकरण दृष्टिकोण करने के निहितार्थ क्या होंगे? दूसरे शब्दों में, क्या यह उदाहरण के लिए एक बुरा विचार है, प्रशिक्षण सेट में सकारात्मक वर्ग के उदाहरणों को कृत्रिम रूप से फुलाया जाता है?

जवाबों:


10

हाँ, यह समस्याग्रस्त है। यदि आप अल्पसंख्यक की देखरेख करते हैं, तो आप ओवरफिटिंग का जोखिम उठाते हैं। यदि आप बहुमत को रेखांकित करते हैं, तो आप बहुमत वर्ग के लापता पहलुओं को जोखिम में डालते हैं। स्तरीकृत नमूनाकरण, Btw, गैर-समान विविधीकरण लागत निर्दिष्ट करने के बराबर है।

विकल्प:

(1) स्वतंत्र रूप से बहुसंख्यक वर्ग से कई उपसमुच्चय का नमूना ले रहे हैं और सभी अल्पसंख्यक वर्ग के डेटा के साथ प्रत्येक उपसमुच्चय को जोड़कर कई क्लासिफायर बना रहे हैं, जैसा कि @Debasis से जवाब में सुझाव दिया गया है और इस EasyEnsemble पेपर में वर्णित है ,

(2) SMOTE (सिंथेटिक माइनॉरिटी ओवरसम्पलिंग तकनीक) या SMOTEBoost, (बूस्ट के साथ SMOTE का संयोजन) फीचर स्पेस में निकटतम पड़ोसी बनाकर अल्पसंख्यक वर्ग के सिंथेटिक उदाहरण बनाने के लिए। SMOTE को DMwR पैकेज में R में लागू किया गया है


11

मैं आपके डेटा के अधिक संतुलित सबसेट पर प्रशिक्षण की सिफारिश करूंगा। इसी तरह के नकारात्मक नमूनों के साथ यादृच्छिक रूप से चयनित सकारात्मक उदाहरण के सेट पर यादृच्छिक वन का प्रशिक्षण। विशेष रूप से अगर भेदभावपूर्ण विशेषताएं बहुत अधिक विचरण प्रदर्शित करती हैं तो यह काफी प्रभावी होगी और अति-फिटिंग से बचें। हालांकि स्तरीकरण में संतुलन खोजना महत्वपूर्ण है क्योंकि ओवर-फिटिंग एक समस्या बन सकती है। मैं यह देखने का सुझाव दूंगा कि मॉडल पूरे डेटा सेट के साथ कैसे करता है, फिर एक समान अनुपात में आने वाले नकारात्मक नमूनों के लिए सकारात्मक के अनुपात को बढ़ाता है, और कुछ प्रतिनिधि पर अपने प्रदर्शन मीट्रिक को अधिकतम करने वाले डेटा के लिए चयन करता है।

यह पत्र काफी प्रासंगिक लगता है। http://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf यह weighted Random Forestअल्पसंख्यक वर्ग के दुर्व्यवहार को और अधिक कठोर बनाने के बारे में बात करता है ।


4

इस असंतुलन से निपटने के लिए एक तेज़, आसान अक्सर प्रभावी तरीका यह होगा कि आप बड़े वर्ग (जो आपके मामले में नकारात्मक वर्ग है) को बेतरतीब ढंग से सब्सक्राइब करें, दो वर्गों (एक पूर्ण और दूसरे) के सदस्यों के साथ कई बार वर्गीकरण एन नंबर चलाएं सब्सक्राइब किया गया) और औसत मीट्रिक मानों की रिपोर्ट करें, एन (1 1000) पुनरावृत्तियों पर गणना की जाने वाली औसत।

मैपिंग कन्वर्जेन्स (MC) एल्गोरिथ्म को निष्पादित करने के लिए एक अधिक विधिसम्मत तरीका होगा, जिसमें एक वर्गीय वर्गीकरणकर्ता, जैसे OSVM या SVDD, की मदद से मजबूत नकारात्मक नमूनों के सबसेट की पहचान करना और फिर सेट पर द्विआधारी वर्गीकरण को निष्पादित करना शामिल है। मजबूत नकारात्मक और सकारात्मक नमूनों की। एमसी एल्गोरिथ्म का अधिक विवरण इस पत्र में पाया जा सकता है ।


0

जैसा कि ऊपर उल्लेख किया गया है, सबसे अच्छा तरीका बार-बार बहुमत वर्ग एन बार (नमूना प्रतिस्थापन के बिना) नमूना है और प्रत्येक बार के लिए, नकारात्मक वर्ग का आकार सकारात्मक वर्ग के आकार के बराबर होना चाहिए। अब, एन अलग-अलग क्लासिफायर को प्रशिक्षित किया जा सकता है और इसका मूल्यांकन करने के लिए औसत का उपयोग किया जा सकता है।

एक और तरीका बूटस्ट्रैपिंग की तकनीक का उपयोग करना है। यह ओवरफिटिंग को पेश कर सकता है, लेकिन कोशिश करने के लायक है और फिर यदि नेफेड ओवरफिटिंग से बचने के लिए मॉडल को नियमित कर सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.