दुर्लभ ईवेंट प्रेडिक्टिव मॉडल के लिए ओवरसैंपलिंग के साथ बैगिंग


13

क्या किसी को पता है कि अगर निम्नलिखित का वर्णन किया गया है और (दोनों ही तरह से) अगर यह एक बहुत ही असंतुलित लक्ष्य चर के साथ एक भविष्य कहनेवाला मॉडल सीखने के लिए एक प्रशंसनीय विधि की तरह लगता है?

अक्सर डेटा खनन के सीआरएम अनुप्रयोगों में, हम एक मॉडल की तलाश करेंगे जहां सकारात्मक घटना (सफलता) बहुमत (नकारात्मक वर्ग) के सापेक्ष बहुत कम है। उदाहरण के लिए, मेरे पास 500,000 उदाहरण हो सकते हैं जहां केवल 0.1% सकारात्मक वर्ग के हैं (जैसे ग्राहक खरीदा गया)। इसलिए, एक प्रेडिक्टिव मॉडल बनाने के लिए, एक तरीका यह है कि आप डेटा को सैंपल दें जिससे आप सभी पॉजिटिव क्लास इंस्टेंसेस और केवल नेगेटिव क्लास इंस्टेंसेस का एक सैंपल रखें ताकि पॉजिटिव से नेगेटिव क्लास का अनुपात 1 के करीब हो (शायद 25%) से 75% सकारात्मक नकारात्मक)। नमूनाकरण, अंडरस्लैमलिंग, एसएमओटीई आदि साहित्य में सभी तरीके हैं।

मैं उत्सुक हूं कि ऊपर बुनियादी नमूना रणनीति का संयोजन कर रहा हूं लेकिन नकारात्मक वर्ग के साथ।

  • सभी सकारात्मक वर्ग उदाहरण रखें (जैसे 1,000)
  • संतुलित नमूना (उदाहरण 1,000) बनाने के लिए नकारात्मक क्लास इंस्टेंस का नमूना लें।
  • मॉडल को फिट करें
  • दोहराना

किसी को भी ऐसा करने से पहले सुना? बगैर परेशानी के यह लगता है कि 500,000 होने पर नकारात्मक वर्ग के केवल 1,000 उदाहरणों का नमूना लेना यह है कि भविष्यवक्ता स्थान विरल होगा और आपके पास संभावित भविष्यवक्ता मूल्यों / प्रतिमानों का प्रतिनिधित्व नहीं हो सकता है। मदद करने में मदद करने लगता है।

मैंने देखा कि रपटर और कुछ भी नहीं "ब्रेक" है जब नमूनों में से एक में एक भविष्यवक्ता के लिए सभी मान नहीं होते हैं (तब नहीं टूटता है जब तब उन भविष्यवाणियों के मूल्यों के साथ उदाहरणों की भविष्यवाणी की जाती है:

library(rpart)
tree<-rpart(skips ~ PadType,data=solder[solder$PadType !='D6',], method="anova")
predict(tree,newdata=subset(solder,PadType =='D6'))

कोई विचार?

अद्यतन: मैंने एक वास्तविक विश्व डेटा सेट लिया (प्रत्यक्ष मेल प्रतिक्रिया डेटा का विपणन) और यादृच्छिक रूप से इसे प्रशिक्षण और सत्यापन में विभाजित किया। 618 भविष्यवक्ता और 1 बाइनरी लक्ष्य (बहुत दुर्लभ) हैं।

Training:
Total Cases: 167,923
Cases with Y=1: 521

Validation:
Total Cases: 141,755
Cases with Y=1: 410

मैंने प्रशिक्षण सेट से सभी सकारात्मक उदाहरण (521) लिए और संतुलित नमूने के लिए समान आकार के नकारात्मक उदाहरणों का एक यादृच्छिक नमूना लिया। मैं एक पेड़ के पेड़ को फिट करता हूं:

models[[length(models)+1]]<-rpart(Y~.,data=trainSample,method="class")

मैंने इस प्रक्रिया को 100 बार दोहराया। फिर इन 100 मॉडलों में से प्रत्येक के लिए सत्यापन नमूने के मामलों पर वाई = 1 की संभावना का अनुमान लगाया। मैंने केवल एक अंतिम अनुमान के लिए 100 संभावनाओं का औसत निकाला। मैंने सत्यापन सेट पर संभावनाओं को निर्धारित किया और प्रत्येक निर्णय में उन मामलों के प्रतिशत की गणना की जहां वाई = 1 (मॉडल की रैंकिंग क्षमता का आकलन करने के लिए पारंपरिक विधि)।

Result$decile<-as.numeric(cut(Result[,"Score"],breaks=10,labels=1:10)) 

यहाँ प्रदर्शन है: यहाँ छवि विवरण दर्ज करें

यह देखने के लिए कि बिना किसी बैगिंग की तुलना में, मैंने केवल पहले नमूने के साथ सत्यापन नमूने की भविष्यवाणी की (सभी सकारात्मक मामलों और समान आकार का एक यादृच्छिक नमूना)। स्पष्ट रूप से, सैंपल आउट किए गए सत्यापन नमूने पर प्रभावी होने के लिए नमूना किया गया डेटा बहुत विरल या ओवरफिट था।

एक दुर्लभ घटना और बड़े एन और पी होने पर बैगिंग रूटीन की प्रभावकारिता का सुझाव देना।

यहाँ छवि विवरण दर्ज करें

जवाबों:


7

प्रत्येक बैग में समान धनात्मक वर्ग के उदाहरणों को शामिल करने के अलावा यह S ^ 3Bagging है जैसा कि S ^ 3Bagging में बताया गया है : फास्ट क्लासिफायर इंडक्शन मेथड विथ सब्स्क्रिप्शनिंग एंड बैगिंग । (मैंने इस पेपर की गहराई से समीक्षा नहीं की है, बस इसे स्किम्ड कर दिया है।)

मैं आपके दृष्टिकोण के साथ सैद्धांतिक रूप से कुछ भी गलत नहीं देख रहा हूं, हालांकि मैंने बहुत बार देखा है कि बैगिंग की तुलना में बढ़ावा देने के साथ संयुक्त रूप से सबसम्पलिंग की गई है।

यह आपके प्रश्न को ठीक से संबोधित नहीं कर सकता है, लेकिन असंतुलित डेटा से निपटने के विभिन्न तरीकों पर एक उत्कृष्ट पेपर लर्निंग फ्रॉम इम्बैलेंट डेटा है । यह लागत संवेदनशील शिक्षा की तरह सीम आपके मामले में अधिक उपयुक्त हो सकता है। चूंकि आप निर्णय वन का उपयोग कर रहे हैं, धारा 3.2.3 लागत-संवेदनशील निर्णय पेड़ शायद सहायक होंगे। य़ह कहता है,

निर्णय पेड़ों के संबंध में, लागत-संवेदनशील फिटिंग तीन रूप ले सकती है: पहला, लागत-संवेदनशील समायोजन निर्णय सीमा पर लागू किया जा सकता है; दूसरा, लागत-संवेदनशील विचार प्रत्येक नोड पर विभाजित मानदंडों को दिया जा सकता है; और अंत में, लागत-संवेदनशील छंटाई योजनाओं को पेड़ पर लागू किया जा सकता है

निर्णय सीमा के लिए लागत संवेदनशील समायोजन मूल रूप से ROC या प्रेसिजन-रिकॉल वक्र प्रदर्शन के आधार पर आपके निर्णय सीमा को चुनने का मतलब है। विशेष रूप से पीआरसी का प्रदर्शन असंतुलित डेटा के लिए मजबूत है।

असंतुलित डेटा से निपटने के लिए लागत संवेदनशील विभाजन मान आपकी अशुद्धता फ़ंक्शन को बदलने के लिए नीचे आता है। उपर्युक्त कागज राज्यों,

[६३] में, तीन विशिष्ट अशुद्धता वाले कार्यों, गिन्नी, एन्ट्रॉपी और डीकेएम को सटीकता / त्रुटि दर आधार रेखा की तुलना में लागत असंवेदनशीलता में सुधार दिखाया गया था। इसके अलावा, इन अनुभवजन्य प्रयोगों से यह भी पता चला है कि डीकेएम फ़ंक्शन का उपयोग करने से आम तौर पर छोटे अप्रत्याशित निर्णय वृक्षों का उत्पादन होता है जो कि बदतर रूप से गिनी और एन्ट्रॉपी की तुलना में सटीकता प्रदान करते हैं। इन अनुभवजन्य परिणामों के निष्कर्षों की व्याख्या करने वाला एक विस्तृत सैद्धांतिक आधार बाद में [४ ९] में स्थापित किया गया था, जो थूक मानदंडों के किसी भी विकल्प के लिए निर्णय वृक्ष के विकास के प्रभावों को सामान्य करता है।

छंटाई के रूप में,

हालांकि, असंतुलित डेटा की उपस्थिति में, छंटाई प्रक्रिया अल्पसंख्यक अवधारणा का वर्णन करने वाली पत्तियों को हटाने के लिए होती है। यह दिखाया गया है कि हालांकि असंतुलित डेटा से प्रेरित छंटाई वाले पेड़ प्रदर्शन में बाधा डाल सकते हैं, लेकिन ऐसे मामलों में अप्रकाशित पेड़ों का उपयोग करने से प्रदर्शन में सुधार नहीं होता है [23]। परिणामस्वरूप, अधिक प्रतिनिधि निर्णय वृक्ष संरचनाओं को विकसित करने के लिए प्रत्येक नोड पर वर्ग संभाव्यता अनुमान में सुधार पर ध्यान दिया गया है, ताकि सकारात्मक प्रभाव के साथ छंटाई को लागू किया जा सके। कुछ प्रतिनिधि कार्यों में प्रायिकता अनुमान की लाप्लास स्मूथिंग विधि और लैप्लस प्रूनिंग तकनीक [49] शामिल हैं।

[२३] एन। जपकोविज़ और एस। स्टीफन, "द क्लास इम्बैलेंस प्रॉब्लम: ए सिस्टमैटिक स्टडी," इंटेलिजेंट डेटा एनालिसिस, वॉल्यूम। 6, नहीं। 5, पीपी। 429- 449, 2002।

[४ ९] सी। एलकान, "लागत-संवेदी सीखने की नींव," प्रोक। Int'l संयुक्त आत्मविश्वास। आर्टिफिशियल इंटेलिजेंस, पीपी। 973-978, 2001।

[६३] सी। ड्रमंड एंड आरसी होल्ते, "एक्सपोज़िटिंग द कॉस्ट (इन) डिसीज़न ऑफ़ सेंसिटिव डिसिजन ट्री स्प्लिटिंग क्राइटेरिया," प्रोक। Int'l आत्मविश्वास। मशीन लर्निंग, पीपी। 239-246, 2000।


0

यह बहुत दिलचस्प है। मेरे पास हाल ही में एक ऐसी परियोजना है जिसमें समान स्थिति है जहां दुर्लभ घटनाओं पर सत्यापन अच्छा प्रदर्शन करता है, जबकि सबसे कम अनुमानित सीमा (जैसे 0.0 - 0.1) में गैर-घटनाओं की मान्यता महीने भर में अस्थिर रूप से प्रदर्शन करती है। आपके द्वारा बताए गए कारणों, गैर-घटनाओं की बड़ी आबादी के कारण, प्रशिक्षण सेटों में अधिक नमूनों को शामिल करना बेहतर है, ताकि चर के विभिन्न संयोजनों को कवर करने के लिए पर्याप्त नमूने हों।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.