क्लास-असंतुलन के तहत प्रेसिजन-रिकॉल कर्व्स का अनुकूलन


30

मेरे पास एक वर्गीकरण कार्य है जहां मेरे पास कई भविष्यवक्ता हैं (जिनमें से एक सबसे अधिक जानकारीपूर्ण है), और मैं अपने क्लासिफायर का निर्माण करने के लिए MARS मॉडल का उपयोग कर रहा हूं (मैं किसी भी सरल मॉडल में दिलचस्पी रखता हूं, और उदाहरण के लिए चित्र का उपयोग करना होगा) ठीक हूँ)। अब मेरे पास प्रशिक्षण डेटा (प्रत्येक सकारात्मक नमूने के लिए लगभग 2700 नकारात्मक नमूने) में एक विशाल वर्ग असंतुलन है। सूचना पुनर्प्राप्ति कार्यों के समान, मैं शीर्ष रैंकिंग सकारात्मक परीक्षण नमूनों की भविष्यवाणी करने के बारे में अधिक चिंतित हूं। इस कारण से, प्रेसिजन रिकॉल घटता पर प्रदर्शन मेरे लिए महत्वपूर्ण है।

सबसे पहले, मैंने क्लास के असंतुलन को ध्यान में रखते हुए मॉडल को अपने प्रशिक्षण डेटा पर प्रशिक्षित किया। मैं अपने प्रशिक्षित मॉडल को लाल रंग में देखता हूं, और नीले रंग में सबसे महत्वपूर्ण इनपुट।

असंतुलित डेटा पर प्रशिक्षण, असंतुलित डेटा पर मूल्यांकन :

असंतुलित प्रशिक्षण के लिए पीआर असंतुलित प्रशिक्षण के लिए आर.ओ.सी.

यह सोचकर कि कक्षा असंतुलन मॉडल को फेंक रहा है, चूंकि शीर्ष रैंकिंग सकारात्मक नमूने सीखना पूरे डेटा सेट का एक छोटा हिस्सा है, मैंने संतुलित प्रशिक्षण डेटा सेट प्राप्त करने के लिए सकारात्मक प्रशिक्षण बिंदुओं को अपदस्थ कर दिया। जब मैं संतुलित प्रशिक्षण सेट पर प्रदर्शन की साजिश करता हूं, तो मुझे अच्छा प्रदर्शन मिलता है। पीआर और आरओसी दोनों घटता में, मेरा प्रशिक्षित मॉडल बेहतर है तो इनपुट।

संतुलित डेटा पर प्रशिक्षण (अपग्रेडेड) संतुलित डेटा, मूल्यांकन भी

संतुलित प्रशिक्षण के लिए पीआर, संतुलित डेटासेट पर कल्पना की संतुलित प्रशिक्षण के लिए आरओसी, संतुलित डेटासेट पर कल्पना की गई

हालांकि, अगर मैं मूल, असंतुलित प्रशिक्षण सेट पर भविष्यवाणी करने के लिए संतुलित डेटा पर प्रशिक्षित इस मॉडल का उपयोग करता हूं, तो मुझे अभी भी पीआर वक्र पर खराब प्रदर्शन मिलता है।

संतुलित डेटा (मूल असंतुलित डेटा पर मूल्यांकन) पर प्रशिक्षण:

संतुलित प्रशिक्षण के लिए पीआर, मूल, असंतुलित डेटासेट पर कल्पना की संतुलित प्रशिक्षण के लिए आरओसी, मूल, असंतुलित डेटासेट पर कल्पना की

तो मेरे सवाल हैं:

  1. क्या पीआर वक्र का दृश्य मेरे प्रशिक्षित मॉडल (लाल) के अवर प्रदर्शन को दर्शाता है, जबकि आरओसी वक्र वर्ग असंतुलन के कारण सुधार दिखाता है?
  2. क्या पुनरुत्पादन / अप-सैंपलिंग / डाउन-सैंपलिंग दृष्टिकोण इसे उच्च परिशुद्धता / कम रिकॉल क्षेत्र पर ध्यान केंद्रित करने के लिए प्रशिक्षण के लिए मजबूर कर सकता है?
  3. क्या उच्च परिशुद्धता / कम रिकॉल क्षेत्र पर प्रशिक्षण पर ध्यान केंद्रित करने का कोई अन्य तरीका है?

क्या आप अपने प्रश्न को यह स्पष्ट करने के लिए संपादित कर सकते हैं कि प्रशिक्षण सेट पर कौन से उपायों की गणना की गई है और कौन से डेटा को आयोजित किया गया है?
जैक टान्नर

@JackTanner, सब कुछ अब के लिए निर्धारित प्रशिक्षण पर गणना की जाती है। चूंकि मॉडल में बहुत सारे पैरामीटर नहीं हैं, और प्रशिक्षण सेट में नमूनों की संख्या बहुत बड़ी है इसलिए मुझे ओवरफिटिंग के बारे में बहुत चिंता नहीं है। इसके अलावा, मैं यह सुनिश्चित करना चाहता हूं कि प्रशिक्षण सेट पर मुझे अच्छा प्रदर्शन मिल रहा है इससे पहले कि मैं टेस्ट सेट में उम्मीद कर सकूं।
हाईबेंडविद

अलग-अलग रिकॉल स्तरों पर सटीकता का मूल्यांकन करने के लिए आप अपने लर्निंग अल्गोरिद्म में कौन सी घुंडी को नियंत्रित कर रहे हैं? क्या आपने फीचर संयोजनों और परिवर्तनों के साथ अपने फीचर सेट का विस्तार करने की कोशिश की है?
जैक टान्नर

@JackTanner, मॉडल जो मेरे पास है (लॉज फ़ंक्शन के साथ मार्क) लॉजिस्टिक रिग्रेशन के समान, 0 से 1 के रेंज में आउटपुट देता है। यह मूल रूप से समान है, लेकिन इसमें कुछ और विशेषताएं शामिल हैं। अलग-अलग यादों में सटीकता पाने के लिए, मैं बस अलग-अलग बिंदुओं पर थ्रेसहोल्ड सेट करता हूं। मैं रैंक सूची से पीआर या आरओसी की गणना करने के लिए मानक तरीके का उपयोग करता हूं।
हाईबंडविड

जवाबों:


15
  1. आरओसी वक्र वर्ग असंतुलन में परिवर्तन के लिए असंवेदनशील है; Fawcett (2004) "ROC रेखांकन: नोट्स और व्यावहारिक विचारकों के लिए शोधकर्ता" देखें।
  2. कम-आवृत्ति वर्ग का नमूना एक उचित दृष्टिकोण है।
  3. वर्ग असंतुलन से निपटने के कई अन्य तरीके हैं। बूस्टिंग और बैगिंग दो तकनीकें हैं जो दिमाग में आती हैं। यह एक प्रासंगिक हालिया अध्ययन की तरह लगता है: शोर और असंतुलित डेटा के साथ तुलना बूस्टिंग और बैजिंग तकनीक

पीएस नीट की समस्या; मुझे पता है कि यह कैसे पता चला है प्यार करता हूँ।


1

एक हालिया अध्ययन " असंतुलित डेटा के साथ वर्गीकरण में एक अंतर्दृष्टि: डेटा आंतरिक विशेषताओं का उपयोग करने पर अनुभवजन्य परिणाम और वर्तमान रुझान " असंतुलित डेटा पर बेहतर वर्गीकरण के तीन तरीकों की तुलना करता है:

  • डेटा नमूनाकरण (प्रश्न में सुझाव दिया गया है)
  • एल्गोरिदम संशोधन
  • संवेदनशील शिक्षण लागत

1

मैं इस तथ्य पर ध्यान आकर्षित करना चाहता था, कि पिछले 2 प्रयोग वास्तव में ALMOST THE SAME डेटासेट पर SAME मॉडल का उपयोग कर रहे हैं। प्रदर्शन में अंतर मॉडल अंतर नहीं है, यह सत्यापन डेटासेट के विभिन्न वितरणों और विशेष रूप से उपयोग किए जाने वाले मेट्रिक्स के गुणों द्वारा समझाया जाता है - सटीक और याद करते हैं, जो उस वितरण पर अत्यधिक निर्भर करते हैं। इस बिंदु को थोड़ा और विस्तृत करने के लिए, यदि आपने अपने आरंभिक सत्यापन डेटासेट से X अलग प्रविष्टियां लीं और उत्थानित डेटासेट के लिए अल्पसंख्यक वर्ग को दोहराया, तो आपका मॉडल उन X प्रविष्टियों के लिए एक ही भविष्यवाणी करेगा, जो सही या गलत, दोनों अपंग और असंतुलित हैं। सत्यापन डेटासेट। अंतर केवल इतना है कि प्रत्येक झूठे सकारात्मक के लिए प्रारंभिक डेटासेट में कम सकारात्मक सकारात्मकता होगी (इसलिए कम परिशुद्धता) और संतुलित डेटासेट में अधिक वास्तविक सकारात्मकता (बस इस तथ्य के कारण कि सामान्य रूप से डाटासेट में अधिक सकारात्मक उदाहरण हैं) । यही कारण है कि प्रेसिजन और रिकॉल को तिरछा संवेदनशील माना जाता है। दूसरी ओर, जैसा कि आपके प्रयोगों में भी बताया गया है, आरओसी नहीं बदलता है। इसकी परिभाषा को देखकर भी इसका अवलोकन किया जा सकता है। इसीलिए कहा जाता है कि ROC को तिरछा करने के लिए संवेदनशील नहीं होना चाहिए।

मेरे पास अभी तक अंक 2 और 3 के लिए अच्छे उत्तर नहीं हैं क्योंकि मैं स्वयं उन लोगों की तलाश में हूँ :)


0

अपकेंद्रित सकारात्मक नमूनों को "मूल सेट" के समान "समान वितरण" माना जाता है। जैसे-जैसे सकारात्मक नमूनों की संख्या बढ़ती है, कुछ बदलाव होते हैं

1) "सभी थ्रेसहोल्ड" के लिए ट्रू पॉसिटिव (टीपी) की संख्या बढ़ जाती है और, परिणामस्वरूप, सभी थ्रेसहोल्ड के लिए अनुपात टीपी / (टीपी + एफपी) और टीपी / (टीपी + एफएन) बढ़ जाते हैं। ताकि पीआरसी के तहत क्षेत्र बढ़ रहा है।

2) अपेक्षित सटीकता, जिसे "गूंगा" मॉडल की परिशुद्धता भी कहा जाता है, ~ 1/2700 (मूल सेट में) से ~ 1/2 ("आदर्श" संतुलन के मामले में) बढ़ जाती है। मान लें कि आपका मॉडल बेहतर प्रदर्शन करता है तो "गूंगा" मॉडल का अर्थ है कि वक्र के नीचे का क्षेत्र "मूल सेट" में 0.00037 और आदर्श रूप से संतुलित सेट में 0.5 से अधिक होगा।

3) अपकमिंग डेटासेट पर मॉडल को प्रशिक्षित करते समय, कुछ मॉडल सकारात्मक नमूनों को "ओवरफिट" कर सकते हैं।

आरओसी घटता के संबंध में, आरओसी घटता वर्ग वितरण विविधता से बहुत कम प्रभाव दिखाने के लिए जाना जाता है (एफपीआर पर अपक्षय का बहुत मामूली प्रभाव पड़ता है, जबकि आप टीपीआर पर कुछ प्रभाव देख सकते हैं)।

उच्च परिशुद्धता / कम रिकॉल क्षेत्र में ध्यान केंद्रित करने के संबंध में, आप एक लागत समारोह के संबंध में अनुकूलन कर सकते हैं, जहां झूठी सकारात्मक को अधिक नकारात्मक रूप से दंडित किया जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.