कक्षा लेबल के 100% के करीब होने पर एक क्लासिफायर के प्रदर्शन को कैसे मापें?


9

मेरे डेटा में, मेरे पास एक वर्ग चर है, जिसे रूप में दर्शाया गया । यह वर्ग चर मान (बाइनरी) हैं। लगभग सभी अवलोकन 0 हैं (100% के करीब, अधिक सटीक, 97%)। मैं विभिन्न वर्गीकरण मॉडल पर "प्रदर्शन" परीक्षण करना चाहूंगा (यह सटीकता हो सकती है)। मुझे ऐसा होने का डर है कि अगर मेरे पास एक वर्गीकरण मॉडल है जो हमेशा किसी भी अवलोकन को कक्षा 0 में वर्गीकृत करता है, तो वह मॉडल 97% सटीक होगा (भले ही यह किसी भी अन्य चर को नहीं मानता)।सी0,1सी

क्या बहुत दुर्लभ घटनाओं से निपटने वाले डेटा पर वर्गीकरण मॉडल के लिए कोई प्रसिद्ध प्रदर्शन परीक्षण हैं?

जवाबों:


3

कुछ संभावनाएं मेरे दिमाग में आती हैं।

समग्र हिट दर को देखते हुए आमतौर पर यह बहुत अच्छा विचार नहीं है क्योंकि यह परीक्षण सेट की संरचना पर निर्भर करेगा यदि अलग-अलग तापमान के लिए प्रदर्शन भिन्न होता है। तो बहुत कम से कम, आपको सार्थक मूल्य प्राप्त करने के लिए अपने परीक्षण डेटा में कक्षाओं की सापेक्ष आवृत्ति निर्दिष्ट (और उचित) करनी चाहिए।

दूसरे, जैसा कि @Shorack ने पहले ही कहा, निर्दिष्ट करें कि किस प्रकार की त्रुटि कितनी महत्वपूर्ण है। उपयोगी होने के लिए अक्सर, क्लासिफायर को कुछ प्रदर्शन मानदंडों को पूरा करने की आवश्यकता होती है (और समग्र सटीकता शायद ही कभी पर्याप्त उपाय होती है)। संवेदनशीलता, विशिष्टता, सकारात्मक और नकारात्मक पूर्व निर्धारित मूल्य जैसे उपाय हैं जो विभिन्न वर्गों और विभिन्न प्रकार के गर्भपात को ध्यान में रखते हैं। आप कह सकते हैं कि ये उपाय क्लासिफायर के बारे में विभिन्न सवालों के जवाब देते हैं:

  • संवेदनशीलता: कक्षा सी से संबंधित मामलों के किस अंश को इस तरह से मान्यता दी जाती है?
  • विशिष्टता: मामलों की क्या अंश वास्तव में नहीं क्लास सी से संबंधित इस तरह के रूप में मान्यता प्राप्त है?
  • सकारात्मक भविष्य कहनेवाला मूल्य: क्लासिफायरियर क्लास सी की भविष्यवाणी करता है, क्या संभावना है कि यह भविष्यवाणी सही है?
  • नकारात्मक पूर्वानुमानात्मक मूल्य: यह देखते हुए कि क्लासिफायरियर यह भविष्यवाणी करता है कि मामला फॉर्म सी नहीं है, क्या संभावना है कि यह भविष्यवाणी सही है?

ये प्रश्न अक्सर विशिष्टताओं को तैयार करने की अनुमति देते हैं जो उपयोगी होने के लिए क्लासिफायरियर की आवश्यकता होनी चाहिए।

क्लासिफायरियर के व्यावहारिक अनुप्रयोग के दृष्टिकोण से अक्सर अनुमानित भविष्यवाणियां अधिक महत्वपूर्ण होती हैं: वे भविष्यवाणी पर वातानुकूलित होती हैं, यही वह स्थिति है जो आप क्लासफ़र को लागू करते समय करते हैं (एक मरीज आमतौर पर यह जानने में दिलचस्पी नहीं रखता है कि संभावना कितनी है। परीक्षण रोगग्रस्त मामलों को पहचानने के लिए है, बल्कि यह बताया गया है कि संभावित निदान सही है)। हालांकि, उन्हें ठीक से गणना करने के लिए आपको विभिन्न वर्गों में जनसंख्या के सापेक्ष आवृत्तियों को जानने की आवश्यकता होती है, जिसके लिए क्लासिफायरियर का उपयोग किया जाता है (लगता है कि आपके पास यह जानकारी है - इसलिए ऐसा कुछ भी नहीं है जो आपको उस पर नज़र रखने से रोकता है)।

आप सूचना लाभ को भी देख सकते हैं जो एक सकारात्मक या नकारात्मक भविष्यवाणी आपको देता है। यह सकारात्मक और नकारात्मक संभावना अनुपात, LR⁻ और LR and द्वारा मापा जाता है। संक्षेप में, वे आपको बताते हैं कि भविष्यवाणी प्रश्न में कक्षा के प्रति बाधाओं को कितना बदल देती है। ( अधिक विस्तृत विवरण के लिए मेरा जवाब यहां देखें )

आपके तुच्छ क्लासिफायरियर के लिए, चीजें इस तरह दिखती हैं: मैं "0" वर्ग का उपयोग प्रश्न में कक्षा के रूप में करूँगा, इसलिए "सकारात्मक" का अर्थ है कक्षा "0"। 100 मामलों में से, 100 की भविष्यवाणी सकारात्मक है (कक्षा 0 से संबंधित है)। उनमें से 97 वास्तव में करते हैं, 3 नहीं। कक्षा ० के लिए संवेदनशीलता १००% है (कक्षा ० से जुड़े सभी ९ ० मामलों को मान्यता दी गई थी), विशिष्टता ० है (अन्य मामलों में से कोई भी मान्यता प्राप्त नहीं थी)। सकारात्मक विधेय मान (97: 3 सापेक्ष आवृत्ति प्रतिनिधि है) 97% है, नकारात्मक पूर्वानुमानात्मक मूल्य की गणना नहीं की जा सकती है क्योंकि कोई नकारात्मक भविष्यवाणी नहीं हुई है।

एलआर+=संवेदनशीलता1-विशेषता=1
एलआर-=1-संवेदनशीलताविशेषता=00
अब LR⁺ और LR⁻ ऐसे कारक हैं जिनके साथ आप मामले को सकारात्मक वर्ग ("0") से संबंधित करने के लिए बाधाओं को गुणा करते हैं। 1 का LR did होने का मतलब है कि सकारात्मक भविष्यवाणी ने आपको कोई जानकारी नहीं दी: यह बाधाओं को नहीं बदलेगा। तो यहां आपके पास एक उपाय है जो इस तथ्य को स्पष्ट रूप से व्यक्त करता है कि आपका तुच्छ क्लासिफायरियर किसी भी जानकारी को नहीं जोड़ता है


विचारों की पूरी तरह से अलग दिशा: आप उल्लेख करते हैं कि आप विभिन्न वर्गीकरणों का मूल्यांकन करना चाहते हैं। यह थोड़ा तुलनात्मक वर्गीकरण या चयन जैसा लगता है। जिन उपायों के बारे में मैं ऊपर चर्चा करता हूं, वे यह है कि यदि आप "कठिन" श्रेणी के लेबल पर उनका मूल्यांकन करते हैं, तो वे बहुत ही उच्चतर अनिश्चितता (जिसका अर्थ है कि आपको बहुत सारे परीक्षण मामलों की आवश्यकता है ) के अधीन हैं। यदि आपकी भविष्यवाणी मुख्य रूप से निरंतर है (मीट्रिक, उदाहरण के लिए संभावना) तो आप संबंधित उपायों का उपयोग कर सकते हैं जो एक ही तरह के प्रश्न को देखते हैं लेकिन मामलों के भिन्न का उपयोग नहीं करते हैं लेकिन निरंतर उपाय, यहां देखें । भविष्यवाणियों में छोटे अंतर का पता लगाने के लिए ये बेहतर अनुकूल होंगे।

(@FrankHarrell आपको बताएगा कि आपको "उचित स्कोरिंग नियम" की आवश्यकता है, ताकि ध्यान में रखने के लिए एक और खोज शब्द हो।)


3

सबसे पहले: सभी हिट समान रूप से महत्वपूर्ण हैं और सभी समान रूप से महत्वपूर्ण हैं? यदि ऐसा है, तो आपके नल-मॉडल को उस अच्छे स्कोरिंग के साथ कुछ भी गलत नहीं है: यह बस एक उत्कृष्ट समाधान है।

यदि आपको 1 की भविष्यवाणी पर अच्छा प्रदर्शन करना महत्वपूर्ण लगता है, तो आप इसके बजाय एफ-माप का उपयोग कर सकते हैं। यह मूल रूप से रिकॉल का हार्मोनिक मतलब है (वास्तविक 1 के किस भाग की भविष्यवाणी की गई है 1) और सटीक (भविष्यवाणी की गई 1 के हिस्से वास्तव में 1 थे)। एक मॉडल के लिए इस उपाय पर उच्च स्कोर करने के लिए, यह करने की आवश्यकता है:

  1. 1 में से अधिकांश का पता लगाएं।
  2. अक्सर 1 की भविष्यवाणी नहीं करते हैं जब यह वास्तव में 0 होता है।

और इसे एक साथ करने की जरूरत है। यहां तक ​​कि अगर आपका मॉडल लगभग सही तरीके से केवल 2 में से एक करता है, तो यह कम स्कोर होगा यदि यह अन्य आवश्यकता पर प्रदर्शन नहीं करता है। https://en.wikipedia.org/wiki/F1_score


यह एक अनुचित स्कोरिंग नियम है जो भविष्यवाणियों से केवल 1 बिट जानकारी का उपयोग करता है। अनुचित स्कोरिंग नियम फर्जी मॉडल द्वारा अनुकूलित किए जाते हैं।
फ्रैंक हार्ले

2

मुझे खुशी है कि @cbeleites ने दरवाजा खोला ... समवर्ती संभावना या सी-इंडेक्स, जो बाइनरी के विशेष मामले में आरओसी क्षेत्र के बराबर होता है Y, भविष्य कहनेवाला भेदभाव का एक अच्छा सारांश है। आरओसी वक्र में स्वयं एक उच्च स्याही होती है: सूचना अनुपात, लेकिन वक्र के नीचे का क्षेत्र, क्योंकि यह समवर्ती संभावना के बराबर होती है, इसमें कई अच्छी विशेषताएं हैं, उनमें से एक यह है कि यह प्रचलितता से स्वतंत्र हैY=1 चूंकि यह स्थिति है Y। यह काफी उचित नहीं है (सामान्यीकृत उपयोग करें)आर2 उपाय या संभावना अनुपात χ2 इसे प्राप्त करने के लिए) और दो मॉडलों की तुलना करने के लिए उपयोग करने के लिए पर्याप्त संवेदनशील नहीं है, यह एक एकल मॉडल का एक अच्छा सारांश है।


1

रिसीवर ऑपरेटिंग कैरेक्टरिस्टिक (ROC) http://en.wikipedia.org/wiki/Receiver_operating_characteristic वक्र और संबद्ध गणना (अर्थात् एरिया अंडर कर्व- AUC) आमतौर पर उपयोग की जाती हैं। मूल रूप से आप कल्पना करते हैं कि आपका क्लासिफायर एक निरंतर उत्तर देता है (जैसे 0 और 1 के बीच) और आप संवेदनशीलता बनाम झूठी अलार्म दर (1- विशिष्टता) की साजिश करते हैं क्योंकि निर्णय सीमा 0 और 1 के बीच भिन्न होती है। ये विशेष रूप से दुर्लभ घटनाओं (दुश्मन को खोलते हुए) के लिए डिज़ाइन किए गए थे विमानों?)।


1

जब आप दृढ़ता से असंतुलित डेटा के साथ काम कर रहे हैं, तो प्रेसिजन-रिकॉल वक्र एक बहुत अच्छा उपकरण है, जो कि इसके अधिक सामान्य चचेरे भाई आरओसी वक्र से बेहतर है ।

डेविस एट। अल। दिखाया है कि एक एल्गोरिथ्म जो आरओसी वक्र के तहत क्षेत्र का अनुकूलन करता है, पीआर वक्र के तहत क्षेत्र का अनुकूलन करने की गारंटी नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.