क्लासीफायर का मूल्यांकन करते समय त्रुटि मीट्रिक कैसे चुनें?


15

मैंने कागल प्रतियोगिताओं में उपयोग की जाने वाली अलग-अलग त्रुटि मीट्रिक देखी हैं: आरएमएस, माध्य-वर्ग, एयूसी, अन्य। एक त्रुटि मीट्रिक चुनने पर अंगूठे का सामान्य नियम क्या है, अर्थात आप कैसे जानते हैं कि किसी समस्या के लिए किस त्रुटि मीट्रिक का उपयोग करना है? क्या कोई दिशा-निर्देश हैं?

जवाबों:


12

त्रुटि मेट्रिक्स का पूल जिसे आप चुन सकते हैं, वर्गीकरण और प्रतिगमन के बीच अलग है। उत्तरार्द्ध में आप एक निरंतर मूल्य की भविष्यवाणी करने की कोशिश करते हैं, और वर्गीकरण के साथ आप असतत वर्गों जैसे "स्वस्थ" या "स्वस्थ नहीं" का अनुमान लगाते हैं। आपके द्वारा उल्लिखित उदाहरणों से, रूट माध्य वर्ग त्रुटि दो वर्गों के साथ वर्गीकरण के लिए प्रतिगमन और एयूसी के लिए लागू होगी।

मुझे आपको वर्गीकरण पर थोड़ा और विस्तार देना चाहिए। आपने एक उपाय के रूप में एयूसी का उल्लेख किया, जो आरओसी वक्र के तहत क्षेत्र है, जो आमतौर पर केवल दो वर्गों के साथ द्विआधारी वर्गीकरण समस्याओं पर लागू होता है। यद्यपि, दो से अधिक वर्गों के लिए आरओसी वक्र बनाने के तरीके हैं, उन्होंने दो वर्गों के लिए आरओसी वक्र की सादगी को ढीला कर दिया। इसके अलावा, आरओसी घटता का निर्माण केवल तभी किया जा सकता है जब पसंद का क्लासिफायर प्रत्येक पूर्वानुमान के साथ जुड़े किसी प्रकार के स्कोर का उत्पादन करता है। उदाहरण के लिए, लॉजिस्टिक रिग्रेशन आपको प्रत्येक दो वर्गों के लिए संभाव्यता प्रदान करेगा। उनकी सादगी के अलावा आरओसी घटता का यह फायदा है कि वे आपके डेटासेट में सकारात्मक और नकारात्मक रूप से लेबल किए गए उदाहरणों के बीच के अनुपात से प्रभावित नहीं होते हैं और आपको सीमा का चयन करने के लिए मजबूर नहीं करते हैं। फिर भी, यह केवल आरओसी वक्र को ही नहीं बल्कि अन्य विज़ुअलाइज़ेशन को भी देखने की सिफारिश की जाती है। मैं सटीक-याद कर्व्स और कॉस्ट-कर्व्स पर एक नज़र डालने की सलाह दूंगा।एक सही त्रुटि माप, वे सभी अपनी ताकत और कमजोरियों है।

साहित्य मुझे इस संबंध में उपयोगी पाया गया है:

यदि आपका क्लासिफायर किसी प्रकार का स्कोर प्रदान नहीं करता है, तो आपको उन मूल उपायों पर वापस आना होगा जो एक भ्रम मैट्रिक्स से प्राप्त हो सकते हैं जिसमें सही सकारात्मक, गलत सकारात्मक और गलत नकारात्मक की संख्या होती है। ऊपर उल्लिखित विज़ुअलाइज़ेशन (आरओसी, सटीक-रिकॉल, कॉस्ट कर्व) सभी इन तालिकाओं पर आधारित हैं जो कि क्लासिफायर के स्कोर की एक अलग सीमा का उपयोग करके प्राप्त किए गए हैं। इस मामले में सबसे लोकप्रिय उपाय शायद एफ 1-माप हैNN×NN 2×2AA


1
Nएन×एनएन 2×2

इस गलती को इंगित करने के लिए बहुत धन्यवाद, मैंने इसे ऊपर के उत्तर में सही किया।
sebp

5

पहले से मौजूद उत्तरों में कुछ और विचार जोड़ दूं।

  • अधिकांश क्लासीफायर वास्तव में एक मध्यवर्ती सतत स्कोर होता है, जिस पर आमतौर पर कठिन कक्षाओं (टी: क्लास ए, ऊपर: क्लास बी) को लागू करने के लिए एक सीमा लागू की जाती है। इस सीमा को पार करने से आरओसी की पैदावार होती है।
  • सामान्य तौर पर, इस तरह के वक्र को एक संख्या में संपीड़ित करना एक अच्छा विचार नहीं है । उदाहरण देखें सटीकता एल्गोरिदम की तुलना करने के लिए सटीक अनुमान के खिलाफ मामला
    एक ही एयूसी के बहुत सारे अलग-अलग आरओसी हैं, और उपयोगिता किसी दिए गए आवेदन के लिए व्यापक रूप से भिन्न हो सकती है।
  • दूसरा तरीका गोल: आपके पास मौजूद एप्लिकेशन द्वारा सीमा का चुनाव बहुत अधिक निर्धारित किया जा सकता है।
  • आपको इन सीमाओं के बाहर क्लासिफायर प्रदर्शन को देखने की आवश्यकता नहीं है और यदि आप किसी एक को चुनते हैं मीट्रिक , तो कम से कम केवल बाउंडेड अन्य मैट्रिक्स की प्रासंगिक सीमा को संक्षेप में प्रस्तुत करना चाहिए।
  • आपके अध्ययन के डिजाइन के आधार पर, सही या गलत नमूनों के समग्र अंश एक उपयुक्त सारांश हो सकते हैं या नहीं, और आप जो निष्कर्ष निकाल सकते हैं, वह अध्ययन के डिजाइन पर भी निर्भर करेगा: क्या आपका परीक्षण डेटा पूर्व संभावनाओं (व्यापकता) को दर्शाता है कक्षाएं? उस जनसंख्या के लिए जिसे आपके क्लासिफायर का उपयोग किया जाना है? क्या इसे स्तरीकृत तरीके से एकत्र किया गया था? यह इस तथ्य से निकटता से जुड़ा हुआ है कि एक क्लासिफायरियर के अधिकांश उपयोगकर्ता भविष्य कहनेवाला मूल्यों में अधिक रुचि रखते हैं, लेकिन संवेदनशीलता और विशिष्टता को मापना अधिक आसान है।

  • आप सामान्य दिशानिर्देशों के बारे में पूछते हैं। एक सामान्य दिशानिर्देश यह है कि आपको पता होना चाहिए

    • आपको किस तरह के प्रदर्शन की आवश्यकता है (संवेदनशीलता, विशिष्टता, भविष्य कहनेवाला मूल्य आदि) आपके क्लासिफायरियर के व्यवहार के बारे में विशिष्ट प्रश्नों का उत्तर दें, देखें कि मैंने यहां क्या लिखा है )।
    • क्या आपके आवेदन के लिए इन प्रदर्शन विशेषता के लिए स्वीकार्य काम पर्वतमाला ?.
      ये व्यापक रूप से भिन्न हो सकते हैं: आप स्पैम का पता लगाने में कुछ गलत-नकारात्मक को स्वीकार करने के लिए तैयार हो सकते हैं, लेकिन यह एचआईवी निदान के लिए स्वीकार्य सेट-अप नहीं होगा ...

मुझे लगता है कि आप एक खोजने में सक्षम नहीं होंगे जब तक आप इन सवालों के जवाब नहीं दे सकते, तब तक आप उपयोगी मीट्रिक नहीं ।

यह थोड़ा सा है जैसे कि क्लासिफायर सत्यापन में कोई मुफ्त भोजन नहीं है।


2

अपेक्षित गर्भपात त्रुटि दर वह विधि है जिसका मैंने उपयोग किया है और अक्सर देखा है। आरओसी का एयूसी वर्गीकरण नियमों के एक सेट का एक माप है। यदि विचार एक विशिष्ट क्लासिफायर की तुलना दूसरे के साथ करना है तो एयूसी उचित नहीं है। वर्गीकरण त्रुटि का कुछ रूप सबसे अधिक समझ में आता है क्योंकि यह वर्गीकरण नियम के प्रदर्शन का सबसे सीधे प्रतिनिधित्व करता है।

पुनर्वितरण अनुमान के बड़े पूर्वाग्रह और छुट्टी-एक-आउट के उच्च विचरण के कारण बहुत से काम वर्गीकरण त्रुटि दर का अच्छा अनुमान लगाने में चले गए हैं। बूटस्ट्रैप और सुचारू अनुमानक को कंसीडर किया गया है। उदाहरण के लिए देखें क्रॉस सत्यापन पर बूटस्ट्रैप सुधार के बारे में जेएएसए 1983 में एफ्रॉन का पेपर।

यहाँ 1995 की स्टैनफोर्ड यूनिवर्सिटी की तकनीकी रिपोर्ट है जिसमें एफ्रॉन और टिबशिरमी ने अपने कुछ कामों सहित साहित्य को शामिल किया है।


एक ही डेटासेट पर दो क्लासिफायर के प्रदर्शन की तुलना करना बहस का एक और विषय है। विशेष रूप से, आरओसी और एयूसी के मामले में, आरओसी घटता की तुलना करने के लिए कुछ तरीके हैं जो पूरे या एयूसी अनुमान लगाते हैं। वे अनिवार्य रूप से शून्य परिकल्पना के साथ सांख्यिकीय परीक्षण हैं कि आरओसी / एयूसी भिन्न नहीं हैं। क्रॉस-मान्यता बनाम बूटस्ट्रैप एक और दिलचस्प विषय है, मैंने हाल ही में उसके बारे में एक पेपर ( dx.doi.org/10.1016/j.csda.2010.03.004 ) देखा । मुझे लगता है कि यदि आप एक ही बार में सभी पहलुओं पर विचार करते हैं, तो यह बहुत डराने वाला हो सकता है।
sebp
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.