बाइनरी वर्गीकरण के लिए नुकसान कार्यों के बीच चयन करना


18

मैं एक समस्या डोमेन में काम करता हूं जहां लोग अक्सर ROC-AUC या AveP (औसत परिशुद्धता) की रिपोर्ट करते हैं। हालाँकि, मुझे हाल ही में ऐसे कागजात मिले हैं जो लॉग नुकसान की बजाय अनुकूलन करते हैं, जबकि अन्य लोग हिंग लॉस की रिपोर्ट करते हैं ।

जबकि मैं समझता हूं कि इन मैट्रिक्स की गणना कैसे की जाती है, मुझे उनके बीच के व्यापार-उतार को समझने में कठिन समय मिल रहा है और जो वास्तव में अच्छा है।

जब यह आरओसी-एयूसी बनाम प्रेसिजन-रिकॉल की बात आती है, तो यह थ्रेड चर्चा करता है कि आरओसी-एयूसी-अधिकतमकरण को एक नुकसान अनुकूलन मानदंड का उपयोग करते हुए कैसे देखा जा सकता है जो "एक वास्तविक नकारात्मक को कम से कम एक वास्तविक सकारात्मक के रूप में बड़े पैमाने पर रैंकिंग" को दंडित करता है (उच्चतर मानकर) स्कोर सकारात्मक के अनुरूप)। इसके अलावा, यह अन्य धागा भी प्रेसिजन-रिकॉल मेट्रिक्स के विपरीत आरओसी-एयूसी की एक सहायक चर्चा प्रदान करता है ।

हालांकि, किस प्रकार की समस्याओं के लिए नुकसान को खत्म करना पसंद किया जाएगा, कहते हैं, आरओसी-एयूसी , एएवीपी या हिंग नुकसान ? सबसे महत्वपूर्ण बात, द्विआधारी वर्गीकरण के लिए इन नुकसान कार्यों के बीच चयन करते समय किसी को किस प्रकार के प्रश्न पूछने चाहिए?

जवाबों:


8

मामले पर अत्याधुनिक संदर्भ [1] है। अनिवार्य रूप से, यह दिखाता है कि आपके द्वारा निर्दिष्ट सभी नुकसान कार्य तेज दरों के साथ बेयस क्लासिफायर में परिवर्तित होंगे।

परिमित नमूनों के लिए इनमें से चुनना कई विभिन्न तर्कों द्वारा संचालित किया जा सकता है:

  1. यदि आप घटना की संभावनाओं (और न केवल वर्गीकरण) को पुनर्प्राप्त करना चाहते हैं, तो लॉजिस्टिक लॉग-लॉस, या कोई अन्य सामान्यीकृत रैखिक मॉडल (प्रोबेट रिग्रेशन, पूरक-लॉग-रिग्रेशन, ...) एक प्राकृतिक उम्मीदवार है।
  2. यदि आप केवल वर्गीकरण पर लक्ष्य कर रहे हैं, तो एसवीएम एक पसंदीदा विकल्प हो सकता है, क्योंकि यह वर्गीकरण के आधार पर केवल टिप्पणियों को लक्षित करता है, और दूर के अवलोकन को अनदेखा करता है, इस प्रकार ग्रहण किए गए रैखिक मॉडल की सत्यता के प्रभाव को कम करता है।
  3. यदि आपके पास कई अवलोकन नहीं हैं, तो 2 में लाभ नुकसान हो सकता है।
  4. कम्प्यूटेशनल अंतर हो सकते हैं: दोनों निर्दिष्ट अनुकूलन समस्या में, और विशेष कार्यान्वयन में जो आप उपयोग कर रहे हैं।
  5. निचला रेखा- आप बस उन सभी को आज़मा सकते हैं और सर्वश्रेष्ठ कलाकार चुन सकते हैं।

[१] बार्टलेट, पीटर एल, माइकल I जॉर्डन, और जॉन डी मैकुलिफ। "उत्तलता, वर्गीकरण और जोखिम सीमाएँ।" जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन 101, सं। 473 (मार्च 2006): 138–56। डोई: 10.1198 / 016214505000000907।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.