ROC AUC और F1 स्कोर के बीच चयन कैसे करें?


26

मैंने हाल ही में एक कागज़ प्रतियोगिता पूरी की जिसमें प्रतियोगिता की आवश्यकता के अनुसार आरयूसी स्कोर का उपयोग किया गया था। इस परियोजना से पहले, मैं आमतौर पर मॉडल प्रदर्शन को मापने के लिए मीट्रिक के रूप में f1 स्कोर का उपयोग करता था। आगे बढ़ते हुए, मुझे आश्चर्य है कि मुझे इन दो मैट्रिक्स के बीच कैसे चुनना चाहिए? कब, कौन सा उपयोग करें और उनके संबंधित पेशेवरों और विपक्ष क्या हैं?

Btw, मैंने यहाँ लेख पढ़ा AUC और F1-स्कोर के बीच अंतर क्या हैं? , लेकिन यह मुझे नहीं बताता कि कब कौन सा उपयोग करना है।

किसी भी सहायता के लिए अग्रिम रूप से धन्यवाद!

जवाबों:


14

यहां सूचीबद्ध कोई भी उपाय उचित सटीकता स्कोरिंग नियम नहीं हैं, अर्थात, एक सही मॉडल द्वारा अनुकूलित किए गए नियम। बैरियर स्कोर और लॉग-लाइबिलिटी-आधारित उपायों जैसे कि छद्म । -index (AUROC; सामंजस्य संभावना) उचित नहीं है, लेकिन एक भी मॉडल का वर्णन के लिए अच्छा है। यह मॉडल चुनने के लिए उपयोग करने के लिए या यहां तक ​​कि दो मॉडल के रूप में कुछ की तुलना करने के लिए पर्याप्त संवेदनशील नहीं है।आर2सी


आपके उत्तर के लिए धन्यवाद फ्रैंक! मुझे कुछ और स्पष्टीकरण चाहिए। यदि हम केवल आरओसी एयूसी और एफ 1 स्कोर से चुन सकते हैं, तो आप कौन सा चुनेंगे और क्यों? उन दोनों के पक्ष और विपक्ष क्या हैं?
जॉर्ज लियू

2
यदि आपको केवल -index और F1 में से चुनने की अनुमति है, तो आप दृढ़ता से पर्याप्त बहस नहीं कर रहे हैं। स्वर्ण मानक लॉग-लाइबिलिटी, दंडित लॉग-लाइबिलिटी, या बायेसियन समतुल्य (जैसे, डीआईसी) है। इसके बाद बैरियर स्कोर है। सी
फ्रैंक हरेल

2
Citeulike.org/user/harrelfe/article/14321176 देखें ; मैंने इसे अपने सिमुलेशन के साथ दिखाया है। यदि असंतुलन ओवरसैंपलिंग / अंडरस्मीपलिंग के कारण नहीं है, तो आप असंतुलन की परवाह किए बिना किसी भी उचित स्कोरिंग नियम का उपयोग कर सकते हैं।
फ्रैंक हरेल

1
@FrankHarrell: लिंक मृत है, क्या आप इसे रीचेक कर सकते हैं?
SiXUlm

13

गणना सूत्र:

  • परिशुद्धता टीपी / (टीपी + एफपी)
  • याद: टीपी / (टीपी + एफएन)
  • एफ 1-स्कोर-2 / (1 / P + 1 / R)
  • आरओसी / एयूसी PR टीपीआर = टीपी / (टीपी + एफएन), एफपीआर = एफपी / (एफपी + टीएन)

आरओसी / एयूसी एक ही मानदंड है और पीआर (प्रिसिजन-रिकॉल) वक्र (एफ 1-स्कोर, प्रिसिजन, रिकॉल) भी यही मानदंड है।

वास्तविक डेटा में सकारात्मक और नकारात्मक नमूनों के बीच असंतुलन होगा। यह असंतुलन पीआर पर बड़ा प्रभाव डालता है, लेकिन आरओसी / एयूसी पर नहीं।

इसलिए वास्तविक दुनिया में, पीआर वक्र का उपयोग अधिक किया जाता है क्योंकि सकारात्मक और नकारात्मक नमूने बहुत असमान हैं। आरओसी / एयूसी वक्र क्लासिफायरियर के प्रदर्शन को नहीं दर्शाता है, लेकिन पीआर वक्र कर सकता है।

यदि आप केवल शोध पत्रों में प्रयोग करते हैं, तो आप आरओसी का उपयोग कर सकते हैं, प्रयोगात्मक परिणाम अधिक सुंदर होंगे। दूसरी ओर, पीआर वक्र वास्तविक समस्या में उपयोग करता है, और इसकी बेहतर व्याख्या है।


7

उपरोक्त उत्तर दोनों अच्छे हैं।

लेकिन मैं जिस बिंदु को इंगित करना चाहता हूं वह है एयूसी (आरओसी के तहत क्षेत्र) समस्याग्रस्त है विशेष रूप से डेटा असंतुलित है (इसलिए इसे अत्यधिक तिरछा कहा जाता है: बड़ा है)। कार्रवाई का पता लगाने, धोखाधड़ी का पता लगाने, दिवालियापन की भविष्यवाणी ect में इस तरह की स्थितियां बहुत आम हैं। यही है, आपके द्वारा देखभाल किए जाने वाले सकारात्मक उदाहरणों में घटना की अपेक्षाकृत कम दर है।एसकश्मीरw=nजीटीमैंvएक्समीटरपीएलरोंपीरोंमैंटीमैंvएक्समीटरपीएलरों

असंतुलित डेटा के साथ, एयूसी अभी भी आपको लगभग 0.8 का अनुमानित मूल्य देता है। हालांकि, यह बड़े टीपी (सच्चे सकारात्मक) के बजाय बड़े एफपी के कारण अधिक है।

नीचे दिए गए उदाहरण के रूप में,

TP=155,   FN=182
FP=84049, TN=34088

इसलिए जब आप क्लासिफायर के प्रदर्शन को मापने के लिए एयूसी का उपयोग करते हैं, तो समस्या यह है कि एयूसी का बढ़ना वास्तव में एक बेहतर क्लासिफायर को प्रतिबिंबित नहीं करता है। यह बहुत सारे नकारात्मक उदाहरणों का सिर्फ साइड-इफेक्ट है। आप सीधे आपको डेटासेट में आज़मा सकते हैं।

एफβ=(1+β2)पीआरसीमैंरोंमैंnआरसीएलएल(β2पीआरसीमैंरोंमैंn)+आरसीएलएल

β

फिर, असंतुलित डेटा के लिए मेरे सुझाव इस पोस्ट के समान हैं । आप डिकाइल टेबल भी आज़मा सकते हैं, जिसका निर्माण "टू-बाय-टू क्लासिफिकेशन और डेसीबल टेबल्स" को खोज कर किया जा सकता है। इस बीच, मैं भी इस समस्या पर अध्ययन कर रहा हूं और बेहतर उपाय करूंगा।


यदि आप किसी विधि के प्रदर्शन की परवाह करते हैं, तो आप इसका वर्गीकरण प्रदर्शन दिखाने के लिए ROC का बेहतर उपयोग करेंगे, लेकिन यदि आप वास्तविक सकारात्मकता की वास्तविक भविष्यवाणी के बारे में अधिक परवाह करते हैं, तो एफ 1-स्कोर का उद्योग में स्वागत है।
Xiaorui झू

2
एक वास्तविक व्यवसाय सेटिंग में, झूठी सकारात्मकता की लागत और झूठी नकारात्मक की लागत का अनुमान लगाया जा सकता है। फिर अंतिम वर्गीकरण एक संभाव्य मॉडल के आधार पर होना चाहिए और झूठी वर्गीकरण की लागत को कम करने के लिए चुना गया एक वर्गीकरण सीमा है। मैं वास्तव में सटीकता के बारे में नहीं सोचता, या एफ स्कोर में अनुशासित डेटा वैज्ञानिक के लिए कई वास्तविक अनुप्रयोग हैं।
मैथ्यू

हां, मैं निर्णय पद्धति की प्रक्रिया से सहमत हूं जो झूठी वर्गीकरण की लागत में कटौती की संभावना को कम करती है। और कुछ मामलों में, असममित लागत एफपी और एफएन पर लागू किया जा सकता है। लेकिन सटीकता और एफ स्कोर का बिंदु एक मॉडल के समग्र प्रदर्शन की जांच करना या कई मॉडलों के बीच प्रदर्शन की तुलना करना है। दरअसल, डेटा वैज्ञानिक के रूप में हाथ में डेटा के साथ, लागत न्यूनतमकरण हमेशा संभव हो सकता है। लेकिन मुझे इस बात की उत्सुकता है कि निर्णय की समस्या के समाधान के व्यावहारिक (वितरण में भिन्नता) की जरूरत है। मैं जानना चाहूंगा कि क्या आप मेरे साथ कुछ साझा कर सकते हैं। षट्
श्याओरी ज़ू

1
व्यक्तिगत रूप से, मैं हमेशा एक मॉडल के फिट होने की अच्छाई का मूल्यांकन करता हूं जो सशर्त संभावनाओं के आधार पर इसकी भविष्यवाणी करता है। इसलिए मैं हमेशा लॉग-लॉस जैसे एक उचित स्कोरिंग नियम का उपयोग करके मॉडल की तुलना करता हूं, यह सुनिश्चित करने के लिए बूटस्ट्रैपिंग का उपयोग करें कि सुधार शोर नहीं है, और शायद एयूसी के साथ पूरक।
मैथ्यू डॉरी

2
मुझे नहीं लगता कि यह सच है। एयूसी विशेष रूप से वर्ग असंतुलन के लिए असंवेदनशील होने के लिए बनाया गया है, मैंने इस पर व्यापक सिमुलेशन किया है और पाया है कि यह सच है। इसके अलावा, जब मॉडल की तुलना करते हैं, तो उन्हें एक ही आबादी से नमूना किए गए डेटा सेट पर बनाया जाना चाहिए, जिससे वर्ग असंतुलन के साथ कोई समस्या नहीं होगी।
मैथ्यू पारा

4

डेटा असंतुलन होने पर बहुत ही सरल शब्दों में कहने के लिए, सकारात्मक और नकारात्मक वर्गों के लिए आपके द्वारा दिए गए उदाहरणों की संख्या के बीच का अंतर बड़ा है, आपको हमेशा F1-स्कोर का उपयोग करना चाहिए। अन्यथा आप ROC / AUC घटता का उपयोग कर सकते हैं।


"डेटा असंतुलन" की आपकी परिभाषा ऐसी है कि आप बहुत अधिक हमेशा F1-स्कोर का उपयोग करेंगे, इसलिए यह बहुत मदद नहीं है। शायद आप इस पर थोड़ा विस्तार कर सकते हैं?
जंबोमैन

मुझे वहां एक बहुत महत्वपूर्ण शब्द याद आ गया था ... माफी। मेरी प्रतिक्रिया का संपादन किया। यदि आपको अधिक स्पष्टीकरण की आवश्यकता है, तो मुझे बताएं।
बाल्बोआ

1

कुछ बहु वर्ग वर्गीकरण समस्याओं के लिए, आरओसी / एयूसी का विश्लेषण और कल्पना करना सीधा नहीं है। आप इस सवाल पर गौर कर सकते हैं कि मल्टीकलेज वर्गीकरण में आरओसी कर्व्स को कैसे प्लॉट किया जाए? । ऐसी स्थिति में, एफ 1 स्कोर का उपयोग करना बेहतर मीट्रिक हो सकता है।

और एफ 1 स्कोर सूचना पुनर्प्राप्ति समस्या और उद्योग सेटिंग में लोकप्रिय के लिए एक आम विकल्प है। यहाँ एक अच्छी तरह से समझाया गया उदाहरण है, बिल्डिंग ML मॉडल कठिन है। उन्हें वास्तविक व्यावसायिक वातावरण में नियुक्त करना कठिन है


1

यदि वर्गीकरण का उद्देश्य संभावना द्वारा स्कोरिंग है, तो एयूसी का उपयोग करना बेहतर है जो सभी संभावित थ्रेसहोल्ड पर औसत है। हालांकि, अगर वर्गीकरण के उद्देश्य को केवल दो संभव वर्गों के बीच वर्गीकृत करने की आवश्यकता है और मॉडल द्वारा प्रत्येक वर्ग की भविष्यवाणी की जाने की संभावना नहीं है, तो किसी विशेष सीमा का उपयोग करके एफ-स्कोर पर भरोसा करना अधिक उपयुक्त है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.