आरओसी बनाम प्रेसिजन-रिकॉल असंतुलित डेटासेट पर घटता है


18

मैंने अभी इस चर्चा को पढ़ना समाप्त किया है । उनका तर्क है कि PR AUC असंतुलित डेटासेट पर ROC AUC से बेहतर है।

उदाहरण के लिए, हमारे पास परीक्षण डेटासेट में 10 नमूने हैं। 9 नमूने सकारात्मक हैं और 1 नकारात्मक है। हमारे पास एक भयानक मॉडल है जो सब कुछ सकारात्मक की भविष्यवाणी करता है। इस प्रकार, हमारे पास एक मीट्रिक होगा कि टीपी = 9, एफपी = 1, टीएन = 0, एफएन = 0।

फिर, प्रिसिजन = 0.9, रिकॉल = 1.0। सटीक और याद दोनों बहुत अधिक हैं, लेकिन हमारे पास एक खराब क्लासिफायरियर है।

दूसरी ओर, टीपीआर = टीपी / (टीपी + एफएन) = 1.0, एफपीआर = एफपी / (एफपी + टीएन) = 1.0। क्योंकि एफपीआर बहुत अधिक है, हम पहचान सकते हैं कि यह एक अच्छा क्लासिफायरियर नहीं है।

स्पष्ट रूप से, आरओसी असंतुलित डेटासेट पर पीआर से बेहतर है। क्या कोई समझा सकता है कि पीआर बेहतर क्यों है?


1
परिशुद्धता और स्मरण दोनों ही नकारात्मक नकारात्मक को अनदेखा करते हैं। पीआर ट्रेडऑफ (घटता या एफ-स्कोर) का उपयोग करने का सामान्य औचित्य यह है कि नकारात्मक और गलत नकारात्मक संख्या टीपी और एफपी के सापेक्ष बड़ी है। तो TNR-> 1 और FPR-> 0 (समान के साथ 1 से 1 | Negs | भाजक)। तो पीआर इस मामले में टीपी बनाम एफपी से व्यापार को प्रतिबिंबित (पर ज़ूम या ज़ूम इन) करता है, लेकिन यह सार्थक नहीं है और जो प्रासंगिक है वह येडेन जे इंडेक्स (सूचनात्मकता = टीपीआर-एफपीआर = टीपीआर + टीएनआर -1) में वृद्धि है = संवेदनशीलता + विशिष्टता -1) जो त्रिकोणीय एकल ऑपरेटिंग बिंदु वक्र और आरओसी मौका रेखा के बीच दो बार क्षेत्र से मेल खाती है।
डेविड एमडब्ल्यू पॉवर्स

2
@DavidMWPowers, क्यों नहीं इसे एक आधिकारिक उत्तर में बदल दें? यह मेरे लिए बहुत जानकारीपूर्ण प्रतिक्रिया की तरह लगता है।
गंग -

2
सटीकता, रिकॉल, संवेदनशीलता और विशिष्टता अनुचित अनियंत्रित सूचना-खोने सटीकता स्कोर के लिए अनुचित हैं और इसका उपयोग नहीं किया जाना चाहिए। वे असंतुलन के तहत विशेष रूप से समस्याग्रस्त हो सकते हैं। -index (सामंजस्य संभावना; AUROC) चरम संतुलन के तहत ठीक काम करता है। बेहतर: लॉग-लाइबिलिटी या बायर स्कोर से संबंधित एक उचित सटीकता स्कोरिंग नियम का उपयोग करें। c
फ्रैंक हरेल

जवाबों:


8

सबसे पहले, कागले पोस्ट पर दावा फर्जी है। वे जिस पेपर का संदर्भ देते हैं, " द रिलेशनशिप फ़ॉर प्रिसिजन-रिकॉल एंड आरओसी कर्व्स ", कभी दावा नहीं करता कि पीआर एयूसी आरओसी एयूसी से बेहतर है। वे केवल उनके गुणों की तुलना करते हैं, बिना उनके मूल्य को आंकने के।

आरओसी घटता कभी-कभी कुछ बहुत असंतुलित अनुप्रयोगों में भ्रामक हो सकता है। एक आरओसी वक्र अभी भी बहुत अच्छा लग सकता है (यानी यादृच्छिक से बेहतर) जबकि अल्पसंख्यक वर्ग के अधिकांश या सभी को गलत तरीके से।

इसके विपरीत, पीआर घटता विशेष रूप से दुर्लभ घटनाओं का पता लगाने के लिए सिलवाया जाता है और उन परिदृश्यों में बहुत उपयोगी है। वे दिखाएंगे कि आपके क्लासिफायर में कम प्रदर्शन है अगर वह अल्पसंख्यक वर्ग के सबसे या सभी से गलत है। लेकिन वे अधिक संतुलित मामलों, या उन मामलों में अच्छी तरह से अनुवाद नहीं करते हैं, जहां नकारात्मक दुर्लभ हैं।

इसके अलावा, क्योंकि वे सकारात्मक घटनाओं की आधारभूत संभावना के प्रति संवेदनशील हैं, वे अच्छी तरह से सामान्यीकरण नहीं करते हैं और केवल उन विशिष्ट डेटासेटों पर लागू होते हैं जो वे पर बनाए गए थे, या सटीक उसी संतुलन के साथ डेटास्टेट्स में। इसका मतलब यह है कि आम तौर पर विभिन्न अध्ययनों से पीआर घटता की तुलना करना मुश्किल है, उनकी उपयोगिता को सीमित करना।

हमेशा की तरह, आपके लिए उपलब्ध उपकरणों को समझना महत्वपूर्ण है और सही एप्लिकेशन के लिए सही का चयन करें। मेरा सुझाव है कि सीवी पर आरओसी बनाम सटीक-और-रिकॉल प्रश्न को पढ़ें ।


3

आपका उदाहरण निश्चित रूप से सही है।

हालांकि, मुझे लगता है कि कागेल प्रतियोगिता / वास्तविक जीवन के आवेदन के संदर्भ में, तिरछे डेटासेट का मतलब आमतौर पर नकारात्मक नमूनों वाले सकारात्मक नमूनों से होता है। केवल इस मामले में, पीआर एयूसी आरओसी एयूसी की तुलना में अधिक "सार्थक" है।

टीपी = 9, एफएन = 1, टीएन = 900, एफपी = 90 के साथ एक डिटेक्टर पर विचार करें, जहां 10 सकारात्मक और 990 नकारात्मक नमूना हैं। टीपीआर = 0.9, एफपीआर = 0.1 जो एक अच्छे आरओसी स्कोर को इंगित करता है, हालांकि प्रिसिजन = 0.1 जो खराब पीआर स्कोर को इंगित करता है।


0

तुम आधे रास्ते में हो।

आमतौर पर जब मैं असंतुलित मॉडल, हेक, यहां तक ​​कि संतुलित मॉडल भी करता हूं, तो मैं अपने सभी वर्गों के लिए पीआर देखता हूं।

आपके उदाहरण में, हां, आपके सकारात्मक वर्ग में P = 0.9 और R = 1.0 है। लेकिन आपको जो देखना चाहिए वह आपकी सभी कक्षाएं हैं। तो आपके नकारात्मक वर्ग के लिए, आपका पी = 0 और आपका आर = 0. और आप आमतौर पर पीआर स्कोर को व्यक्तिगत रूप से नहीं देखते हैं। आप एफ 1-स्कोर (एफ 1 मैक्रो या एफ 1 माइक्रो, आपकी समस्या पर निर्भर करता है) को देखना चाहते हैं, जो कि क्लास 1 और क्लास 0. दोनों के लिए आपके पीआर स्कोर का एक हार्मोनिक औसत है। आपका क्लास 1 पीआर स्कोर सुपर अच्छा है, लेकिन इसके साथ गठबंधन करें आपका वर्ग 0 PR स्कोर, आपका F1 स्कोर TERRIBLE होगा, जो आपके परिदृश्य के लिए सही निष्कर्ष है।

टीएल, डीआर: अपने सभी वर्गों के लिए पीआर स्कोर देखें, और उन्हें अपने मॉडल के प्रदर्शन के बारे में यथार्थवादी निष्कर्ष निकालने के लिए एफ 1-स्कोर जैसी मीट्रिक के साथ संयोजित करें। आपके परिदृश्य के लिए F1-स्कोर TERRIBLE होगा, जो आपके परिदृश्य के लिए सही निष्कर्ष है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.