आरओसी वक्र के तहत क्षेत्र या असंतुलित डेटा के लिए पीआर वक्र के तहत क्षेत्र?


16

मुझे कुछ संदेह हैं कि कौन से प्रदर्शन का उपयोग करने के लिए माप, आरओसी वक्र के तहत क्षेत्र (एफपीआर के एक समारोह के रूप में टीपीआर) या सटीक-रिकॉल वक्र के तहत क्षेत्र (याद के एक समारोह के रूप में सटीक)।

मेरा डेटा असंतुलित है, अर्थात, नकारात्मक उदाहरणों की संख्या सकारात्मक उदाहरणों की तुलना में बहुत बड़ी है।

मैं वीका के उत्पादन की भविष्यवाणी का उपयोग कर रहा हूं, एक नमूना है:

inst#,actual,predicted,prediction
1,2:0,2:0,0.873
2,2:0,2:0,0.972
3,2:0,2:0,0.97
4,2:0,2:0,0.97
5,2:0,2:0,0.97
6,2:0,2:0,0.896
7,2:0,2:0,0.973

और मैं pROC और ROCR r पुस्तकालयों का उपयोग कर रहा हूं।


आप यह उल्लेख करना भूल गए कि आप इनमें से किसी भी वक्र के साथ क्या प्राप्त करना चाहते हैं।
मार्क क्लेसेन

1
नोट: ऐसा लगता है कि आप आरओसी कर्व्स (संपूर्ण ऑपरेटिंग रेंज पर एफपीआर के कार्य के रूप में टीपीआर) और पीआर घटता (संपूर्ण ऑपरेटिंग रेंज पर सटीक बनाम याद) के बीच चयन करना चाहते हैं। " एयूसी-आरओसी ऑफ प्रिसिजन एंड रिकॉल " जैसी शब्दावली बहुत भ्रामक है, इसलिए मैंने इसे संपादित किया है। अगर मैंने गलत समझा तो कृपया इसे वापस कर दें।
मार्क क्लेसेन

जवाबों:


27

सवाल काफी अस्पष्ट है, इसलिए मैं मानने जा रहा हूं कि आप विभिन्न मॉडलों की तुलना करने के लिए एक उपयुक्त प्रदर्शन उपाय चुनना चाहते हैं। आरओसी और पीआर घटता के बीच के प्रमुख अंतरों के अच्छे अवलोकन के लिए, आप निम्नलिखित पेपर का उल्लेख कर सकते हैं: डेविस और गॉडरिक द्वारा रिलेशनशिप इन प्रिसिजन-रिकॉल और आरओसी कर्व्स

डेविस और Goadrich को उद्धृत करने के लिए:

हालांकि, अत्यधिक तिरछे डेटासेट के साथ काम करते समय, प्रेसिजन-रिकॉल (पीआर) घटता एक एल्गोरिथ्म के प्रदर्शन की अधिक जानकारीपूर्ण तस्वीर देता है।

आरओसी ने एफपीआर बनाम टीपीआर पर अंकुश लगाया। अधिक स्पष्ट होने के लिए: पीआर याद बनाम घटता साजिश परिशुद्धता (fpr), या अधिक स्पष्ट रूप से: आरसीएकएलएल=टीपी

FPR=FPFP+TN,TPR=TPTP+FN.
recall=TPTP+FN=TPR,precision=TPTP+FP

प्रभावित होने के बाद से परिशुद्धता सीधे वर्ग (im) संतुलन से प्रभावित होती है, जबकि TPR केवल सकारात्मक पर निर्भर करता है। यही कारण है कि आरओसी घटता इस तरह के प्रभावों पर कब्जा नहीं करता है।FP

अत्यधिक-असंतुलित डेटा सेट के लिए मॉडल के बीच अंतर को उजागर करने के लिए प्रेसिजन-रिकॉल कर्व बेहतर हैं। यदि आप असंतुलित सेटिंग्स में विभिन्न मॉडलों की तुलना करना चाहते हैं, तो पीआर वक्र के तहत क्षेत्र आरओसी वक्र के तहत क्षेत्र की तुलना में बड़े अंतर को प्रदर्शित करेगा।

उस ने कहा, आरओसी वक्र बहुत अधिक सामान्य हैं (भले ही वे कम अनुकूल हों)। आपके दर्शकों के आधार पर, आरओसी घटता लिंगुआ फ्रेंका हो सकता है इसलिए उन का उपयोग करना संभवतः सुरक्षित विकल्प है। यदि एक मॉडल पूरी तरह से पीआर स्पेस में दूसरे पर हावी हो जाता है (जैसे पूरे रिकॉल रेंज पर हमेशा उच्च परिशुद्धता), तो यह आरओसी अंतरिक्ष में भी हावी होगा। यदि कर्व्स दोनों में से किसी एक स्थान को पार करते हैं तो वे दूसरे में भी पार हो जाएंगे। दूसरे शब्दों में, मुख्य निष्कर्ष समान होगा कोई फर्क नहीं पड़ता कि आप किस वक्र का उपयोग करते हैं।


बेशर्म विज्ञापन । एक अतिरिक्त उदाहरण के रूप में, आप मेरे एक पेपर को देख सकते हैं जिसमें मैं असंतुलित सेटिंग में आरओसी और पीआर दोनों घटता की रिपोर्ट करता हूं। चित्रा 3 में समान मॉडल के लिए आरओसी और पीआर घटता हैं, जो स्पष्ट रूप से दोनों के बीच अंतर दिखाते हैं। आरओसी के तहत पीआर बनाम क्षेत्र के तहत क्षेत्र की तुलना करने के लिए आप तालिका 1-2 (एयूपीआर) और तालिकाओं 3-4 (एयूआरओआरसी) की तुलना कर सकते हैं जहां आप देख सकते हैं कि एयूपीआर एयूआरओसी की तुलना में व्यक्तिगत मॉडल के बीच बहुत बड़ा अंतर दिखाता है। यह एक बार फिर पीआर घटता की उपयुक्तता पर जोर देता है।


स्पष्टीकरण के लिए धन्यवाद। अब सवाल यह है कि पीआर कर्व असंतुलित डेटा के लिए अधिक जानकारीपूर्ण क्यों हैं? मेरे लिए, आरओसी अधिक जानकारीपूर्ण होना चाहिए क्योंकि यह टीपीआर और एफपीआर दोनों पर विचार करता है।
MM

इसके अलावा, ये दो लेख मुझे और भ्रमित करते हैं! onlinelibrary.wiley.com/doi/10.1111/j.1466-8238.2007.00358.x/… riceanalytics.com/db3/00232/riceanalytics.com/_download-…
MM

1
@MA ने स्पष्ट करने के लिए मेरे उत्तर को संपादित किया।
मार्क क्लेसेन

1
मुझे लगता है कि TPR और FPR के बीच रिकॉल के समीकरण में मिक्सअप है, नहीं?
साइमन थोरडल

आप सही हैं, यह होना चाहिए: रीकॉल = ... = टीपीआर, एफपीआर नहीं। @Marc Claesen, मुझे लगता है कि आप केवल इसे बदल सकते हैं, क्योंकि जब मैं इसे करने की कोशिश करता हूं, तो मुझे सूचित किया जाता है कि: "संपादन में कम से कम 6 वर्ण होने चाहिए", इसलिए छोटे टाइपो को ठीक करना असंभव है, जैसे कि यह एक।
पोनदतो

6

आरओसी एक्स-अक्ष पर वाई-अक्ष और एफपीआर पर टीपीआर घटता है, लेकिन यह इस बात पर निर्भर करता है कि आप क्या चित्रित करना चाहते हैं। जब तक कि आपके अध्ययन के क्षेत्र में इसे अलग तरीके से करने का कोई कारण नहीं है, TPR / FPR ROC घटता ऑपरेटिंग ट्रेडऑफ दिखाने के लिए मानक हैं और मेरा मानना ​​है कि वे सबसे अच्छी तरह से प्राप्त होंगे।

प्रिसिजन एंड रिकॉल अकेला भ्रामक हो सकता है क्योंकि यह सही नकारात्मक के लिए जिम्मेदार नहीं है।


0

मैं ROC और PR AUC में सबसे बड़ा अंतर मानता हूं, यह तथ्य यह है कि ROC यह निर्धारित कर रही है कि आपका मॉडल सकारात्मक वर्ग और नकारात्मक वर्ग की "गणना" कैसे कर सकता है, क्योंकि PR AUC वास्तव में केवल आपके सकारात्मक वर्ग को देख रहा है। तो एक संतुलित वर्ग की स्थिति में और जहाँ आप नकारात्मक और सकारात्मक दोनों वर्गों की परवाह करते हैं, आरओसी एयूसी मीट्रिक महान काम करता है। जब आपके पास असंतुलित स्थिति होती है, तो पीआर एयूसी का उपयोग करना पसंद किया जाता है, लेकिन ध्यान रखें कि यह केवल यह निर्धारित करता है कि आपका मॉडल सकारात्मक वर्ग की कितनी अच्छी तरह से "गणना" कर सकता है!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.