उच्च और निम्न को खोजा गया है और यह पता लगाने में सक्षम नहीं है कि भविष्यवाणी के संबंध में एयूसी क्या है, इसका मतलब है या इसका मतलब है।
उच्च और निम्न को खोजा गया है और यह पता लगाने में सक्षम नहीं है कि भविष्यवाणी के संबंध में एयूसी क्या है, इसका मतलब है या इसका मतलब है।
जवाबों:
एयूआरसी का मतलब एयूसीसी का सबसे अधिक उपयोग किया जाता है, जो कि एक बुरा व्यवहार है क्योंकि मार्क क्लेन ने कहा कि एयूसी अस्पष्ट है (किसी भी वक्र हो सकता है) जबकि एयूआरओसी नहीं है।
AUROC की कई समकक्ष व्याख्याएँ हैं :
आगे जा रहे हैं: AUROC की संभाव्य व्याख्या कैसे प्राप्त करें?
मान लें कि हमारे पास एक संभाव्य, द्विआधारी क्लासिफायरियर जैसे लॉजिस्टिक रिग्रेशन है।
आरओसी वक्र (= रिसीवर ऑपरेटिंग कैरेक्टर वक्र) प्रस्तुत करने से पहले, भ्रम मैट्रिक्स की अवधारणा को समझना चाहिए। जब हम एक द्विआधारी भविष्यवाणी करते हैं, तो 4 प्रकार के परिणाम हो सकते हैं:
भ्रम मैट्रिक्स प्राप्त करने के लिए, हम मॉडल द्वारा की गई सभी भविष्यवाणियों पर जाते हैं, और गिनते हैं कि उन 4 प्रकार के परिणामों में से प्रत्येक कितनी बार होता है:
एक भ्रम मैट्रिक्स के इस उदाहरण में, वर्गीकृत किए गए 50 डेटा बिंदुओं में से 45 सही ढंग से वर्गीकृत किए गए हैं और 5 मिसकॉलिफ़ाइड हैं।
चूंकि दो अलग-अलग मॉडलों की तुलना करना अक्सर एक से अधिक मीट्रिक के बजाय कई लोगों के लिए सुविधाजनक होता है, हम भ्रम मैट्रिक्स से दो मैट्रिक्स की गणना करते हैं, जिसे हम बाद में एक में संयोजित करेंगे:
एक एकल मीट्रिक में FPR और TPR गठबंधन करने के लिए, हम पहले कई अलग अलग सीमा के साथ दो पूर्व मेट्रिक्स की गणना (उदाहरण के लिए ) रसद प्रतिगमन के लिए है, तो उन्हें एक ही ग्राफ पर, साथ साजिश एफ़सीएसए पर एफपीआर मान और अध्यादेश पर टीपीआर मूल्य। परिणामी वक्र को ROC वक्र कहा जाता है, और जिस मीट्रिक को हम मानते हैं, वह इस वक्र का AUC है, जिसे हम AUROC कहते हैं।
निम्नलिखित आंकड़ा AUROC को ग्राफिक रूप से दिखाता है:
इस आंकड़े में, नीला क्षेत्र रिसीवर ऑपरेटिंग कैरेक्टर (AUROC) के वक्र के नीचे के क्षेत्र से मेल खाता है। विकर्ण में धराशायी लाइन हम एक यादृच्छिक भविष्यवक्ता के आरओसी वक्र को प्रस्तुत करते हैं: इसमें 0.5 का एयूआरओसी है। यादृच्छिक भविष्यवक्ता आमतौर पर यह देखने के लिए आधार रेखा के रूप में उपयोग किया जाता है कि क्या मॉडल उपयोगी है।
यदि आप कुछ पहले हाथ अनुभव प्राप्त करना चाहते हैं:
हालाँकि मुझे पार्टी में थोड़ी देर हो गई है, लेकिन यहाँ मेरे 5 सेंट हैं। @FranckDernoncourt (+1) ने पहले ही एयूसी आरओसी की संभावित व्याख्याओं का उल्लेख किया है, और मेरा पसंदीदा उसकी सूची में पहला है (मैं विभिन्न शब्दों का उपयोग करता हूं, लेकिन यह एक ही है):
एक क्लासिफायरियर का एयूसी इस संभावना के बराबर है कि क्लासिफायर एक बेतरतीब ढंग से चुने गए सकारात्मक उदाहरण को रैंडमली नेगेटिव उदाहरण यानी से अधिक रैंक करेगा।
इस उदाहरण पर विचार करें (auc = 0.68):
आइए इसे अनुकरण करने का प्रयास करें: यादृच्छिक सकारात्मक और नकारात्मक उदाहरणों को आकर्षित करें और फिर उन मामलों के अनुपात की गणना करें, जब सकारात्मक नकारात्मक से अधिक स्कोर होते हैं
cls = c('P', 'P', 'N', 'P', 'P', 'P', 'N', 'N', 'P', 'N', 'P',
'N', 'P', 'N', 'N', 'N', 'P', 'N', 'P', 'N')
score = c(0.9, 0.8, 0.7, 0.6, 0.55, 0.51, 0.49, 0.43, 0.42, 0.39, 0.33,
0.31, 0.23, 0.22, 0.19, 0.15, 0.12, 0.11, 0.04, 0.01)
pos = score[cls == 'P']
neg = score[cls == 'N']
set.seed(14)
p = replicate(50000, sample(pos, size=1) > sample(neg, size=1))
mean(p)
और हमें 0.67926 मिलता है। काफी करीब है, है ना?
वैसे, आरआई में आमतौर पर आरओसी घटता ड्राइंग और एयूसी की गणना के लिए आरओसीआर पैकेज का उपयोग करते हैं ।
library('ROCR')
pred = prediction(score, cls)
roc = performance(pred, "tpr", "fpr")
plot(roc, lwd=2, colorize=TRUE)
lines(x=c(0, 1), y=c(0, 1), col="black", lwd=1)
auc = performance(pred, "auc")
auc = unlist(auc@y.values)
auc
इनमें से किसी भी चर्चा में महत्वपूर्ण विचार शामिल नहीं हैं। ऊपर चर्चा की गई प्रक्रियाएं अनुचित थ्रेसहोल्डिंग को आमंत्रित करती हैं और अनुचित सटीकता स्कोरिंग नियमों (अनुपातों) का उपयोग करती हैं जो कि गलत विशेषताओं को चुनकर और उन्हें गलत भार देकर अनुकूलित किया जाता है।
इष्टतम निर्णय सिद्धांत के सामने निरंतर भविष्यवाणियों के Dichotomization मक्खियों। आरओसी घटता कोई कार्रवाई योग्य जानकारी प्रदान नहीं करता है। वे शोधकर्ताओं द्वारा लाभों की जांच किए बिना अनिवार्य हो गए हैं। उनके पास एक बहुत बड़ी स्याही है: सूचना अनुपात।
इष्टतम निर्णय "सकारात्मक" और "नकारात्मक" पर विचार नहीं करते, बल्कि परिणाम की अनुमानित संभावना पर विचार करते हैं। उपयोगिता / लागत / हानि फ़ंक्शन, जो आरओसी निर्माण में कोई भूमिका नहीं निभाता है, इसलिए आरओसी की बेकारता, जोखिम अनुमान को इष्टतम (जैसे, सबसे कम अपेक्षित नुकसान) निर्णय में अनुवाद करने के लिए उपयोग किया जाता है।
एक सांख्यिकीय मॉडल का लक्ष्य अक्सर एक भविष्यवाणी करना होता है, और विश्लेषक को अक्सर वहां रुकना चाहिए क्योंकि विश्लेषक नुकसान फ़ंक्शन को नहीं जान सकता है। निष्पक्षता को मान्य करने के लिए भविष्यवाणी के प्रमुख घटक (जैसे, बूटस्ट्रैप का उपयोग करना) भविष्य कहनेवाला भेदभाव है (इसे मापने का एक अर्ध-अच्छा तरीका है समवर्ती संभावना जो आरओसी के तहत क्षेत्र के बराबर होती है लेकिन आप आसानी से समझ सकते हैं अगर आप डॉन ' आरओसी ड्रा नहीं) और अंशांकन वक्र। यदि आप किसी निरपेक्ष पैमाने पर भविष्यवाणियों का उपयोग कर रहे हैं, तो अंशांकन सत्यापन वास्तव में आवश्यक है।
अधिक जानकारी के लिए बायोमैटिकल रिसर्च और अन्य अध्यायों के लिए बायोस्टैटिस्टिक्स में सूचना हानि अध्याय देखें।
AUC वक्र के नीचे के क्षेत्र के लिए एक पृथक्करण है । इसका उपयोग वर्गीकरण विश्लेषण में किया जाता है ताकि यह निर्धारित किया जा सके कि कौन सा उपयोग किया गया मॉडल सर्वश्रेष्ठ रूप से कक्षाओं की भविष्यवाणी करता है।
इसके आवेदन का एक उदाहरण आरओसी वक्र हैं। यहां, सकारात्मक सकारात्मक दरों को झूठी सकारात्मक दरों के खिलाफ साजिश रची जाती है। एक उदाहरण नीचे है। एक मॉडल के लिए करीब AUC 1 के लिए आता है, बेहतर है। तो उच्चतर AUCs वाले मॉडल कम AUC वाले लोगों को अधिक पसंद आते हैं।
कृपया ध्यान दें, आरओसी घटता के अलावा अन्य तरीके भी हैं, लेकिन वे वास्तविक सकारात्मक और झूठी सकारात्मक दरों से भी संबंधित हैं, जैसे सटीक-याद, एफ 1-स्कोर या लॉरेंज घटता।
auc
: आप का इस्तेमाल किया टैग stats.stackexchange.com/questions/tagged/auc