एयूसी की संभावित व्याख्या कैसे प्राप्त करें?


14

आरओसी वक्र के तहत क्षेत्र की संभावना क्यों है कि एक क्लासिफायर बेतरतीब ढंग से चुनी गई "सकारात्मक" एक (मूल सकारात्मक वर्ग से) की तुलना में एक यादृच्छिक रूप से चुने गए "सकारात्मक" उदाहरण (पुनर्प्राप्त भविष्यवाणियों से) को रैंक करेगा? वास्तविक सकारात्मक और नकारात्मक श्रेणी के वितरण के CDF और PDF को देते हुए, कोई व्यक्ति इस कथन को कैसे अभिन्न रूप से अभिन्न रूप से उपयोग कर साबित करता है?


2
मैंने इसका एक बहुत ही प्राथमिक प्रमाण यहाँ लिखा है: madrury.github.io/jekyll/update/statistics/2017/06/21/…
मैथ्यू ड्र्यू

जवाबों:


10

पहली बात, आइए औपचारिक रूप से आरओसी वक्र के तहत क्षेत्र को परिभाषित करने का प्रयास करें। कुछ धारणाएँ और परिभाषाएँ:

  • हमारे पास एक संभाव्य क्लासिफायरिफायर है जो एक "स्कोर" (x) को आउटपुट करता है, जहां x विशेषताएं हैं, और s अनुमानित प्रायिकता p (वर्ग = 1 | x) का एक सामान्य वृद्धि करने वाला मोनोटोनिक फ़ंक्शन है।

  • k = { 0 , 1 } F k ( s )fk(s) , : = के साथ वर्ग k के लिए स्कोर का pdf, CDFk={0,1}Fk(s)

  • एक नए अवलोकन के वर्गीकरण को स्कोर एस को थ्रेशोल्ड टी से कंपेयर किया जाता है

इसके अलावा, गणितीय सुविधा के लिए, आइए सकारात्मक वर्ग (घटना का पता लगाया गया) k = 0 पर विचार करें, और नकारात्मक k = 1. इस सेटिंग में हम परिभाषित कर सकते हैं:

  • स्मरण करो (उर्फ संवेदनशीलता, उर्फ ​​TPR) : (सकारात्मक के रूप में वर्गीकृत सकारात्मक मामलों का अनुपात)F0(t)
  • विशिष्टता (उर्फ TNR) : (ऋणात्मक मामलों को नकारात्मक के रूप में वर्गीकृत किया गया)1F1(t)
  • FPR (उर्फ फॉल-आउट) : 1 - TNR =F1(t)

ROC वक्र विरुद्ध का एक भूखंड है । सेट करना , हम औपचारिक रूप से आरओसी वक्र के तहत क्षेत्र को औपचारिक रूप से परिभाषित कर सकते हैं: परिवर्तनशील ( ): एफ 1 ( टी ) वी = एफ 1 ( रों ) एक यू सी = 1 0 एफ 0 ( एफ - 1 1 ( v ) ) वी डी वी = 1 ( रों ) रों एक यू सी = - एफ 0 ( रों ) F0(t)F1(t)v=F1(s)

AUC=01F0(F11(v))dv
dv=f1(s)ds
AUC=F0(s)f1(s)ds

इस सूत्र को आसानी से देखा जा सकता है कि कक्षा 0 के एक बेतरतीब ढंग से तैयार सदस्य वर्ग 1 के यादृच्छिक रूप से तैयार सदस्य के स्कोर से कम स्कोर का उत्पादन करेगा।

यह प्रमाण इससे लिया गया है: https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf


5

@ अलेबु का जवाब बहुत अच्छा है। लेकिन इसका अंकन गैर-मानक है और सकारात्मक वर्ग के लिए 0 और नकारात्मक वर्ग के लिए 1 का उपयोग करता है। नीचे मानक अंकन के लिए परिणाम (नकारात्मक वर्ग के लिए 0 और सकारात्मक वर्ग के लिए 1) हैं:

नकारात्मक वर्ग के लिए स्कोर का पीडीएफ और cdf: औरf0(s)F0(s)

सकारात्मक कक्षा के लिए स्कोर का पीडीएफ और cdf: औरf1(s)F1(s)

FPR =x(s)=1F0(s)

TPR =y(s)=1F1(s)

AUC=01y(x)dx=01y(x(τ))dx(τ)=+y(τ)x(τ)dτ=+(1F1(τ))(f0(τ))dτ=+(1F1(τ))f0(τ)dτ

जहाँ सीमा के लिए खड़ा है। अंतिम व्याख्या में @ अलेबू के उत्तर में व्याख्या लागू कर सकते हैं।τ


1

एयूसी-आरओसी की गणना करने का तरीका टीपीआर और एफपीआर को दहलीज के रूप में बाहर करना है, को बदल दिया जाता है और उस वक्र के नीचे के क्षेत्र की गणना की जाती है। लेकिन, वक्र के तहत यह क्षेत्र इस संभावना के समान क्यों है? चलो निम्नलिखित मान लेते हैं:τ

  1. A उन अंकों का वितरण है जो मॉडल डेटा बिंदुओं के लिए पैदा करता है जो वास्तव में सकारात्मक वर्ग में हैं।
  2. B उन अंकों का वितरण है जो मॉडल डेटा बिंदुओं के लिए पैदा करता है जो वास्तव में नकारात्मक वर्ग में हैं (हम चाहते हैं कि यह के बाईं ओर हो )।A
  3. τ कटऑफ सीमा है। यदि डेटा बिंदु को इससे अधिक अंक मिलता है, तो यह सकारात्मक वर्ग से संबंधित है। अन्यथा, यह नकारात्मक कक्षा में होने का अनुमान है।

ध्यान दें कि TPR (रीकॉल) द्वारा दिया गया है: और FPR (नतीजा) दिया गया है: ।P(A>τ)P(B>τ)

अब, हम x- अक्ष पर y- अक्ष और FPR पर TPR की साजिश रचते हैं, विभिन्न लिए वक्र खींचते हैं और इस वक्र ( ) के तहत क्षेत्र की गणना करते हैं ।τAUC

हमें मिला:

AUC=01TPR(x)dx=01P(A>τ(x))dx
जहाँ FPR है। अब, इस अभिन्न की गणना करने का एक तरीका यह है कि को एक समान वितरण से संबंधित माना जाए । उस स्थिति में, यह केवल की उम्मीद बन जाता है ।xxTPR

(1)AUC=Ex[P(A>τ(x))]
यदि हम विचार करते हैं तो ।xU[0,1)

अब, यहाँ केवलxFPR

x=FPR=P(B>τ(x))
चूंकि हमने को एक समान वितरण से माना है ,x

P(B>τ(x))U
=>P(B<τ(x))(1U)U
(2)=>FB(τ(x))U

लेकिन हम से पता उलटा कानून को बदलने कि किसी भी यादृच्छिक चर के लिए , अगर तो । यह किसी भी रैंडम वैरिएबल को लेने और अपने स्वयं के सीडीएफ को लागू करने के बाद से वर्दी की ओर ले जाता है।XFX(Y)UYX

FX(X)=P(FX(x)<X)=P(X<FX1(X))=FXFX1(X)=X
और यह केवल वर्दी के साथ है।

समीकरण (2) में इस तथ्य का उपयोग करना हमें देता है:

τ(x)B

इसे समीकरण में बदलने से (1) हमें प्राप्त होता है:

AUC=Ex(P(A>B))=P(A>B)

दूसरे शब्दों में, वक्र के नीचे का क्षेत्र इस बात की संभावना है कि एक यादृच्छिक सकारात्मक नमूने में एक यादृच्छिक नकारात्मक नमूने की तुलना में उच्च स्कोर होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.