एयूसी-आरओसी की गणना करने का तरीका टीपीआर और एफपीआर को दहलीज के रूप में बाहर करना है, को बदल दिया जाता है और उस वक्र के नीचे के क्षेत्र की गणना की जाती है। लेकिन, वक्र के तहत यह क्षेत्र इस संभावना के समान क्यों है? चलो निम्नलिखित मान लेते हैं:τ
- ए उन अंकों का वितरण है जो मॉडल डेटा बिंदुओं के लिए पैदा करता है जो वास्तव में सकारात्मक वर्ग में हैं।
- बी उन अंकों का वितरण है जो मॉडल डेटा बिंदुओं के लिए पैदा करता है जो वास्तव में नकारात्मक वर्ग में हैं (हम चाहते हैं कि यह के बाईं ओर हो )।ए
- τ कटऑफ सीमा है। यदि डेटा बिंदु को इससे अधिक अंक मिलता है, तो यह सकारात्मक वर्ग से संबंधित है। अन्यथा, यह नकारात्मक कक्षा में होने का अनुमान है।
ध्यान दें कि TPR (रीकॉल) द्वारा दिया गया है: और FPR (नतीजा) दिया गया है: ।पी( ए > τ)पी( B > τ)
अब, हम x- अक्ष पर y- अक्ष और FPR पर TPR की साजिश रचते हैं, विभिन्न लिए वक्र खींचते हैं और इस वक्र ( ) के तहत क्षेत्र की गणना करते हैं ।τए यूसी
हमें मिला:
ए यूसी= ∫10टीपीआर ( एक्स ) डीx = ∫10पी( ए > τ( x ) ) dएक्स
जहाँ FPR है। अब, इस अभिन्न की गणना करने का एक तरीका यह है कि को एक समान वितरण से संबंधित माना जाए । उस स्थिति में, यह केवल की उम्मीद बन जाता है ।
xxTPR
AUC=Ex[P(A>τ(x))](1)
यदि हम विचार करते हैं तो ।
x∼U[0,1)
अब, यहाँ केवलxFPR
x=FPR=P(B>τ(x))
चूंकि हमने को एक समान वितरण से माना है ,
x
P(B>τ(x))∼U
=>P(B<τ(x))∼(1−U)∼U
=>FB(τ(x))∼U(2)
लेकिन हम से पता उलटा कानून को बदलने कि किसी भी यादृच्छिक चर के लिए , अगर तो । यह किसी भी रैंडम वैरिएबल को लेने और अपने स्वयं के सीडीएफ को लागू करने के बाद से वर्दी की ओर ले जाता है।XFX(Y)∼UY∼X
FX(X)=P(FX(x)<X)=P(X<F−1X(X))=FXF−1X(X)=X
और यह केवल वर्दी के साथ है।
समीकरण (2) में इस तथ्य का उपयोग करना हमें देता है:
τ(x)∼B
इसे समीकरण में बदलने से (1) हमें प्राप्त होता है:
AUC=Ex(P(A>B))=P(A>B)
दूसरे शब्दों में, वक्र के नीचे का क्षेत्र इस बात की संभावना है कि एक यादृच्छिक सकारात्मक नमूने में एक यादृच्छिक नकारात्मक नमूने की तुलना में उच्च स्कोर होगा।