Wojtek J. Krzanowski और David J. Hand ROC Curves for Continuous Data (2009) ROC घटता से संबंधित सभी चीजों के लिए एक महान संदर्भ है। यह एक व्यापक व्यापक साहित्य आधार में कई परिणामों को एक साथ इकट्ठा करता है, जो अक्सर एक ही विषय पर चर्चा करने के लिए विभिन्न शब्दावली का उपयोग करता है।
इसके अतिरिक्त, यह पुस्तक वैकल्पिक तरीकों की टिप्पणी और तुलना प्रदान करती है जो समान मात्रा का अनुमान लगाने के लिए व्युत्पन्न किए गए हैं, और बताते हैं कि कुछ विधियाँ ऐसी धारणाएँ बनाती हैं जो विशेष संदर्भों में अस्थिर हो सकती हैं। यह एक ऐसा प्रसंग है; अन्य उत्तर हैनली और मैकनील विधि की रिपोर्ट करते हैं, जो स्कोर के वितरण के लिए असामान्य मॉडल को मानता है, जो उन मामलों में अनुचित हो सकता है जहां वर्ग स्कोर का वितरण सामान्य (करीब) नहीं है। सामान्य रूप से वितरित स्कोर की धारणा आधुनिक मशीन-शिक्षण संदर्भों में विशेष रूप से अनुचित लगती है, सामान्य सामान्य मॉडल जैसे कि एक्सगबॉस्ट वर्गीकरण कार्यों के लिए "बाथटब" वितरण के साथ स्कोर का उत्पादन करते हैं (अर्थात, 0 और 1 के चरम सीमा में उच्च घनत्व वाले वितरण) )।
प्रश्न 1 - ए.यू.सी.
धारा 6.3 आरओसी एयूसी की तुलना दो आरओसी वक्रों के लिए करती है (पीपी 113-114)। विशेष रूप से, मेरी समझ है कि इन दो मॉडल है कर रहे हैं सहसंबद्ध है, तो कैसे की गणना करने के बारे में जानकारी यहां गंभीर रूप से महत्वपूर्ण है, अन्यथा, आपका परीक्षण आँकड़ा पक्षपाती होगा क्योंकि यह सहसंबंध के योगदान के लिए जिम्मेदार नहीं है।आर
किसी भी पैरामीट्रिक वितरणात्मक मान्यताओं के आधार पर नहीं असहसंबद्ध आरओसी घटता के मामले के लिए, tets और विश्वास के अंतराल AUCs की तुलना के लिए आंकड़े सीधी अनुमान के आधार पर किया जा सकता है और AUC मान, और उनके मानक विचलन और , जैसा कि खंड 3.5.1 में दिया गया है: ^ एयूसी 2एस1एस2एयूसीˆ1एयूसीˆ2एस1एस2
जेड= ए.यू.सी.ˆ1- AUCˆ2एस21+ एस22-------√
इस तरह के परीक्षणों को उस स्थिति तक पहुंचाने के लिए, जिसमें एक ही डेटा का उपयोग दोनों क्लासिफायरफायर के लिए किया जाता है, हमें एयूसी अनुमानों के बीच सहसंबंध का ध्यान रखना होगा:
z= ए.यू.सी.ˆ1- AUCˆ2एस21+ एस22- आर एस1एस2-------------√
जहाँ इस सहसंबंध का अनुमान है। हैनली और मैकनील (1983) ने इस तरह का एक विस्तार किया, जो कि द्विनेत्री मामले पर उनके विश्लेषण को आधार बना रहा था, लेकिन केवल एक तालिका दी जिसमें दिखाया गया था कि कक्षा P पर दो के सहसंबंध से अनुमानित सहसंबंध गुणांक गणना कैसे करें और का सहसंबंध कक्षा एन के भीतर दो सहपाठियों ने कहा कि गणितीय व्युत्पत्ति अनुरोध पर उपलब्ध थी। विभिन्न अन्य लेखकों (उदाहरण के लिए, Zou, 2001) ने असामान्य मॉडल के आधार पर परीक्षण विकसित किए हैं, यह मानते हुए कि एक उपयुक्त परिवर्तन पाया जा सकता है जो एक साथ वर्गों P और N के स्कोर वितरण को सामान्य में बदल देगा।r r P r nआरआरआरपीआरn
डीलॉन्ग एट अल (1988) लाभ एयूसी और मान-व्हिटनी परीक्षण आंकड़ा के बीच पहचान की, एक साथ सामान्यीकृत के सिद्धांत के परिणामों के साथ ले लिया -statistics सेन (1960), की वजह से AUCs के बीच संबंध का एक estiamte प्राप्त करने के लिए कि द्विअर्थी धारणा पर निर्भर नहीं करता है। वास्तव में, DeLong et al (1988) ने classifiers के बीच तुलना के लिए निम्नलिखित परिणाम प्रस्तुत किए ।के ≥ 2यूके ≥ २
खंड 3.5.1 में, हमने दिखाया कि अनुभवजन्य आरओसी वक्र के तहत क्षेत्र मान-व्हिटनी -स्टेटिस्टिक के बराबर था , और इसके द्वारा दिया गया थायू
sPi,i=1,…,nPPsNj,j=1,…,nNNks r N j ,j=1…nNs r P i ,j=1,…,
ए यूसीˆ= 1nएनnपीΣमैं = १nएनΣज = १nपी[ मैं( s)पीजे> एसएनमैं) + 12मैं( s)पीजे= एसएनमैं) ]
जहां वर्ग वस्तुओं और लिए स्कोर हैं। नमूना में वर्ग ऑब्जेक्ट के लिए स्कोर हैं । मान लें कि हमारे पास क्लासिफायर हैं, स्कोर और [मैंने इस भाग में एक अनुक्रमण त्रुटि को ठीक किया - Sycorax] , और । परिभाषित करेंरोंपीमैं, मैं = 1 , … , एनपीपीरोंएनजे, जे = 1 , … , एनएनएनकरोंआरएनजे, j = 1 … nएन^ A U C r , r = 1 , ... , kरोंआरपीमैं, जे = 1 , … , एनपीए यूसीˆआर, आर = 1 , … , के
वी आर 01 =1
वीआर10= 1nएनΣज = १nएन[ मैं( s)आरपीमैं> एसआरएनजे) + 12मैं( s)आरपीमैं= एसआरएनजे) ] , i = 1 , … , nपी
और
वीआर01= 1nपीΣमैं = १nपी[ मैं( s)आरपीमैं> एसआरएनजे) + 12मैं( s)आरपीमैं= एसआरएनजे) ] , जे = १ , ... , एनएन
अगला, मैट्रिक्स को वें तत्व
और मैट्रिक्स साथ वें तत्व
_s फिर वक्र के नीचे अनुमानित क्षेत्रों के सदिश के लिए एस्टीमेटेड सहसंयोजक मैट्रिक्स है
W 10 ( r , s ) w r , s 10 = 1k × kडब्ल्यू10( आर , एस )कश्मीर×कश्मीरडब्ल्यू01(आर,एस)डब्ल्यू आर , एस ०१ =१
wआर , एस10= 1nपी- 1Σमैं = १nपी[ वीआर10( s)पीमैं) - ए यूसीˆआर] [ विरों10( s)पीमैं) - ए यूसीˆरों]
k × kडब्ल्यू01( आर , एस )( ^ एक यू सी 1,..., ^ ए यू सी के)डब्ल्यू=1wआर , एस01= 1nएन- 1Σमैं = १nएन[ वीआर01( s)एनमैं) - ए यूसीˆआर] [ विरों01( s)एनमैं) - ए यूसीˆरों]
( ए यूसीˆ1, … , ए यूसीˆक)डब्ल्यूआर,एसआरडब्ल्यू1,2W = 1nपीडब्ल्यू10+ 1nएनडब्ल्यू01
तत्वों के साथ । यह एकल एस्टिमेटेड एयूसी के अनुमानित विचरण के लिए परिणाम का एक सामान्यीकरण है, जो कि खंड 3.5.1 में भी दिया गया है। दो क्लासिफायर के मामले में, अनुमानित AUCs के बीच एस्टीमेटेड सहसंबंध इस प्रकार जिसका उपयोग ऊपर में किया जा सकता है।wआर , एसआर जेडw1 , 2w1 , 1w२ , २√z
चूंकि अन्य उत्तर एयूसी विचरण के अनुमानकों के लिए हेनली और मैकनील अभिव्यक्तियाँ देते हैं, यहाँ मैं पी से डीगॉन्ग अनुमानक को पुन: पेश करूँगा। 68:
DeLong et al (1988) और Pepe (2003) द्वारा अनुकरणीय होने के कारण वैकल्पिक दृष्टिकोण शायद एक सरल अनुमान देता है, और एक वह है जो प्लेसमेंट मान के अतिरिक्त उपयोगी अवधारणा का परिचय देता है। स्कोर की नियुक्ति मूल्य एक निर्धारित जनसंख्या के संदर्भ में पर कि जनसंख्या के उत्तरजीवी समारोह है । जनसंख्या N में लिए प्लेसमेंट का मान और जनसंख्या P में लिए । प्लेसमेंट के मूल्यों का अनुभवजन्य अनुमान स्पष्ट अनुपात द्वारा दिया जाता है। इस प्रकार जनसंख्या में प्रेक्षण का स्थान मान P को निरूपित किया गया , P से अधिक नमूना मानों का अनुपात हैरों रों 1 - एफ ( रों ) रों 1 - जी ( रों ) रों एन मैं रों पी एन मैं रों एन मैं वर ( रों एन पी मैं )रोंरोंरों1 - एफ( s )रों1 - जी ( s )रोंएनमैंरोंपीएनमैंरोंएनमैं , और जनसंख्या P के संबंध में N से प्रत्येक अवलोकन के प्लेसमेंट मानों का विचरण है ...var ( s)एनपीमैं)
DeLong et al (1988) का अनुमान इन संदर्भ में के विचरण का दिया गया है:
एस2( ^ एक यू सी )=1ए यूसीˆ
रों2( ए यूसीˆ) = 1nपीvar ( s)एनपीमैं) + 1nएनvar ( s)पीएनमैं)
ध्यान दें कि जनसंख्या N में स्कोर का संचयी वितरण कार्य है और जनसंख्या P में स्कोर का संचयी वितरण कार्य है। और का अनुमान लगाने का एक मानक तरीका है कि आप Ecdf का उपयोग करें । पुस्तक एक्लिड अनुमानों के लिए कुछ वैकल्पिक तरीके भी प्रदान करती है, जैसे कि कर्नेल घनत्व अनुमान, लेकिन यह इस उत्तर के दायरे से बाहर है।जी एफ जीएफजीएफजी
आँकड़े और मानक सामान्य भटक माना जा सकता है, और शून्य परिकल्पना की सांख्यिकीय परीक्षण हमेशा की तरह आगे बढ़ें। (यह भी देखें: परिकल्पना-परीक्षण )zजेडz
यह एक सरल, उच्च-स्तरीय रूपरेखा है कि परिकल्पना परीक्षण कैसे काम करता है:
परीक्षण, आपके शब्दों में, "क्या एक क्लासिफायरियर दूसरे की तुलना में काफी बेहतर है" को शून्य परिकल्पना का परीक्षण करने के रूप में फिर से परिभाषित किया जा सकता है कि दोनों मॉडल में सांख्यिकीय परिकल्पना के खिलाफ सांख्यिकीय रूप से समान एयूसी हैं जो आंकड़े असमान हैं।
यह दो-पूंछ वाला परीक्षण है।
हम अशक्त परिकल्पना को अस्वीकार करते हैं यदि परीक्षण सांख्यिकीय संदर्भ वितरण के महत्वपूर्ण क्षेत्र में है, जो इस मामले में एक मानक सामान्य वितरण है।
महत्वपूर्ण क्षेत्र का आकार परीक्षण के स्तर पर निर्भर करता है । 95% के महत्व स्तर के लिए, परीक्षण सांख्यिकीय महत्वपूर्ण क्षेत्र में गिरता है अगर या । (ये मानक सामान्य वितरण के और मात्राएं हैं।) अन्यथा, आप अशक्त परिकल्पना को अस्वीकार करने में विफल रहते हैं और दो मॉडल सांख्यिकीय रूप से बंधे होते हैं।z > 1.96 z < - 1.96 α / 2 1 - α / 2αz> 1.96z< - 1.96α / 21 - α / 2
प्रश्न 1 - संवेदनशीलता और विशिष्टता
संवेदनशीलता और विशिष्टता की तुलना करने के लिए सामान्य रणनीति यह देखना है कि ये दोनों आँकड़े आनुपातिक पर सांख्यिकीय निष्कर्ष निकालने के लिए हैं, और यह एक मानक, अच्छी तरह से अध्ययन की गई समस्या है। विशेष रूप से, संवेदनशीलता जनसंख्या P का अनुपात है जिसका स्कोर कुछ थ्रेशोल्ड से अधिक है , और इसी तरह विशिष्टता wrt जनसंख्या N:
संवेदनशीलता = t pटी
संवेदनशीलता = टी पी1 - विशिष्टता = एफपी= पी ( एस)पी> टी )= पी ( एस)एन> टी )
मुख्य स्टिकिंग बिंदु यह देखते हुए उपयुक्त परीक्षण विकसित कर रहा है कि दो नमूना अनुपात सहसंबद्ध होंगे (जैसा कि आपने एक ही परीक्षण डेटा पर दो मॉडल लागू किए हैं)। इसे पी पर संबोधित किया गया है। 111।
विशेष परीक्षणों की ओर मुड़ते हुए, कई सारांश आंकड़े प्रत्येक वक्र के अनुपात को कम करते हैं, ताकि अनुपात की तुलना करने के लिए मानक तरीकों का उपयोग किया जा सके। उदाहरण के लिए, फिक्स्ड लिए का मान एक अनुपात है, जैसा कि निश्चित दहलीज लिए misclassification दर । हम इन उपायों का उपयोग करके घटता की तुलना कर सकते हैं, अनुपात की तुलना करने के लिए मानक परीक्षणों के माध्यम से। उदाहरण के लिए, अयुगल मामले में, हम परीक्षण आंकड़ा उपयोग कर सकते हैं , जहां वक्र के लिए सच सकारात्मक दर है प्रश्न में बिंदु के रूप में, और है और के का ...टी पीचपीटी( टी पी1- टी पी2) / एस12टी पीमैंमैंरों212टी पी1टी पी2
युग्मित मामले के लिए, हालांकि, एक समायोजन प्राप्त कर सकता है जो और बीच लिए अनुमति देता है , लेकिन एक विकल्प सहसंबंधित अनुपात (Marascuilo और McCweeney, 1977) के लिए McNemar के परीक्षण का उपयोग करना है।टी पी1टी पी2
Mcnemar परीक्षण जब आपके पास उचित है विषयों, और प्रत्येक विषय में दो बार परीक्षण किया जाता है, एक बार दो दिचोतोमोउस परिणामों से प्रत्येक के लिए। संवेदनशीलता और विशिष्टता की परिभाषाओं को देखते हुए, यह स्पष्ट होना चाहिए कि यह वास्तव में परीक्षण है जो हम चाहते हैं, क्योंकि आपने एक ही परीक्षण डेटा पर दो मॉडल लागू किए हैं और कुछ सीमा पर संवेदनशीलता और विशिष्टता की गणना की है।एन
मैकनेमर परीक्षण एक अलग सांख्यिकीय, लेकिन एक समान अशक्त और वैकल्पिक परिकल्पना का उपयोग करता है। उदाहरण के लिए, संवेदनशीलता पर विचार करते हुए , शून्य परिकल्पना यह है कि अनुपात , और विकल्प । इसके बजाय कच्चे काउंट होने के अनुपात को फिर से व्यवस्थित करते हुए , हम एक आकस्मिक तालिका लिख सकते हैं
जहां सेल काउंट्स काउंटिंग द्वारा दिए जाते हैं प्रत्येक मॉडल के अनुसार सही सकारात्मक और गलत नकारात्मकटी पी1= टी पी2टी पी1≠ टी पी2
मॉडल 2 सकारात्मक टी परमॉडल 2 नकारात्मक पर टीमॉडल 1 सकारात्मक पर टीएसीमॉडल 1 नकारात्मक पर टीखघ
एखसीघ= ∑मैं = १nपीमैं( s)1पीमैं> t ) ⋅ मैं( s)2पीमैं> टी )= ∑मैं = १nपीमैं( s)1पीमैं≤ टी ) ⋅ मैं( s)2पीमैं> टी )= ∑मैं = १nपीमैं( s)1पीमैं> t ) ⋅ मैं( s)2पीमैं≤ टी )= ∑मैं = १nपीमैं( s)1पीमैं≤ टी ) ⋅ मैं( s)2पीमैं≤ टी )
और हमारे पास परीक्षण आँकड़ा
जिसे 1 डिग्री स्वतंत्रता के साथ रूप में वितरित किया जाता है । एक स्तर , शून्य परिकल्पना लिए अस्वीकार कर दिया ।
म= ( बी - सी )2बी + सी
χ21α = 95 %म> 3.841459
के लिए विशिष्टता , आप, उसी प्रक्रिया का उपयोग कर सकते हैं सिवाय इसके कि आप की जगह के साथ । s r N Jरोंआरपीमैंरोंआरएनजे
प्रश्न 2
ऐसा लगता है कि प्रत्येक उत्तरदाता के लिए पूर्वानुमान मूल्यों के औसत से परिणामों को मर्ज करना पर्याप्त है, ताकि प्रत्येक मॉडल के लिए आपके पास 100 औसत अनुमानित पूर्वानुमानों के 1 वेक्टर हो। फिर आरओसी एयूसी, संवेदनशीलता और विशिष्टता के आँकड़ों की हमेशा की तरह गणना करें, जैसे कि मूल मॉडल मौजूद नहीं थे। यह एक मॉडलिंग रणनीति को दर्शाता है जो प्रत्येक 5 उत्तरदाताओं के मॉडल को मॉडल की "समिति" में से एक मानती है, एक कलाकारों की टुकड़ी की तरह।