(मतलब) आरओसी एयूसी, संवेदनशीलता और विशिष्टता के संबंध में दो वर्गीकरणों की तुलना करने के लिए सांख्यिकीय महत्व (पी-मूल्य)


14

मेरे पास 100 मामलों और दो क्लासिफायर का एक परीक्षण सेट है।

मैंने भविष्यवाणियों को उत्पन्न किया और आरओसी एयूसी, संवेदनशीलता और दोनों कक्षाओं के लिए विशिष्टता की गणना की।

प्रश्न 1: अगर सभी स्कोर (आरओसी एयूसी, संवेदनशीलता, विशिष्टता) के संबंध में एक दूसरे से बेहतर है, तो मैं पी-वैल्यू की गणना कैसे कर सकता हूं?


अब, 100 मामलों के समान परीक्षण सेट के लिए, मेरे पास प्रत्येक मामले के लिए अलग और स्वतंत्र फीचर असाइनमेंट हैं। ऐसा इसलिए है क्योंकि मेरी सुविधाएँ निश्चित लेकिन व्यक्तिपरक हैं और कई (5) विषयों द्वारा प्रदान की गई हैं।

इसलिए, मैंने अपने परीक्षण सेट के 5 "संस्करणों" के लिए फिर से अपने दो क्लासीफायर का मूल्यांकन किया और दोनों आरसीआई के लिए 5 आरओसी एयूसी, 5 संवेदनशीलता और 5 विशिष्टताओं को प्राप्त किया। फिर, मैंने दोनों विषयों के लिए 5 विषयों (मतलब आरओसी एयूसी, मतलब संवेदनशीलता और मतलब विशिष्टता) के लिए प्रत्येक प्रदर्शन माप का मतलब गणना की।

प्रश्न 2: मैं पी-वैल्यू की जांच कैसे कर सकता हूं कि क्या मतलब स्कोर के संबंध में एक दूसरे से बेहतर है (मतलब आरओसी एयूसी, मतलब संवेदनशीलता, मतलब विशिष्टता)?


कुछ उदाहरण पायथन (अधिमानतः) या मैटलैब कोड के साथ उत्तर स्वागत से अधिक हैं।


दोनों के बीच सबसे अच्छा क्लासिफायर होने के लिए सटीकता, सटीकता, एयूसी की प्रत्यक्ष तुलना करें। पी-मूल्य यहाँ समझ में नहीं आता है। पी-मूल्य का उपयोग मूल्यांकन के संदर्भ में किया जाता है कि क्या मॉडल यादृच्छिक / 50-50 असाइनमेंट (एक शून्य / वैकल्पिक परिकल्पना परीक्षण के रूप में) से बेहतर कर रहा है
निषाद

2
सबसे पहले, मैं सहमत नहीं हूं कि पी-मूल्य का उपयोग करने वाले दो प्रदर्शन उपायों की तुलना यहां समझ में नहीं आती है। मैं देखता हूं कि एक क्लासिफायर में AUC 0.80 और दूसरा 0.85 है। मेरी अशक्त परिकल्पना यह होगी कि दोनों क्लासिफाइड के प्रदर्शन में कोई अंतर नहीं है। मैं जानना चाहता हूं कि क्या अंतर सांख्यिकीय रूप से महत्वपूर्ण है।
kostek

2
दूसरा, मैं अपने मॉडल के 5 संस्करण नहीं बनाता। मेरे पास दो मॉडल हैं जो एक अलग प्रशिक्षण सेट पर प्रशिक्षित हैं और अब मैं अपने परीक्षण सेट के 5 अलग-अलग "संस्करणों" पर उनका मूल्यांकन करता हूं। मेरे पास दोनों क्लासिफायर के लिए माध्य प्रदर्शन है (जैसे 0.81 एयूसी और 0.84 एयूसी) और यह जांचना चाहते हैं कि अंतर सांख्यिकीय महत्वपूर्ण है या नहीं।
kostek

1
मैं यह नहीं कहूंगा कि मैं जो कर रहा हूं वह क्रॉस क्रॉस सत्यापन के करीब है। मेरे मामले में, सुविधाओं का मूल्य उस विषय पर निर्भर करता है जो उन्हें प्रदान कर रहा है। मुझे पता है कि एयूसी का उपयोग मॉडलों की तुलना करने के लिए किया जा सकता है, लेकिन मैं यह जानना चाहता हूं कि क्या, मेरी सेटिंग में, मेरी तुलना का परिणाम सांख्यिकीय महत्वपूर्ण है। मुझे यकीन है कि यह किया जा सकता है और यह करने के लिए बहुत मायने रखता है। मेरा सवाल यह है कि यह कैसे करना है।
kostek

3
मुझे यकीन नहीं है कि @ निषाद क्या कर रहा है, आपको यह निर्धारित करने के लिए एक परिकल्पना परीक्षण का उपयोग करना चाहिए कि क्या आपके मॉडल एक दूसरे से काफी भिन्न हैं। आपके मैट्रिक्स के मानक विचलन मौजूद हैं, और नमूना आकार बढ़ने (अन्य सभी चीजें समान होने) के रूप में छोटा हो जाता है। 0.8 और 0.9 के बीच AUC अंतर महत्वपूर्ण नहीं हो सकता है यदि आपके पास केवल 10 नमूने हैं, लेकिन यदि आपके पास 10M नमूने हैं तो यह बहुत महत्वपूर्ण हो सकता है। मैं किसी भी संबंध को क्रॉस-वैरिफिकेशन के साथ-साथ देखने में विफल रहता हूं। अगर मैं कर सकता हूँ तो टिप्पणी को वोट दें।
परमाणु वैंग

जवाबों:


11

Wojtek J. Krzanowski और David J. Hand ROC Curves for Continuous Data (2009) ROC घटता से संबंधित सभी चीजों के लिए एक महान संदर्भ है। यह एक व्यापक व्यापक साहित्य आधार में कई परिणामों को एक साथ इकट्ठा करता है, जो अक्सर एक ही विषय पर चर्चा करने के लिए विभिन्न शब्दावली का उपयोग करता है।

इसके अतिरिक्त, यह पुस्तक वैकल्पिक तरीकों की टिप्पणी और तुलना प्रदान करती है जो समान मात्रा का अनुमान लगाने के लिए व्युत्पन्न किए गए हैं, और बताते हैं कि कुछ विधियाँ ऐसी धारणाएँ बनाती हैं जो विशेष संदर्भों में अस्थिर हो सकती हैं। यह एक ऐसा प्रसंग है; अन्य उत्तर हैनली और मैकनील विधि की रिपोर्ट करते हैं, जो स्कोर के वितरण के लिए असामान्य मॉडल को मानता है, जो उन मामलों में अनुचित हो सकता है जहां वर्ग स्कोर का वितरण सामान्य (करीब) नहीं है। सामान्य रूप से वितरित स्कोर की धारणा आधुनिक संदर्भों में विशेष रूप से अनुचित लगती है, सामान्य सामान्य मॉडल जैसे कि वर्गीकरण कार्यों के लिए "बाथटब" वितरण के साथ स्कोर का उत्पादन करते हैं (अर्थात, 0 और 1 के चरम सीमा में उच्च घनत्व वाले वितरण) )।

प्रश्न 1 - ए.यू.सी.

धारा 6.3 आरओसी एयूसी की तुलना दो आरओसी वक्रों के लिए करती है (पीपी 113-114)। विशेष रूप से, मेरी समझ है कि इन दो मॉडल है कर रहे हैं सहसंबद्ध है, तो कैसे की गणना करने के बारे में जानकारी यहां गंभीर रूप से महत्वपूर्ण है, अन्यथा, आपका परीक्षण आँकड़ा पक्षपाती होगा क्योंकि यह सहसंबंध के योगदान के लिए जिम्मेदार नहीं है।r

किसी भी पैरामीट्रिक वितरणात्मक मान्यताओं के आधार पर नहीं असहसंबद्ध आरओसी घटता के मामले के लिए, tets और विश्वास के अंतराल AUCs की तुलना के लिए आंकड़े सीधी अनुमान के आधार पर किया जा सकता है और AUC मान, और उनके मानक विचलन और , जैसा कि खंड 3.5.1 में दिया गया है: ^ एयूसी 2एस1एस2AUC^1AUC^2S1S2

Z=AUC^1AUC^2S12+S22

इस तरह के परीक्षणों को उस स्थिति तक पहुंचाने के लिए, जिसमें एक ही डेटा का उपयोग दोनों क्लासिफायरफायर के लिए किया जाता है, हमें एयूसी अनुमानों के बीच सहसंबंध का ध्यान रखना होगा:

z=AUC^1AUC^2S12+S22rS1S2

जहाँ इस सहसंबंध का अनुमान है। हैनली और मैकनील (1983) ने इस तरह का एक विस्तार किया, जो कि द्विनेत्री मामले पर उनके विश्लेषण को आधार बना रहा था, लेकिन केवल एक तालिका दी जिसमें दिखाया गया था कि कक्षा P पर दो के सहसंबंध से अनुमानित सहसंबंध गुणांक गणना कैसे करें और का सहसंबंध कक्षा एन के भीतर दो सहपाठियों ने कहा कि गणितीय व्युत्पत्ति अनुरोध पर उपलब्ध थी। विभिन्न अन्य लेखकों (उदाहरण के लिए, Zou, 2001) ने असामान्य मॉडल के आधार पर परीक्षण विकसित किए हैं, यह मानते हुए कि एक उपयुक्त परिवर्तन पाया जा सकता है जो एक साथ वर्गों P और N के स्कोर वितरण को सामान्य में बदल देगा।r r P r nrrrPrn

डीलॉन्ग एट अल (1988) लाभ एयूसी और मान-व्हिटनी परीक्षण आंकड़ा के बीच पहचान की, एक साथ सामान्यीकृत के सिद्धांत के परिणामों के साथ ले लिया -statistics सेन (1960), की वजह से AUCs के बीच संबंध का एक estiamte प्राप्त करने के लिए कि द्विअर्थी धारणा पर निर्भर नहीं करता है। वास्तव में, DeLong et al (1988) ने classifiers के बीच तुलना के लिए निम्नलिखित परिणाम प्रस्तुत किए ।के 2Uk2

खंड 3.5.1 में, हमने दिखाया कि अनुभवजन्य आरओसी वक्र के तहत क्षेत्र मान-व्हिटनी -स्टेटिस्टिक के बराबर था , और इसके द्वारा दिया गया थाU

sPi,i=1,,nPPsNj,j=1,,nNNks r N j ,j=1nNs r P i ,j=1,,

AUC^=1nNnPi=1nNj=1nP[I(sPj>sNi)+12I(sPj=sNi)]
जहां वर्ग वस्तुओं और लिए स्कोर हैं। नमूना में वर्ग ऑब्जेक्ट के लिए स्कोर हैं । मान लें कि हमारे पास क्लासिफायर हैं, स्कोर और [मैंने इस भाग में एक अनुक्रमण त्रुटि को ठीक किया - Sycorax] , और । परिभाषित करेंsPi,i=1,,nPPsNj,j=1,,nNNksNjr,j=1nN^ A U C r , r = 1 , ... , ksPir,j=1,,nPAUC^r,r=1,,k

वी आर 01 =1

V10r=1nNj=1nN[I(sPir>sNjr)+12I(sPir=sNjr)],i=1,,nP
और
V01r=1nPi=1nP[I(sPir>sNjr)+12I(sPir=sNjr)],j=1,,nN

अगला, मैट्रिक्स को वें तत्व और मैट्रिक्स साथ वें तत्व _s फिर वक्र के नीचे अनुमानित क्षेत्रों के सदिश के लिए एस्टीमेटेड सहसंयोजक मैट्रिक्स है W 10 ( r , s ) w r , s 10 = 1k×kW10(r,s)कश्मीर×कश्मीरडब्ल्यू01(आर,एस)डब्ल्यू आर , एस ०१ =

w10r,s=1nP1i=1nP[V10r(sPi)AUC^r][V10s(sPi)AUC^s]
k×kW01(r,s)( ^ एक यू सी 1,..., ^ यू सी के)डब्ल्यू=1
w01r,s=1nN1i=1nN[V01r(sNi)AUC^r][V01s(sNi)AUC^s]
(AUC^1,,AUC^k)डब्ल्यूआर,एसआरडब्ल्यू1,2
W=1nPW10+1nNW01
तत्वों के साथ । यह एकल एस्टिमेटेड एयूसी के अनुमानित विचरण के लिए परिणाम का एक सामान्यीकरण है, जो कि खंड 3.5.1 में भी दिया गया है। दो क्लासिफायर के मामले में, अनुमानित AUCs के बीच एस्टीमेटेड सहसंबंध इस प्रकार जिसका उपयोग ऊपर में किया जा सकता है।wआर,रोंआर जेडw1,2w1,1w2,2z

चूंकि अन्य उत्तर एयूसी विचरण के अनुमानकों के लिए हेनली और मैकनील अभिव्यक्तियाँ देते हैं, यहाँ मैं पी से डीगॉन्ग अनुमानक को पुन: पेश करूँगा। 68:

DeLong et al (1988) और Pepe (2003) द्वारा अनुकरणीय होने के कारण वैकल्पिक दृष्टिकोण शायद एक सरल अनुमान देता है, और एक वह है जो प्लेसमेंट मान के अतिरिक्त उपयोगी अवधारणा का परिचय देता है। स्कोर की नियुक्ति मूल्य एक निर्धारित जनसंख्या के संदर्भ में पर कि जनसंख्या के उत्तरजीवी समारोह है । जनसंख्या N में लिए प्लेसमेंट का मान और जनसंख्या P में लिए । प्लेसमेंट के मूल्यों का अनुभवजन्य अनुमान स्पष्ट अनुपात द्वारा दिया जाता है। इस प्रकार जनसंख्या में प्रेक्षण का स्थान मान P को निरूपित किया गया , P से अधिक नमूना मानों का अनुपात हैरों रों 1 - एफ ( रों ) रों 1 - जी ( रों ) रों एन मैं रों पी एन मैं रों एन मैं वर ( रों एन पी मैं )रोंरोंरों1-एफ(रों)रों1-जी(रों)रोंएनमैंरोंएनमैंपीरोंएनमैं , और जनसंख्या P के संबंध में N से प्रत्येक अवलोकन के प्लेसमेंट मानों का विचरण है ...वर(रोंपीमैंएन)

DeLong et al (1988) का अनुमान इन संदर्भ में के विचरण का दिया गया है: एस2( ^ एक यू सी )=1यूसी^

रों2(यूसी^)=1nपीवर(रोंपीमैंएन)+1nएनवर(रोंएनमैंपी)

ध्यान दें कि जनसंख्या N में स्कोर का संचयी वितरण कार्य है और जनसंख्या P में स्कोर का संचयी वितरण कार्य है। और का अनुमान लगाने का एक मानक तरीका है कि आप का उपयोग करें । पुस्तक एक्लिड अनुमानों के लिए कुछ वैकल्पिक तरीके भी प्रदान करती है, जैसे कि कर्नेल घनत्व अनुमान, लेकिन यह इस उत्तर के दायरे से बाहर है।जी एफ जीएफजीएफजी

आँकड़े और मानक सामान्य भटक माना जा सकता है, और शून्य परिकल्पना की सांख्यिकीय परीक्षण हमेशा की तरह आगे बढ़ें। (यह भी देखें: )zजेडz

यह एक सरल, उच्च-स्तरीय रूपरेखा है कि परिकल्पना परीक्षण कैसे काम करता है:

  • परीक्षण, आपके शब्दों में, "क्या एक क्लासिफायरियर दूसरे की तुलना में काफी बेहतर है" को शून्य परिकल्पना का परीक्षण करने के रूप में फिर से परिभाषित किया जा सकता है कि दोनों मॉडल में सांख्यिकीय परिकल्पना के खिलाफ सांख्यिकीय रूप से समान एयूसी हैं जो आंकड़े असमान हैं।

  • यह दो-पूंछ वाला परीक्षण है।

  • हम अशक्त परिकल्पना को अस्वीकार करते हैं यदि परीक्षण सांख्यिकीय संदर्भ वितरण के महत्वपूर्ण क्षेत्र में है, जो इस मामले में एक मानक सामान्य वितरण है।

  • महत्वपूर्ण क्षेत्र का आकार परीक्षण के स्तर पर निर्भर करता है । 95% के महत्व स्तर के लिए, परीक्षण सांख्यिकीय महत्वपूर्ण क्षेत्र में गिरता है अगर या । (ये मानक सामान्य वितरण के और मात्राएं हैं।) अन्यथा, आप अशक्त परिकल्पना को अस्वीकार करने में विफल रहते हैं और दो मॉडल सांख्यिकीय रूप से बंधे होते हैं।z > 1.96 z < - 1.96 α / 2 1 - α / 2αz>1.96z<-1.96α/21-α/2

प्रश्न 1 - संवेदनशीलता और विशिष्टता

संवेदनशीलता और विशिष्टता की तुलना करने के लिए सामान्य रणनीति यह देखना है कि ये दोनों आँकड़े आनुपातिक पर सांख्यिकीय निष्कर्ष निकालने के लिए हैं, और यह एक मानक, अच्छी तरह से अध्ययन की गई समस्या है। विशेष रूप से, संवेदनशीलता जनसंख्या P का अनुपात है जिसका स्कोर कुछ थ्रेशोल्ड से अधिक है , और इसी तरह विशिष्टता wrt जनसंख्या N: संवेदनशीलता = t pटी

संवेदनशीलता=टीपी=पी(रोंपी>टी)1-विशेषता=पी=पी(रोंएन>टी)

मुख्य स्टिकिंग बिंदु यह देखते हुए उपयुक्त परीक्षण विकसित कर रहा है कि दो नमूना अनुपात सहसंबद्ध होंगे (जैसा कि आपने एक ही परीक्षण डेटा पर दो मॉडल लागू किए हैं)। इसे पी पर संबोधित किया गया है। 111।

विशेष परीक्षणों की ओर मुड़ते हुए, कई सारांश आंकड़े प्रत्येक वक्र के अनुपात को कम करते हैं, ताकि अनुपात की तुलना करने के लिए मानक तरीकों का उपयोग किया जा सके। उदाहरण के लिए, फिक्स्ड लिए का मान एक अनुपात है, जैसा कि निश्चित दहलीज लिए misclassification दर । हम इन उपायों का उपयोग करके घटता की तुलना कर सकते हैं, अनुपात की तुलना करने के लिए मानक परीक्षणों के माध्यम से। उदाहरण के लिए, अयुगल मामले में, हम परीक्षण आंकड़ा उपयोग कर सकते हैं , जहां वक्र के लिए सच सकारात्मक दर है प्रश्न में बिंदु के रूप में, और है और के का ...टीपीपीटी(टीपी1-टीपी2)/रों12टीपीमैंमैंरों122टीपी1टीपी2

युग्मित मामले के लिए, हालांकि, एक समायोजन प्राप्त कर सकता है जो और बीच लिए अनुमति देता है , लेकिन एक विकल्प सहसंबंधित अनुपात (Marascuilo और McCweeney, 1977) के लिए McNemar के परीक्षण का उपयोग करना है।टीपी1टीपी2

जब आपके पास उचित है विषयों, और प्रत्येक विषय में दो बार परीक्षण किया जाता है, एक बार दो दिचोतोमोउस परिणामों से प्रत्येक के लिए। संवेदनशीलता और विशिष्टता की परिभाषाओं को देखते हुए, यह स्पष्ट होना चाहिए कि यह वास्तव में परीक्षण है जो हम चाहते हैं, क्योंकि आपने एक ही परीक्षण डेटा पर दो मॉडल लागू किए हैं और कुछ सीमा पर संवेदनशीलता और विशिष्टता की गणना की है।एन

मैकनेमर परीक्षण एक अलग सांख्यिकीय, लेकिन एक समान अशक्त और वैकल्पिक परिकल्पना का उपयोग करता है। उदाहरण के लिए, संवेदनशीलता पर विचार करते हुए , शून्य परिकल्पना यह है कि अनुपात , और विकल्प । इसके बजाय कच्चे काउंट होने के अनुपात को फिर से व्यवस्थित करते हुए , हम एक आकस्मिक तालिका लिख ​​सकते हैं जहां सेल काउंट्स काउंटिंग द्वारा दिए जाते हैं प्रत्येक मॉडल के अनुसार सही सकारात्मक और गलत नकारात्मकटीपी1=टीपी2टीपी1टीपी2

मॉडल 1 सकारात्मक पर टीमॉडल 1 नकारात्मक टीमॉडल 2 पॉजिटिव एट टीमॉडल 2 नकारात्मक टीसी

=Σमैं=1nपीमैं(रोंपीमैं1>टी)मैं(रोंपीमैं2>टी)=Σमैं=1nपीमैं(रोंपीमैं1टी)मैं(रोंपीमैं2>टी)सी=Σमैं=1nपीमैं(रोंपीमैं1>टी)मैं(रोंपीमैं2टी)=Σमैं=1nपीमैं(रोंपीमैं1टी)मैं(रोंपीमैं2टी)

और हमारे पास परीक्षण आँकड़ा जिसे 1 डिग्री स्वतंत्रता के साथ रूप में वितरित किया जाता है । एक स्तर , शून्य परिकल्पना लिए अस्वीकार कर दिया ।

=(-सी)2+सी
χ12α=95%>3.841459

के लिए विशिष्टता , आप, उसी प्रक्रिया का उपयोग कर सकते हैं सिवाय इसके कि आप की जगह के साथ । s r N Jरोंपीमैंआररोंएनजेआर

प्रश्न 2

ऐसा लगता है कि प्रत्येक उत्तरदाता के लिए पूर्वानुमान मूल्यों के औसत से परिणामों को मर्ज करना पर्याप्त है, ताकि प्रत्येक मॉडल के लिए आपके पास 100 औसत अनुमानित पूर्वानुमानों के 1 वेक्टर हो। फिर आरओसी एयूसी, संवेदनशीलता और विशिष्टता के आँकड़ों की हमेशा की तरह गणना करें, जैसे कि मूल मॉडल मौजूद नहीं थे। यह एक मॉडलिंग रणनीति को दर्शाता है जो प्रत्येक 5 उत्तरदाताओं के मॉडल को मॉडल की "समिति" में से एक मानती है, एक कलाकारों की टुकड़ी की तरह।


आपके उत्तर के लिए धन्यवाद और संदर्भ प्रदान किया। संवेदनशीलता और विशिष्टता के लिए पी-मूल्यों के बारे में क्या?
kostek

Q1 के लिए, इसका मतलब यह है कि संवेदनशीलता और विशिष्टता के लिए कंप्यूटिंग पी-मूल्य के बीच कोई अंतर नहीं है और यह कि वे दोनों हमेशा एक ही पी-मूल्य रखते हैं और मैं बस एक आकस्मिक तालिका बनाता हूं और उस पर मैकनेमर परीक्षण चलाता हूं?
kostek

नहीं, आप प्रत्येक के लिए एक परीक्षण करेंगे।
साइकोरैक्स का कहना है कि

यह एक बहुत विस्तृत जवाब है, धन्यवाद। मैकनेमर-परीक्षण के बारे में; वास्तव में क्या हैं? ये क्या अनुपात हैं? ,,सी,
ड्रे

@ श्रेय वे अनुपात नहीं हैं; वे मायने रखते हैं। मैं इसे एक संशोधन में स्पष्ट करता हूं।
साइकोरैक्स का कहना है कि मोनिका

2

मुझे उत्तर को छोटा रखने दें, क्योंकि यह मार्गदर्शिका बहुत अधिक और बेहतर व्याख्या करती है

मूल रूप से, आप यह सच है Postives (की अपनी संख्या है ) और संख्या यह सच है नकारात्मक की ( )। इसके अलावा आपके पास अपना AUC, A. इस A की मानक त्रुटि है:nटीपीnटीएन

एसई=(1-)+(nटीपी-1)(क्यू1-2)+(nटीएन-1)(क्यू2-2)nटीपीnटीएन

साथ और ।क्यू1=/(2-)क्यू2=22/(1+)

दो एयूसी की तुलना करने के लिए आपको उन दोनों के एसई की गणना करने की आवश्यकता है:

एसई1-2=(एस1)2+(एस2)2-2आर(एस1)(एस2)

जहाँ एक मात्रा है जो दोनों क्षेत्रों के बीच समान मामलों के अध्ययन द्वारा प्रेरित सहसंबंध का प्रतिनिधित्व करता है। यदि आपके मामले अलग हैं, तो ; अन्यथा आपको इसे देखने की आवश्यकता है (तालिका 1, पृष्ठ 3 स्वतंत्र रूप से उपलब्ध लेख में)।आरआर=0

यह देखते हुए कि आप -Score द्वारा गणना करते हैंz

z=(1-2)/एस1-2

वहां से आप मानक सामान्य वितरण की संभावना घनत्व का उपयोग करके पी-मूल्य की गणना कर सकते हैं। या बस इस कैलकुलेटर का उपयोग करें।

यह आशा से प्रश्न 1 का उत्तर देता है । - कम से कम AUCs की तुलना करने वाला हिस्सा। सेंसर / स्पेक पहले से ही किसी तरह से आरओसी / एयूसी द्वारा कवर किया गया है। अन्यथा, मुझे लगता है कि उत्तर प्रश्न 2 में निहित है।

के रूप में प्रश्न 2 , केन्द्रीय सीमा प्रमेय हमें बताता है कि आपके सारांश आंकड़े एक सामान्य वितरण का अनुसरण करेगी। इसलिए, मुझे लगता है कि एक साधारण टी-टेस्ट पर्याप्त होगा (दूसरे क्लासिफायर के 5 उपायों के खिलाफ एक क्लासिफायरिफ़ायर के 5 उपाय, जहां उपाय एयूसी, सनसनी, कल्पना हो सकते हैं)

संपादित करें: ( ) के लिए सही सूत्र- 2 आर एसई...-2आर...


दिए गए लिंक के लिए धन्यवाद। प्रश्न 1 के लिए, यदि मैं A को संवेदनशीलता या विशिष्टता के लिए सेट करता हूं, तो क्या SE और z- स्कोर के समीकरण समीकरण होंगे?
कोस्टेक

नहीं, क्योंकि संवेदी केवल टीपी को संभालती है और युक्ति TN को संभालती है। द्विपदीय अनुपात सीआई के साथ संवेदी / कल्पना के लिए आत्मविश्वास अंतराल की गणना करना संभव है , लेकिन सतर्क (छोटे नमूना आकार)। आपका सेंस या स्पेक होगा। यदि CI आपकी तुलना में ओवरलैप करता है, तो अंतर अल्फा-स्तर के तहत सांख्यिकीय रूप से महत्वपूर्ण नहीं होगा। पी^
ड्रे

0

प्रश्न 1 के लिए, @ साइकोरैक्स ने एक व्यापक उत्तर दिया।

प्रश्न 2 के लिए, मेरी जानकारी के अनुसार, विषयों से औसत पूर्वानुमान गलत है। मैंने पी-मूल्यों की गणना और मॉडल की तुलना करने के लिए बूटस्ट्रैपिंग का उपयोग करने का निर्णय लिया।

इस मामले में, प्रक्रिया इस प्रकार है:

For N iterations:
  sample 5 subjects with replacement
  sample 100 test cases with replacement
  compute mean performance of sampled subjects on sampled cases for model M1
  compute mean performance of sampled subjects on sampled cases for model M2
  take the difference of mean performance between M1 and M2
p-value equals to the proportion of differences smaller or equal than 0

यह प्रक्रिया एक-पुच्छ परीक्षण करती है और मानती है कि M1 का मतलब प्रदर्शन> M2 मतलब प्रदर्शन है।

कई पाठकों की तुलना करने वाले पी-मानों की गणना के लिए बूटस्ट्रैपिंग का पायथन कार्यान्वयन इस GitHub repo में पाया जा सकता है: https://github.com/mateuszbuda/ml-stat-util

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.