क्रॉस-मान्य वर्गीकरण सटीकता के लिए आत्मविश्वास अंतराल


11

मैं एक वर्गीकरण समस्या पर काम कर रहा हूं जो दो इनपुट एक्स-रे छवियों के बीच एक समानता मीट्रिक की गणना करता है। यदि चित्र एक ही व्यक्ति ('सही' का लेबल) के हैं, तो एक उच्च मीट्रिक की गणना की जाएगी; दो अलग-अलग लोगों की इनपुट छवियां ('गलत' का लेबल) कम मीट्रिक का परिणाम देगा।

मैंने गर्भपात की संभावना की गणना के लिए एक स्तरीकृत 10-गुना क्रॉस-सत्यापन का उपयोग किया। मेरे वर्तमान नमूने का आकार लगभग 40 सही मैच और 80 गलत मैच हैं, जहां प्रत्येक डेटा पॉइंट गणना की गई मीट्रिक है। मुझे ०.०० की गर्भपात की संभावना मिल रही है, लेकिन मुझे इस पर किसी प्रकार के विश्वास अंतराल / त्रुटि विश्लेषण की आवश्यकता है।

मैं एक द्विपद अनुपात विश्वास अंतराल (जहां मैं अपनी सफलताओं की संख्या के लिए सही लेबलिंग या गलत लेबलिंग के रूप में क्रॉस-सत्यापन के परिणामों का उपयोग करूंगा) का उपयोग कर रहा था। हालाँकि, द्विपद विश्लेषण के पीछे एक धारणा यह है कि प्रत्येक परीक्षण के लिए सफलता की समान संभावना है, और मुझे यकीन नहीं है कि क्रॉस-मान्यता में 'सही' या 'गलत' के वर्गीकरण के पीछे की विधि को माना जा सकता है सफलता की समान संभावना।

केवल एक और विश्लेषण जो मैं सोच सकता हूं, वह है कि क्रॉस-वेलिडेशन एक्स बार दोहराना और वर्गीकरण त्रुटि के माध्य / मानक विचलन की गणना करना, लेकिन मुझे यकीन नहीं है कि यह उचित भी है क्योंकि मैं अपने डेटा का पुन: उपयोग कर रहा हूं कई बार अपेक्षाकृत छोटे नमूने का आकार।

कोई विचार? मैं अपने सभी विश्लेषण के लिए MATLAB का उपयोग कर रहा हूं, और मेरे पास सांख्यिकी टूलबॉक्स है। किसी भी और सभी सहायता की सराहना करेंगे!


०.०० के विविधीकरण की संभावना का मतलब है कि आपको १० पार-सत्यापन वाले तह में से प्रत्येक पर १००% वर्गीकरण सटीकता प्राप्त है?
अमीबा

हां यह सही है। प्रत्येक तह में कोई गर्भपात नहीं हुआ; 0.00 मैंने रिपोर्ट किया कि परीक्षण मामलों की कुल संख्या (120) में से कुल गर्भपात (0) का प्रतिनिधित्व करता है।
सीन

BTW, क्या वास्तव में आप "स्तरीकृत" क्रॉस-मान्यता से मतलब है? प्रत्येक सीवी फोल्ड पर आपके पास हमेशा 4 मैच और 8 नॉन-मैच के साथ 120/10 = 12 टेस्ट सैंपल होते हैं?
अमीबा

हां, यह बिल्कुल वैसा ही है - कम से कम यही तरीका मुझे समझ में आता है कि कैसे MATLAB के भीतर किया जा रहा है। प्रत्येक तह में 'सही' / 'गलत' वर्ग लेबल का समान अनुपात होना चाहिए, जो 1: 2 है।
शॉन

जवाबों:


7

विभिन्न सरोगेट मॉडल की भविष्यवाणियों में अस्थिरता का प्रभाव

हालाँकि, द्विपद विश्लेषण के पीछे एक धारणा यह है कि प्रत्येक परीक्षण के लिए सफलता की समान संभावना है, और मुझे यकीन नहीं है कि क्रॉस-मान्यता में 'सही' या 'गलत' के वर्गीकरण के पीछे की विधि को माना जा सकता है सफलता की समान संभावना।

खैर, आमतौर पर यह समानता एक धारणा है जो आपको अलग-अलग सरोगेट मॉडल के परिणामों को पूल करने की अनुमति देने के लिए भी आवश्यक है।

व्यवहार में, आपके अंतर्ज्ञान कि इस धारणा का उल्लंघन हो सकता है अक्सर सच होता है। लेकिन आप माप सकते हैं कि क्या यह मामला है। यह वह जगह है जहाँ मैं iterated पार सत्यापन सहायक पाते हैं: विभिन्न सरोगेट मॉडल द्वारा एक ही मामले के लिए पूर्वानुमानों की स्थिरता आपको यह निर्धारित करने देती है कि मॉडल समकक्ष (स्थिर पूर्वानुमान) हैं या नहीं।

यहाँ पुनरावृत्त (उर्फ दोहराया) -फोल्ड क्रॉस सत्यापन की एक योजना है :k
iterated k-fold क्रॉस सत्यापन

कक्षाएं लाल और नीली हैं। दाईं ओर मंडलियां भविष्यवाणियों का प्रतीक हैं। प्रत्येक पुनरावृत्ति में, प्रत्येक नमूने की भविष्यवाणी एक बार की जाती है। आमतौर पर, भव्य मतलब परोक्ष यह सोचते हैं कि के प्रदर्शन, प्रदर्शन अनुमान के रूप में प्रयोग किया जाता है सरोगेट मॉडल बराबर है। यदि आप अलग-अलग सरोगेट मॉडल (यानी स्तंभों के पार) द्वारा की गई भविष्यवाणियों में प्रत्येक नमूने की तलाश करते हैं, तो आप देख सकते हैं कि इस नमूने के लिए पूर्वानुमान कितने स्थिर हैं।ik

आप प्रत्येक पुनरावृत्ति (ड्राइंग में 3 पंक्तियों के ब्लॉक) के लिए प्रदर्शन की गणना भी कर सकते हैं। इन दोनों के बीच किसी भी प्रकार का विचलन का अर्थ है कि सरोगेट मॉडल समान हैं (एक दूसरे के लिए और इसके अलावा सभी मामलों में निर्मित "भव्य मॉडल")। लेकिन यह भी बताता है कि आपमें कितनी अस्थिरता है। द्विपदीय अनुपात के लिए मुझे लगता है कि जब तक सही प्रदर्शन एक ही है (यानी स्वतंत्र है कि हमेशा एक ही मामलों को गलत भविष्यवाणी की जाती है या क्या एक ही संख्या लेकिन अलग-अलग मामलों की गलत भविष्यवाणी की जाती है)। मुझे नहीं पता कि सरोगेट मॉडल के प्रदर्शन के लिए कोई विशेष वितरण समझदारी से कर सकता है या नहीं। लेकिन मुझे लगता है कि यह किसी भी मामले में वर्गीकरण त्रुटियों की वर्तमान आम रिपोर्टिंग पर एक फायदा है यदि आप उस अस्थिरता की रिपोर्ट करते हैं।kk


nki

ड्राइंग अंजीर का एक नया संस्करण है। 5 इस पत्र में: बेलेइट्स, सी। एंड सैल्जर, आर .: छोटे नमूना आकार की स्थितियों में केमोमीट्रिक मॉडल की स्थिरता का आकलन और सुधार करना, गुदा बायोएनल केम, 390, 1261-1271 (2008)। DOI: 10.1007 / s00216-007-1818-6
ध्यान दें कि जब हमने पेपर लिखा था तो मुझे अभी तक विचरण के विभिन्न स्रोतों के बारे में पूरी तरह से पता नहीं चला था, जो मैंने यहाँ समझाया - ध्यान रखें। इसलिए मुझे लगता है कि तर्कप्रभावी नमूना आकार के आकलन के लिए, वहाँ सही नहीं है, भले ही आवेदन निष्कर्ष है कि प्रत्येक रोगी के भीतर विभिन्न ऊतक प्रकार एक समग्र ऊतक प्रकार के साथ एक नए रोगी के रूप में ज्यादा समग्र जानकारी के बारे में योगदान करते हैं, शायद अभी भी मान्य है (मेरे पास पूरी तरह से अलग प्रकार का है साक्ष्य जो इस तरह से भी बताते हैं)। हालाँकि, मैं अभी तक इस बारे में पूरी तरह से आश्वस्त नहीं हूँ (और न ही इसे कैसे बेहतर किया जा सकता है और इस तरह से जाँच की जा सकती है), और यह मुद्दा आपके प्रश्न से असंबंधित है।


द्विपद विश्वास अंतराल के लिए किस प्रदर्शन का उपयोग करें?

अब तक, मैं औसत देखे गए प्रदर्शन का उपयोग कर रहा हूं। आप सबसे खराब देखे गए प्रदर्शन का भी उपयोग कर सकते हैं: मनाया गया प्रदर्शन करीब 0.5, बड़ा विचरण और इस प्रकार आत्मविश्वास अंतराल। इस प्रकार, 0.5 से निकटतम मनाया प्रदर्शन का विश्वास अंतराल आपको कुछ रूढ़िवादी "सुरक्षा मार्जिन" देता है।

ध्यान दें कि द्विपद विश्वास अंतरालों की गणना करने के लिए कुछ तरीके भी काम करते हैं यदि सफलताओं की संख्या एक पूर्णांक नहीं है। मैं रॉस, टीडी में वर्णित के रूप में "बायेसियन पोस्टीरियर प्रायिकता का एकीकरण" का उपयोग करता हूं
: द्विपद अनुपात और पॉइज़न दर अनुमान, कम्प्यूट ब्योल मेड, 33, 509-531 (2003) के लिए सटीक आत्मविश्वास अंतराल। DOI: 10.1016 / S0010-4825 (03) 00019-2

(मैं मतलाब के लिए नहीं जानता, लेकिन आर में आप binom::binom.bayesदोनों आकार मापदंडों के साथ 1 का उपयोग कर सकते हैं )।


n

इन्हें भी देखें: बेंगियो, वाई। और ग्रैंडवेल्ट, वाई . : के-फोल्ड क्रॉस-वैलिडेशन के वैरिएस का कोई निष्पक्ष अनुमानक नहीं, जर्नल ऑफ मशीन लर्निंग रिसर्च, 2004, 5, 1089-1105

(इन चीजों के बारे में अधिक सोचना मेरे शोध टूडू-सूची पर है ... लेकिन जैसा कि मैं प्रायोगिक विज्ञान से आ रहा हूं, मुझे प्रायोगिक डेटा के साथ सैद्धांतिक और सिमुलेशन निष्कर्ष को पूरक करना पसंद है - जो कि यहां मुश्किल है क्योंकि मुझे एक बड़ी आवश्यकता होगी संदर्भ परीक्षण के लिए स्वतंत्र मामलों का सेट)


अद्यतन: क्या एक बायोमियल वितरण मान लेना उचित है?

k

n

npn


हाय @cbeleites, मैंने अभी टिप्पणी की है कि मेरे सीवी विश्लेषण में उस विशेष डेटासेट के लिए 2 अद्वितीय मान हैं (कुछ अन्य डेटासेट में एन अद्वितीय मान हैं, आमतौर पर एन 5 से कम है), जैसा कि ऊपर वर्णित अमीबा। यह देखते हुए, मैं कैसे दिखा सकता हूं कि मेरे पूर्वानुमान मेरे एकल डेटासेट और CV का उपयोग करके स्थिर हैं? एक द्विपद वितरण के बारे में, मैं एग्रेस्टी-कूप के अंतराल पर विचार कर रहा था (उच्च सफलता दर / 100% सफलता दर के लिए बिना गड़बड़ किए) काम कर सकता है। ऐसा लगता है कि आप कह रहे हैं कि मैं एक द्विपद वितरण का उपयोग कर सकता हूं, लेकिन मैं अभी भी स्पष्ट नहीं हूं कि मैं सफलता की समान संभावना को कैसे उचित ठहरा सकता हूं।
शॉन

p

1
@amoeba: मुझे नहीं पता कि एक विश्वास अंतराल में अस्थिरता के कारण अज्ञात वितरण के साथ द्विपद वितरण को कैसे संयोजित किया जाए। तो मैं परिमित परीक्षण नमूना आकार के लिए (में) स्थिरता और द्विपद ci के लिए मनाया प्रतिशतता की रिपोर्ट करता हूं। उन्हें कैसे संयोजित किया जाए, यह उन शोध प्रश्नों में से एक है जो मैं अपने सिर में रखता हूं, लेकिन अभी तक मुझे न तो कोई समाधान मिला है और न ही किसी से मिला है। मुझे लगता है कि हम अनुसंधान में सबसे आगे पहुंचे ...
SX

1
@ सीन: क्या आपने संबंधित मुद्दों के बारे में मेरा हालिया सवाल देखा है ? टिप्पणियों में बहुत दिलचस्प (मेरे लिए) चर्चा चल रही है, और मैं वर्तमान में कुछ सिमुलेशन पर काम कर रहा हूं। मुझे विश्वास है कि द्विपद धारणा बुरी तरह से गलत है! आपको वहाँ उपलब्ध कई सन्दर्भों में भी दिलचस्पी हो सकती है जो उसी चीज़ का दावा करते हैं।
अमीबा

1
@ सीन: मैं इन दो धागों को अपडेट रखने की कोशिश करूंगा, जिसका अर्थ है कि (और अगर) के बाद इस मुद्दे को स्पष्ट किया जाता है तो मैं वहां की स्थिति को संक्षेप में बताने की कोशिश करूंगा और यहां एक नया जवाब भी दूंगा। अभी के लिए, क्या आपने इस पेपर को दूसरे धागे से जोड़ा है? लेखक वास्तव में आपके प्रश्न पर चर्चा करते हैं, और एक बूटस्ट्रैप प्रक्रिया प्रदान करते हैं जो वे दावा करते हैं कि अच्छी तरह से काम करती है। अगर मुझे अभी आपके प्रश्न का उत्तर लिखना है, तो मैं उनकी प्रक्रिया की सिफारिश करूंगा। लेकिन पहले समझ में आता है कि उस कागज का हवाला देते हुए 24 पत्रों की जाँच करें।
अमीबा

3

मुझे लगता है कि कई बार क्रॉस-मान्यता को दोहराने का आपका विचार सही है।

अपने सीवी को दोहराएं चलो 1000 बार कहते हैं, हर बार अपने डेटा को 10 भागों (10 गुना सीवी के लिए) में अलग तरीके से विभाजित करें ( लेबल को फेरबदल करें)। आपको वर्गीकरण सटीकता के 1000 अनुमान मिलेंगे। बेशक आप एक ही डेटा का पुन: उपयोग कर रहे होंगे, इसलिए ये 1000 अनुमान स्वतंत्र नहीं होंगे। लेकिन यह बूटस्ट्रैप प्रक्रिया के समान है: आप इन सटीकता पर मानक विचलन को अपने समग्र सटीकता अनुमानक के माध्य के मानक त्रुटि के रूप में ले सकते हैं । या 95% आत्मविश्वास अंतराल के रूप में 95% प्रतिशत अंतराल।

वैकल्पिक रूप से, आप क्रॉस-वैल्यूएशन लूप और बूटस्ट्रैप लूप को जोड़ सकते हैं, और परीक्षण सेट के रूप में अपने डेटा का 10% (शायद स्तरीकृत यादृच्छिक) का चयन करें, और यह 1000 बार करें। ऊपर जैसा ही तर्क यहां भी लागू होता है। हालांकि, इसका परिणाम दोहराव से अधिक होगा, इसलिए मुझे लगता है कि उपरोक्त प्रक्रिया बेहतर है।

यदि आपका गर्भपात दर 0.00 है, तो आपका क्लासिफायर शून्य त्रुटि करता है और यदि यह प्रत्येक बूटस्ट्रैप पुनरावृत्ति पर होता है, तो आपको शून्य व्यापक आत्मविश्वास अंतराल मिलेगा। लेकिन इसका सीधा सा मतलब यह होगा कि आपका क्लासिफायर बहुत ज्यादा परफेक्ट है, इसलिए आपके लिए अच्छा है।


हाय @amoeba, आपकी प्रतिक्रिया के लिए धन्यवाद। क्या आप नमूनों को यादृच्छिक रूप से सीवी को 1000 बार दोहराने में अपने पहले सुझाव के बारे में थोड़ा और समझाना चाहेंगे? क्या परीक्षण सेट का पूर्व-स्थापित अनुपात होना चाहिए: प्रशिक्षण सेट (जैसे 10-गुना क्रॉस-सत्यापन के लिए 10:90)? मुझे लगता है कि मैं थोड़ा अस्पष्ट हूं कि 10-गुना सत्यापन को दोहराने से समय के साथ विचरण कैसे बढ़ेगा।
शॉन

1
मुझे डर है कि @amoeba द्वारा सुझाई गई दूसरी प्रक्रिया बहुत अधिक आशावादी है: एक गैर-परिपूर्ण क्लासिफायरफ़ायर किसी दिए गए डेटासेट पर सही प्रदर्शन कर सकता है (उदाहरण के लिए, मान लें कि आपके पास केवल 4 नमूने हैं - यह उन सभी को वर्गीकृत करने के लिए 1: 8 है सही ढंग से संयोग से)। जैसा कि अमीबा ने उल्लेख किया है, ट्रेन-टेस्ट सिलवटों के विभिन्न आवंटन से भिन्नता को मापने पर 0 चौड़ाई का विश्वास अंतराल उत्पन्न होगा, जो इस मामले में स्पष्ट रूप से गलत है।
Trisoloriansunscreen

1
मुझे लगता है कि आखिरकार, यह समस्या उन आंकड़ों के अवलोकन की संभावना को खोजने के लिए आती है, जो पहले से ही नहीं देखी गई तुलना में अलग है। मेरे नमूने के लिए विश्वास अंतराल प्राप्त करना है जो @amoeba ने मेरे मूल प्रश्न के लिए सुझाया है (मैंने प्रत्येक सीवी पुनरावृत्ति के लिए यादृच्छिक सिलवटों का उपयोग किया है), और परिणाम अधिक यथार्थवादी दिखता है (95% CI: [0.0028, 0.0033])। हालाँकि, मुझे नहीं पता कि कोई और तकनीक है जो भविष्य के डेटा पूर्वानुमान के लिए बेहतर होगी। शायद मॉडल-आधारित दृष्टिकोण के कुछ प्रकार जहां मैं अपने डेटा के लिए घटता है और उनके ओवरलैप की गणना करता हूं?
शॉन

3
@amoeba: स्पष्टीकरण के लिए धन्यवाद, मुझे लगता है कि मैंने आपके उत्तर को ध्यान से नहीं पढ़ा। फिर भी, मैं अभी भी इस दृष्टिकोण (दोनों प्रक्रियाओं) के एक आशावादी पूर्वाग्रह के बारे में परेशान हूं। विभिन्न सीवी विभाजन की कोशिश करते समय सटीकता को मापने से, आप उस परिवर्तनशीलता का अनुमान लगाते हैं जो मनमाने विभाजन के कारण होती है। फिर भी, आप इस तथ्य को अनदेखा करते हैं कि आपका पूरा डेटा टिप्पणियों की बड़ी आबादी का एक यादृच्छिक नमूना है (जो आपने एकत्र नहीं किया था)। यदि आपके पास एक छोटा डेटासेट है जो संयोग से सही प्रदर्शन (सीवी विभाजन की परवाह किए बिना) प्राप्त करता है, तो आपका आत्मविश्वास अंतराल शून्य है और यह गलत है।
Trisoloriansunscreen

1
@amoeba: यह मुश्किल है, क्योंकि आप टिप्पणियों को स्वयं बूटस्ट्रैप नहीं कर सकते हैं (ऐसे मामले में निकटतम पड़ोसी क्लासिफायर पर विचार करें)। मैं खुद उस समस्या से जूझ रहा हूं, चलो देखते हैं कि कोई और व्यक्ति एक विचार के साथ आता है या नहीं।
Trisoloriansunscreen

2

वर्गीकरण त्रुटि बंद और अनुचित स्कोरिंग नियम दोनों है। इसमें कम सटीकता है, और यह अनुकूलन करना गलत सुविधाओं पर चयन करता है और उन्हें गलत वजन देता है।


यह शायद ही ओपी के लिए एक समस्या हो सकती है अगर उसे 99-100% क्रॉस-वैरिफाइड वर्गीकरण सटीकता प्राप्त होती है।
अमीबा

1
@amoeba: 100 या 0% के करीब सही अनुपात देखे जाने पर भी यह एक समस्या हो सकती है: प्रदर्शन उपायों के विपरीत, जो निरंतर स्कोर पर निर्भर करते हैं, किसी भी प्रकार के प्रदर्शन को जो द्विध्रुवीयकरण (सख्त) के बाद मापा जाता है, निरंतर वर्गीकरण स्कोर संकेत कर सकता है भविष्यवाणियां निर्णय सीमा के करीब आ रही हैं जब तक कि वे अभी भी सही पक्ष पर हैं। हालांकि, IMHO के अनुपात-प्रकार के प्रदर्शन के उपायों की रिपोर्ट करने के लिए वैध कारण हैं (जैसे कि यदि आपके पाठक / सहयोगी उन्हें समझते हैं, लेकिन उदाहरण के लिए Brier स्कोर नहीं समझते हैं)। मैं यह नहीं खोलना चाहता था ...
SX

... चर्चा की रेखा क्योंकि सवाल में अनुकूलन का कोई संकेत नहीं था (जो कि यह वास्तव में महत्वपूर्ण हो जाता है)।
SX

यदि आप "सही ढंग से" अनुपात को वर्गीकृत कर रहे हैं, तो आप इसे एक कारण के लिए कर रहे होंगे, उदाहरण के लिए, एक निर्णय लेने या कार्रवाई करने के लिए। इन उद्देश्यों के लिए अनुपात भ्रामक है।
फ्रैंक हरेल

1
@FrankHarrell: ठीक है, मुझे लगता है कि इसका कारण एक पेपर में रिपोर्ट करना है। क्या आपको लगता है कि लोगों को वर्गीकरण सटीकता की रिपोर्टिंग बंद कर देनी चाहिए?
अमीबा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.