वर्गीकरण प्रदर्शन का मूल्यांकन करने के लिए क्रॉस-सत्यापन या बूटस्ट्रैपिंग?


24

किसी विशेष डेटा सेट पर एक क्लासिफायरियर के प्रदर्शन का मूल्यांकन करने और अन्य क्लासिफायर के साथ तुलना करने के लिए सबसे उपयुक्त नमूनाकरण विधि क्या है? क्रॉस-सत्यापन मानक अभ्यास प्रतीत होता है, लेकिन मैंने पढ़ा है कि इस तरह के .632 बूटस्ट्रैप एक बेहतर विकल्प हैं।

अनुवर्ती के रूप में: क्या प्रदर्शन मीट्रिक का विकल्प उत्तर को प्रभावित करता है (यदि मैं सटीकता के बजाय एयूसी का उपयोग करता हूं)?

मेरा अंतिम लक्ष्य कुछ विश्वास के साथ कहना है कि एक मशीन सीखने की विधि किसी विशेष डेटासेट के लिए दूसरे से बेहतर है।


1
बूटस्ट्रैप (प्रतिस्थापन के साथ) का उपयोग आपके प्रशिक्षण डेटा सेट पर किया जा सकता है, उदाहरण के लिए, (दोहराया) k- गुना क्रॉस-सत्यापन। यह भी देखें: पूर्वानुमान की त्रुटि का अनुमान लगाने के लिए क्रॉस सत्यापन और बूटस्ट्रैपिंग के बीच अंतर , सत्यापन और मॉडल चयन के लिए बूटस्ट्रैपिंग को समझना
chl

जवाबों:


42

सामान्य तरीके से क्रॉस सत्यापन और आउट-ऑफ-बूटस्ट्रैप विधियों में एक महत्वपूर्ण अंतर यह है कि ज्यादातर लोग क्रॉस सत्यापन को केवल एक बार लागू करते हैं (यानी प्रत्येक मामले को ठीक एक बार परीक्षण किया जाता है), जबकि आउट-ऑफ-बूटस्ट्रैप सत्यापन एक बड़ी संख्या के साथ किया जाता है पुनरावृत्तियों / पुनरावृत्तियों की। उस स्थिति में, क्रॉस अस्थिरता मॉडल अस्थिरता के कारण उच्च विचरण के अधीन है। हालाँकि, जैसे कि iterated / दोहराया -fold क्रॉस सत्यापन का उपयोग करके इससे बचा जा सकता है । अगर ऐसा किया जाता है, तो कम से कम मैं जिस स्पेक्ट्रोस्कोपिक डेटा सेट के साथ काम कर रहा हूं, दोनों ही तरह की रीसम्प्लिंग स्कीमों की कुल त्रुटि व्यवहार में समान है।कश्मीर

लीव-वन-आउट क्रॉस सत्यापन को हतोत्साहित किया जाता है, क्योंकि मॉडल अस्थिरता-प्रकार के विचरण को कम करने की कोई संभावना नहीं है और कुछ क्लासिफायर और समस्याएं हैं जहां यह एक विशाल निराशावादी पूर्वाग्रह को प्रदर्शित करता है।

.632 बूटस्ट्रैप एक उचित काम करता है जब तक कि रेज़मैपलिंग त्रुटि जो कि मिश्रित होती है, बहुत आशावादी पक्षपाती नहीं है। (उदाहरण के लिए मैं जिस डेटा के साथ काम करता हूं, बहुत सारे मैट्रीस के साथ, बहुत सारे वैरिएट्स के साथ, यह बहुत अच्छी तरह से काम नहीं करता है क्योंकि मॉडल गंभीर ओवरफिटिंग से ग्रस्त हैं)। इसका मतलब यह भी है कि मैं अलग जटिलता के मॉडल की तुलना के लिए .632 बूटस्ट्रैप का उपयोग करने से बचूंगा। .632+ बूटस्ट्रैप के साथ मेरे पास अनुभव नहीं है: यदि ओवरफिटिंग होती है और ठीक से पता लगाया जाता है, तो यह मूल आउट-ऑफ-बूटस्ट्रैप अनुमान के बराबर होगा, इसलिए मैं अपने डेटा के लिए सादे ओब या iterated / दोहराया क्रॉस सत्यापन के साथ रहता हूं।

साहित्य:

  • कोहावी, आर।: एक अध्ययन क्रॉस-वैलिडेशन एंड बूटस्ट्रैप फॉर एक्यूरेसी एस्टीमेशन एंड मॉडल सिलेक्शन आर्टिफिशियल इंटेलिजेंस प्रोसीडिंग्स 14 वीं अंतर्राष्ट्रीय संयुक्त सम्मेलन, 20 - 25 अगस्त, 1995, मॉन्ट्रियल, क्यूबेक, कनाडा, 1995, 1137 - 1145.
    (एक क्लासिक )

Dougherty और Braga-Neto विषय पर कई प्रकाशन हैं , जैसे

मीट्रिक की पसंद:

मेरा अंतिम लक्ष्य कुछ विश्वास के साथ कहना है कि एक मशीन सीखने की विधि किसी विशेष डेटासेट के लिए दूसरे से बेहतर है।

  • मूल्यांकन करने के लिए युग्मित परीक्षण का उपयोग करें। अनुपातों की तुलना के लिए, McNemar के परीक्षण पर एक नज़र डालें।

  • इसका उत्तर मीट्रिक की पसंद से प्रभावित होगा। चूंकि प्रतिगमन-प्रकार की त्रुटि उपायों में सीमा के साथ निर्णय लेने का "कठोर" कदम नहीं है, इसलिए उनके वर्गीकरण समकक्षों की तुलना में अक्सर कम विचरण होता है। सटीकता जैसे मेट्रिक्स जो मूल रूप से आनुपातिक हैं, दूसरे पर एक क्लासिफायर की श्रेष्ठता स्थापित करने के लिए बड़ी संख्या में परीक्षण मामलों की आवश्यकता होगी ।

फ्लेस: "दरों और अनुपात के लिए सांख्यिकीय तरीके" अनुपात की अप्रतिबंधित तुलना के लिए उदाहरण (और तालिकाओं) देता है । आपको "विशाल नमूना आकार" से मेरा क्या मतलब है, इसका आभास देने के लिए, इस अन्य प्रश्न के उत्तर में छवि पर एक नज़र डालें । मैक्नेमर की ज़रूरत के कम परीक्षण मामलों की तरह परीक्षण किए गए, लेकिन अनपेक्षित परीक्षण के लिए आवश्यक नमूना आकार के आधे (?) के मामले में IIRC अभी भी सबसे अच्छा है।

  • एक क्लासिफायरियर के प्रदर्शन (कठोर) को चिह्नित करने के लिए, आपको आमतौर पर आरओसी (संवेदनशीलता बनाम विशिष्टता) या इस तरह के कम से कम दो मूल्यों की एक कार्यशील वक्र की आवश्यकता होती है ।
    मैं शायद ही कभी समग्र सटीकता या एयूसी का उपयोग करता हूं, क्योंकि मेरे अनुप्रयोगों में आमतौर पर प्रतिबंध हैं जैसे संवेदनशीलता विशिष्टता से अधिक महत्वपूर्ण है, या इन उपायों पर कुछ सीमाएं पूरी होनी चाहिए। यदि आप "एकल संख्या" योग विशेषताओं के लिए जाते हैं, तो सुनिश्चित करें कि जिन मॉडलों को आप देख रहे हैं, उनके कार्य बिंदु वास्तव में एक समझदार सीमा में हैं।

  • सटीकता और अन्य प्रदर्शन उपायों के लिए, जो संदर्भ लेबलों के अनुसार कई वर्गों के लिए प्रदर्शन को संक्षेप में प्रस्तुत करते हैं, सुनिश्चित करें कि आप उन कक्षाओं की सापेक्ष आवृत्ति को ध्यान में रखते हैं जो आप आवेदन में सामना करेंगे - जो जरूरी नहीं कि आपके समान ही हो प्रशिक्षण या परीक्षण डेटा।

  • प्रोवोस्ट, एफ। एट अल। : मशीन लर्निंग, 1998 पर पंद्रहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में प्रेरण एल्गोरिदम की तुलना करने के लिए सटीकता के खिलाफ मामला


संपादित करें: कई सहपाठियों की तुलना

मैं थोड़ी देर के लिए इस समस्या के बारे में सोच रहा था, लेकिन अभी तक एक समाधान पर नहीं आया था (और न ही मैं किसी से मिला था जिसके पास समाधान था)।

यहाँ मैंने अभी तक क्या किया है:

फिलहाल, मैंने फैसला किया कि "अनुकूलन सभी बुराई की जड़ है", और इसके बजाय एक बहुत अलग दृष्टिकोण ले लो:
मैं हाथ में समस्या के बारे में विशेषज्ञ ज्ञान द्वारा जितना संभव हो उतना तय करता हूं। यह वास्तव में चीजों को थोड़ा कम करने की अनुमति देता है, ताकि मैं अक्सर मॉडल की तुलना से बच सकता हूं। जब मुझे मॉडल की तुलना करनी होती है, तो मैं प्रदर्शन के अनुमान की अनिश्चितता के बारे में लोगों को याद दिलाने के लिए बहुत ही खुले और स्पष्ट होने की कोशिश करता हूं और विशेष रूप से कई मॉडल तुलना AFAIK अभी भी एक अनसुलझी समस्या है।


संपादित 2: युग्मित परीक्षण

n12(n2-n)परीक्षण सिर्फ इस तथ्य को संदर्भित करता है कि जैसा कि सभी मॉडलों को बिल्कुल एक ही परीक्षण मामलों के साथ परीक्षण किया जाता है, आप मामलों को एक तरफ "आसान" और "मुश्किल" मामलों में विभाजित कर सकते हैं, जिसके लिए सभी मॉडल एक सही पर आते हैं (या गलत) भविष्यवाणी। वे मॉडलों के बीच भेद करने में मदद नहीं करते हैं। दूसरी ओर, "दिलचस्प" मामले हैं, जिन्हें कुछ लोगों द्वारा सही ढंग से भविष्यवाणी की जाती है, लेकिन अन्य मॉडलों द्वारा नहीं। श्रेष्ठता को पहचानने के लिए केवल इन "दिलचस्प" मामलों पर विचार करने की आवश्यकता है, न तो "आसान" और न ही "कठिन" मामलों से मदद मिलती है। (यह मैं मैकनीमार के परीक्षण के पीछे के विचार को समझता हूं)।

nn


आपके लिए विस्तृत उत्तर के लिए धन्यवाद! यदि आप किए गए बिंदु पर विस्तार से बता सकते हैं, तो मैं वास्तव में सराहना करूंगा: " मूल्यांकन करने के लिए एक युग्मित परीक्षण का उपयोग करें। आनुपातिकताओं की तुलना करने के लिए, मैकनेमर के परीक्षण पर एक नज़र डालनी चाहिए " एक बार में सीखने के तरीके, जरूरी नहीं कि सिर्फ जोड़े हों। यह मेरे लिए तुरंत स्पष्ट नहीं है कि युग्मित परीक्षण इसे कैसे पूरा कर सकते हैं।
केल्विन_११

3
(+6) अच्छी प्रतिक्रिया।
chl

@cbeleites मैं आपको इस टिप्पणी के लिए प्यार करता हूँ। कई मॉडल तुलना के महत्व के लिए - विचरण (ANOVA) विधियों के विश्लेषण के बारे में क्या? जैसे क्रुशकल-वालिस ?
Ser

1
@ परिशिष्ट: मैं वास्तव में आपको जवाब देने के लिए क्रुस्काल-वालिस के बारे में पर्याप्त नहीं जानता। लेकिन मुझे संदेह है कि एनोवा जैसी विधियां यहां नहीं हैं जो कि (1) के रूप में यहां चाहता है, यह डेटा की युग्मित प्रकृति का उपयोग नहीं करता है और (2) यह कई तुलनाओं की तुलना में शक्ति प्राप्त करता है क्योंकि अशक्त परिकल्पना सिर्फ "सभी मॉडल" है समान रूप से प्रदर्शन करें - यदि वह अस्वीकार कर दिया गया है, तो आप अभी भी नहीं जानते हैं कि कौन सा एल्गोरिथ्म अलग-अलग प्रदर्शन करता है। तो इसका उपयोग केवल नकारात्मक परिणामों पर जोर देने के लिए किया जा सकता है (यह कोई फर्क नहीं पड़ता कि आप कौन सा एल्गोरिदम चुनते हैं)। मुझे संदेह है कि एक बड़ा क्षेत्र है जहां एनोवा आपको सभी मॉडल नहीं बताती है ...
cbeleites मोनिका

... बराबर हैं, लेकिन आपके पास कई तुलनाओं की अनुमति देने के लिए पर्याप्त जानकारी नहीं है जो बेहतर मॉडल की पहचान के लिए आवश्यक हैं।
केबेलाइट्स मोनिका

6

आपको बूटस्ट्रैप (.632, .632+) में संशोधनों की आवश्यकता है क्योंकि मूल शोध में एक अनुचित अनुचित स्कोरिंग नियम (सही ढंग से वर्गीकृत अनुपात) का उपयोग किया गया था। अन्य सटीकता स्कोर के लिए साधारण आशावाद बूटस्ट्रैप ठीक काम करता है। अधिक जानकारी के लिए http://biostat.mc.vanderbilt.edu/RmS#Studies_of_Methods_Used_in_the_T देखें

अनुचित स्कोरिंग नियम आपको सुविधाओं और उनके वजन की पसंद पर गुमराह करते हैं। दूसरे शब्दों में, जो कुछ भी गलत हो सकता है वह गलत हो जाएगा।


4

से 'एप्लाइड भविष्य कहनेवाला मॉडलिंग।, Khun। जॉनसन । p.78

"कोई रेज़मैप्लिंग विधि दूसरे की तुलना में समान रूप से बेहतर नहीं है; कई कारकों पर विचार करते समय विकल्प बनाया जाना चाहिए। यदि नमूना आकार छोटा है, तो हम कई कारणों के लिए दोहराया 10 गुना क्रॉस सत्यापन का उपयोग करने की सलाह देते हैं; पूर्वाग्रह और विचरण गुण अच्छे हैं, और दिए गए हैं। नमूना आकार, कम्प्यूटेशनल लागत बड़ी नहीं हैं। यदि लक्ष्य मॉडल के बीच चयन करना है, तो प्रदर्शन का सबसे अच्छा संकेतक प्राप्त करने के विपरीत, बूटस्ट्रैप प्रक्रियाओं में से एक का उपयोग करने के लिए एक मजबूत मामला बनाया जा सकता है क्योंकि इनमें बहुत कम विचरण होता है। बड़े नमूने के आकार के लिए, पुनरुत्पादन के तरीकों के बीच अंतर कम स्पष्ट हो जाता है, और प्रदर्शन में कम्प्यूटेशनल दक्षता बढ़ जाती है। " पी। 78

इसके अलावा, दो समान परिणामों की पसंद को देखते हुए, अधिक व्याख्यात्मक मॉडल आमतौर पर पसंद किया जाता है। एक उदाहरण (एक ही पाठ से) के रूप में, 10 गुना सीवी का उपयोग करते हुए, एक एसवीएम क्लासिफायर में 75% सटीकता का अनुमान था, जिसमें 66 और 82% के बीच परिणाम फिर से आ सकते हैं। 74.9% सटीकता के साथ एक लॉजिस्टिक रिग्रेशन क्लासिफायर पर समान मापदंडों का उपयोग किया गया था, और एक ही प्रतिसाद रेंज। सरल लॉजिस्टिक रिग्रेशन मॉडल को पसंद किया जा सकता है क्योंकि परिणामों की व्याख्या करना आसान है।


4
ध्यान दें कि बड़ी संख्या में बूटस्ट्रैप / क्रॉस वेलिडेशन पुनरावृत्तियों / पुनरावृत्तियों को चलाकर आप जिस संस्करण को कम कर सकते हैं, वह केवल उस भिन्नता का हिस्सा है जो सरोगेट मॉडल की अस्थिरता से आता है। आप यह माप सकते हैं कि यह क्रॉस वेरिएशन द्वारा कुल विचलन में एक बड़ा योगदान है क्योंकि यह प्रत्येक रन के दौरान एक बार प्रत्येक नमूने का परीक्षण करता है, इसलिए परिमित नमूना आकार के कारण विचरण पूर्ण क्रॉस सत्यापन रन के औसत की तुलना में नहीं दिखता है । "कठिन" वर्गीकरण के लिए, आप द्विपद वितरण से परिमित नमूना आकार के कारण विचरण की गणना कर सकते हैं।
cbeleites मोनिका

@cbeleites: क्या आप कृपया इसका थोड़ा सा मतलब बता सकते हैं कि "प्रत्येक रन के दौरान यह प्रत्येक नमूने का एक बार परीक्षण करता है, इसलिए परिमित नमूना आकार के कारण विचरण पूर्ण क्रॉस सत्यापन रन के औसत की तुलना में दिखाई नहीं देता है।" (संदर्भ भी ठीक हैं!) (+1 स्पष्ट रूप से)
us11r11852 का कहना है कि मोनिक

@ us @r11852: प्रत्येक मामले को एक बार क्रॉस सत्यापन चलाने के बाद ठीक एक बार परीक्षण किया जाता है। N_sample xr CV रन परिणामों की तालिका की कल्पना करें। यदि हमारे पास स्थिर भविष्यवाणियां हैं, तो एक ही मामले के लिए सभी आर भविष्यवाणियां समान हैं। यानी पंक्तियों के साथ कोई भिन्नता नहीं है। लेकिन अलग-अलग मामलों में अलग-अलग भविष्यवाणियां मिल सकती हैं (जब तक कि हमारे पास 100% सटीकता न हो): हमारे पास कॉलम्स के साथ भिन्नता है। अब कॉलम औसत की तुलना करने के लिए पुनरावृत्त / दोहराया क्रॉस वैल्यूएशन का मानक मूल्यांकन है। स्थिर मॉडल के लिए, ये बिल्कुल समान हैं, भले ही हमारे पास कॉलम के साथ विचरण हो, यानी मामलों के बीच।
केवली

(यदि मॉडल / भविष्यवाणियां अस्थिर हैं, तो हम अलग-अलग सरोगेट मॉडल द्वारा अलग-अलग भविष्यवाणियां करते हैं, और पंक्तियों के साथ-साथ विचरण भी देखते हैं। साथ ही कॉलम के साथ कुछ अतिरिक्त विचरण करते हैं, जैसे कि k-fold CV में प्रत्येक स्तंभ अलग-अलग सरनेम मॉडल को कवर करता है। ) इसलिए मॉडल / भविष्यवाणी (इन) स्थिरता को मापने के लिए, पंक्तियों के साथ विचरण के लिए सीधे जाने के लिए और भी अधिक प्रत्यक्ष है, अर्थात एक ही मामले के लिए विभिन्न सरोगेट मॉडल की भविष्यवाणियों के विचरण ।
cbeleites

1
@cbeleites: स्पष्टीकरण के लिए आपका बहुत-बहुत धन्यवाद। मैं अब उस बिंदु की सराहना कर सकता हूं जो आप अधिक बना रहे हैं।
us --r11852
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.