सामान्य तरीके से क्रॉस सत्यापन और आउट-ऑफ-बूटस्ट्रैप विधियों में एक महत्वपूर्ण अंतर यह है कि ज्यादातर लोग क्रॉस सत्यापन को केवल एक बार लागू करते हैं (यानी प्रत्येक मामले को ठीक एक बार परीक्षण किया जाता है), जबकि आउट-ऑफ-बूटस्ट्रैप सत्यापन एक बड़ी संख्या के साथ किया जाता है पुनरावृत्तियों / पुनरावृत्तियों की। उस स्थिति में, क्रॉस अस्थिरता मॉडल अस्थिरता के कारण उच्च विचरण के अधीन है। हालाँकि, जैसे कि iterated / दोहराया -fold क्रॉस सत्यापन का उपयोग करके इससे बचा जा सकता है । अगर ऐसा किया जाता है, तो कम से कम मैं जिस स्पेक्ट्रोस्कोपिक डेटा सेट के साथ काम कर रहा हूं, दोनों ही तरह की रीसम्प्लिंग स्कीमों की कुल त्रुटि व्यवहार में समान है।कश्मीर
लीव-वन-आउट क्रॉस सत्यापन को हतोत्साहित किया जाता है, क्योंकि मॉडल अस्थिरता-प्रकार के विचरण को कम करने की कोई संभावना नहीं है और कुछ क्लासिफायर और समस्याएं हैं जहां यह एक विशाल निराशावादी पूर्वाग्रह को प्रदर्शित करता है।
.632 बूटस्ट्रैप एक उचित काम करता है जब तक कि रेज़मैपलिंग त्रुटि जो कि मिश्रित होती है, बहुत आशावादी पक्षपाती नहीं है। (उदाहरण के लिए मैं जिस डेटा के साथ काम करता हूं, बहुत सारे मैट्रीस के साथ, बहुत सारे वैरिएट्स के साथ, यह बहुत अच्छी तरह से काम नहीं करता है क्योंकि मॉडल गंभीर ओवरफिटिंग से ग्रस्त हैं)। इसका मतलब यह भी है कि मैं अलग जटिलता के मॉडल की तुलना के लिए .632 बूटस्ट्रैप का उपयोग करने से बचूंगा। .632+ बूटस्ट्रैप के साथ मेरे पास अनुभव नहीं है: यदि ओवरफिटिंग होती है और ठीक से पता लगाया जाता है, तो यह मूल आउट-ऑफ-बूटस्ट्रैप अनुमान के बराबर होगा, इसलिए मैं अपने डेटा के लिए सादे ओब या iterated / दोहराया क्रॉस सत्यापन के साथ रहता हूं।
साहित्य:
- कोहावी, आर।: एक अध्ययन क्रॉस-वैलिडेशन एंड बूटस्ट्रैप फॉर एक्यूरेसी एस्टीमेशन एंड मॉडल सिलेक्शन आर्टिफिशियल इंटेलिजेंस प्रोसीडिंग्स 14 वीं अंतर्राष्ट्रीय संयुक्त सम्मेलन, 20 - 25 अगस्त, 1995, मॉन्ट्रियल, क्यूबेक, कनाडा, 1995, 1137 - 1145.
(एक क्लासिक )
Dougherty और Braga-Neto विषय पर कई प्रकाशन हैं , जैसे
आटा, ईआर एट अल। : वर्गीकरण वर्तमान जैव सूचना विज्ञान के लिए त्रुटि अनुमानकों का प्रदर्शन, 2010, 5, 53-67
बेलेइट्स, सी। एट अल। : विरल डेटासेट्स कैमोम इनटेल लैब सिस्ट, 2005, 79, 91 - 100 का उपयोग करके वर्गीकरण की त्रुटि का अनुमान लगाने में कमी।
हमारे पास केवल एक बार क्रॉस सत्यापन करने या पुनरावृत्ति / दोहराए जाने की तुलना और आउट-बूट-बूटस्ट्रैप और .632 के साथ तुलना करने की तुलना है। बूटस्ट्रैप के साथ-साथ बहु-कोलिनिटी के साथ विशेष रूप से विस्तृत डेटा के लिए।
किम, जे-एच।: वर्गीकरण त्रुटि दर का अनुमान लगाना: बार-बार क्रॉस-सत्यापन, बार-बार होल्ड-आउट और बूटस्ट्रैप, कम्प्यूटेशनल सांख्यिकी और डेटा विश्लेषण, 2009, 53, 3735 - 374
यह भी पाता है कि दोहराया / पुनरावृत्त -फ़ोल्ड क्रॉस सत्यापन और आउट-ऑफ-बूटस्ट्रैप का प्रदर्शन समान है (केवल एक बार क्रॉस सत्यापन करने का विरोध करने पर)।कश्मीर
मीट्रिक की पसंद:
accuray (जिनमें से @FrankHarrell आपको बता देंगे कि यह एक बुरा विकल्प है क्योंकि यह एक नहीं है उचित स्कोरिंग नियम ) उच्च विचरण के अधीन है, क्योंकि यह प्रत्येक मामले या तो के रूप में पूरी तरह से सही है या पूरी तरह से गलत मायने रखता है, भले ही वर्गीकारक केवल 60 जैसे भविष्यवाणी परीक्षण के मामले में विचाराधीन वर्ग के लिए% बाद की संभावना। एक उचित स्कोरिंग नियम, उदाहरण के लिए ब्रियर का स्कोर है, जो प्रतिगमन में औसत चुकता त्रुटि से निकटता से संबंधित है।
औसत वर्ग त्रुटि विश्लेषक सटीकता, संवेदनशीलता, विशिष्टता, भविष्य कहनेवाला मूल्यों जैसे अनुपातों के लिए उपलब्ध हैं: बेलेइट्स, सी। एट अल। : आंशिक वर्ग सदस्यता का उपयोग करके नरम वर्गीकरण मॉडल का सत्यापन: संवेदनशीलता की एक विस्तारित अवधारणा और एस्ट्रोसाइटोमा के ऊतकों की ग्रेडिंग पर लागू, केमोम इन्टेल लैब सिस्ट, 2013, 122, 12 - 22; डीओआई: 10.1016 / j.chemolab.2012.12.003 (सारांश पेज प्रीप्रिंट के लिंक भी दे रहा है)
मेरा अंतिम लक्ष्य कुछ विश्वास के साथ कहना है कि एक मशीन सीखने की विधि किसी विशेष डेटासेट के लिए दूसरे से बेहतर है।
मूल्यांकन करने के लिए युग्मित परीक्षण का उपयोग करें। अनुपातों की तुलना के लिए, McNemar के परीक्षण पर एक नज़र डालें।
इसका उत्तर मीट्रिक की पसंद से प्रभावित होगा। चूंकि प्रतिगमन-प्रकार की त्रुटि उपायों में सीमा के साथ निर्णय लेने का "कठोर" कदम नहीं है, इसलिए उनके वर्गीकरण समकक्षों की तुलना में अक्सर कम विचरण होता है। सटीकता जैसे मेट्रिक्स जो मूल रूप से आनुपातिक हैं, दूसरे पर एक क्लासिफायर की श्रेष्ठता स्थापित करने के लिए बड़ी संख्या में परीक्षण मामलों की आवश्यकता होगी ।
फ्लेस: "दरों और अनुपात के लिए सांख्यिकीय तरीके" अनुपात की अप्रतिबंधित तुलना के लिए उदाहरण (और तालिकाओं) देता है । आपको "विशाल नमूना आकार" से मेरा क्या मतलब है, इसका आभास देने के लिए, इस अन्य प्रश्न के उत्तर में छवि पर एक नज़र डालें । मैक्नेमर की ज़रूरत के कम परीक्षण मामलों की तरह परीक्षण किए गए, लेकिन अनपेक्षित परीक्षण के लिए आवश्यक नमूना आकार के आधे (?) के मामले में IIRC अभी भी सबसे अच्छा है।
एक क्लासिफायरियर के प्रदर्शन (कठोर) को चिह्नित करने के लिए, आपको आमतौर पर आरओसी (संवेदनशीलता बनाम विशिष्टता) या इस तरह के कम से कम दो मूल्यों की एक कार्यशील वक्र की आवश्यकता होती है ।
मैं शायद ही कभी समग्र सटीकता या एयूसी का उपयोग करता हूं, क्योंकि मेरे अनुप्रयोगों में आमतौर पर प्रतिबंध हैं जैसे संवेदनशीलता विशिष्टता से अधिक महत्वपूर्ण है, या इन उपायों पर कुछ सीमाएं पूरी होनी चाहिए। यदि आप "एकल संख्या" योग विशेषताओं के लिए जाते हैं, तो सुनिश्चित करें कि जिन मॉडलों को आप देख रहे हैं, उनके कार्य बिंदु वास्तव में एक समझदार सीमा में हैं।
सटीकता और अन्य प्रदर्शन उपायों के लिए, जो संदर्भ लेबलों के अनुसार कई वर्गों के लिए प्रदर्शन को संक्षेप में प्रस्तुत करते हैं, सुनिश्चित करें कि आप उन कक्षाओं की सापेक्ष आवृत्ति को ध्यान में रखते हैं जो आप आवेदन में सामना करेंगे - जो जरूरी नहीं कि आपके समान ही हो प्रशिक्षण या परीक्षण डेटा।
प्रोवोस्ट, एफ। एट अल। : मशीन लर्निंग, 1998 पर पंद्रहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में प्रेरण एल्गोरिदम की तुलना करने के लिए सटीकता के खिलाफ मामला
संपादित करें: कई सहपाठियों की तुलना
मैं थोड़ी देर के लिए इस समस्या के बारे में सोच रहा था, लेकिन अभी तक एक समाधान पर नहीं आया था (और न ही मैं किसी से मिला था जिसके पास समाधान था)।
यहाँ मैंने अभी तक क्या किया है:
फिलहाल, मैंने फैसला किया कि "अनुकूलन सभी बुराई की जड़ है", और इसके बजाय एक बहुत अलग दृष्टिकोण ले लो:
मैं हाथ में समस्या के बारे में विशेषज्ञ ज्ञान द्वारा जितना संभव हो उतना तय करता हूं। यह वास्तव में चीजों को थोड़ा कम करने की अनुमति देता है, ताकि मैं अक्सर मॉडल की तुलना से बच सकता हूं। जब मुझे मॉडल की तुलना करनी होती है, तो मैं प्रदर्शन के अनुमान की अनिश्चितता के बारे में लोगों को याद दिलाने के लिए बहुत ही खुले और स्पष्ट होने की कोशिश करता हूं और विशेष रूप से कई मॉडल तुलना AFAIK अभी भी एक अनसुलझी समस्या है।
संपादित 2: युग्मित परीक्षण
n12( एन2- एन )परीक्षण सिर्फ इस तथ्य को संदर्भित करता है कि जैसा कि सभी मॉडलों को बिल्कुल एक ही परीक्षण मामलों के साथ परीक्षण किया जाता है, आप मामलों को एक तरफ "आसान" और "मुश्किल" मामलों में विभाजित कर सकते हैं, जिसके लिए सभी मॉडल एक सही पर आते हैं (या गलत) भविष्यवाणी। वे मॉडलों के बीच भेद करने में मदद नहीं करते हैं। दूसरी ओर, "दिलचस्प" मामले हैं, जिन्हें कुछ लोगों द्वारा सही ढंग से भविष्यवाणी की जाती है, लेकिन अन्य मॉडलों द्वारा नहीं। श्रेष्ठता को पहचानने के लिए केवल इन "दिलचस्प" मामलों पर विचार करने की आवश्यकता है, न तो "आसान" और न ही "कठिन" मामलों से मदद मिलती है। (यह मैं मैकनीमार के परीक्षण के पीछे के विचार को समझता हूं)।
nn