कश्मीर-गुना क्रॉस-वैरिफिकेशन में भिन्नता का अनुमान है


27

के-फोल्ड क्रॉस-सत्यापन का उपयोग किसी दिए गए क्लासिफायरियर की सामान्यीकरण क्षमता का अनुमान लगाने के लिए किया जा सकता है। क्या मैं (या मुझे भी) अपने वैरिएशन का एक बेहतर अनुमान प्राप्त करने के लिए सभी सत्यापन रन से पूल किए गए विचरण की गणना कर सकता है?

यदि नहीं, तो क्यों?

मुझे ऐसे कागजात मिले हैं जो क्रॉस-वैलिडेशन रन के दौरान जमा मानक विचलन का उपयोग करते हैं । मैंने यह भी पाया है कि कागजात स्पष्ट रूप से बताते हैं कि सत्यापन के लिए कोई सार्वभौमिक अनुमानक नहीं है । हालाँकि, मैंने सामान्यीकरण त्रुटि के लिए कुछ भिन्न अनुमानों को दर्शाने वाले कागजात भी पाए हैं (मैं अभी भी इसे पढ़ रहा हूं और इसे समझने की कोशिश कर रहा हूं)। व्यवहार में लोग वास्तव में क्या करते हैं (या रिपोर्ट करते हैं)?

संपादित करें: जब क्रूड वर्गीकरण त्रुटि को मापने के लिए सीवी का उपयोग किया जाता है (यानी या तो एक नमूना सही ढंग से लेबल किया गया है या यह नहीं है; उदाहरण के लिए सही या गलत) तो यह एक जमा हुए विचरण के बारे में बात करने के लिए समझ में नहीं आ सकता है। हालांकि, मैं उस मामले के बारे में बात कर रहा हूं जिसमें हम जिस आंकड़े का अनुमान लगा रहे हैं उसमें एक विचरण परिभाषित है। तो, एक दिए गए गुना के लिए, हम आंकड़े के लिए एक मूल्य और एक विचरण अनुमान दोनों के साथ समाप्त कर सकते हैं। इस जानकारी को त्यागना और केवल औसत आँकड़ा मानना ​​उचित नहीं लगता। और जब मैं जानता हूं कि मैं बूटस्ट्रैप विधियों का उपयोग करके एक विचरण अनुमान लगा सकता हूं, (यदि मैं बहुत गलत नहीं हूं) तो ऐसा करने से अभी भी गुना वैरिएंट्स को नजरअंदाज कर दिया जाएगा और केवल सांख्यिकीय अनुमानों को ध्यान में रखा जाएगा (साथ ही बहुत अधिक गणना शक्ति की आवश्यकता होती है)।


क्या आपने दो अलग-अलग तरीकों से विचार करके विचरण की गणना की है कि क्या वे एक दूसरे से बहुत भिन्न हैं?
ज़ेफरिनो

हाँ, मैंने किया। कुछ प्रयोगों में प्रशिक्षण के नमूनों के लिए विचरण और जमाव विचरण के बीच परिमाण के क्रम में परिवर्तन हुआ। सत्यापन के नमूनों में बहुत अंतर नहीं था। बड़े बदलाव कम सटीक मॉडल से जुड़े हुए लग रहे थे।
सीजर

1
@ सीजर: अच्छा अवलोकन: आपके मॉडल बहुत अस्थिर हैं (पुनरावृत्तियों के बीच उच्च विचरण)। वर्गीकरण में (जब तक कि वर्गीकरणकर्ता अनुमान लगाने से बदतर नहीं होता है), अस्थिर भविष्यवाणियां गलत भविष्यवाणियों को जन्म देंगी। इसके लिए एक गलत विचार यह है कि एक सही भविष्यवाणी से विचलन हमेशा "गलत" दिशा में होगा, बहुत अधिक नहीं है जो बहुत कम के साथ रद्द हो जाएगा।
कैबीलाइट्स

1
@cbeleites: यह तब कुछ हद तक अपेक्षित नहीं होगा, क्योंकि बड़े विचरण परिवर्तन ज्यादातर उच्चतर त्रुटि दर वाले मॉडल के साथ होते हैं? वैसे, आपके उत्तर पर अच्छा अपडेट। मुझे अभी भी इसे और अधिक ध्यान से पढ़ना है, लेकिन मैं पहले से ही बहुत आभारी हूं। धन्यवाद।
सिसर

1
@ सीजर: Thx। निश्चित रूप से यह उम्मीद की जाती है कि अनुपात के लिए विचरण करने वाला एक कम चित्रण तरीका है (मेरे उत्तर देखें): असली त्रुटि दर जितनी अधिक चरम है, विचरण जितना कम होगा, अधिकतम विचरण त्रुटि दर = 50% है।
cbeleites

जवाबों:


13

बहुत दिलचस्प सवाल, मुझे आपके द्वारा दिए गए कागजात पढ़ने होंगे ... लेकिन शायद यह हमें एक उत्तर की दिशा में शुरू करेगा:

मैं आमतौर पर इस समस्या से बहुत व्यावहारिक तरीके से निपटता हूं: मैं नए यादृच्छिक विभाजन के साथ k- गुना क्रॉस सत्यापन को पुनरावृत्त करता हूं और प्रत्येक पुनरावृत्ति के लिए हमेशा की तरह प्रदर्शन की गणना करता हूं। समग्र परीक्षण नमूने तब प्रत्येक पुनरावृत्ति के लिए समान होते हैं, और अंतर डेटा के विभिन्न विभाजन से आते हैं।

यह मैं उदाहरण के लिए 5 वीं से 95 वीं प्रतिशत के रूप में मनाया प्रदर्शन wrt रिपोर्ट। नए नमूनों के लिए नमूने तक आदान-प्रदान करना और इसे मॉडल अस्थिरता के लिए एक उपाय के रूप में चर्चा करना।nk1

ध्यान दें: मैं वैसे भी ऐसे सूत्रों का उपयोग नहीं कर सकता, जिनके लिए नमूना आकार की आवश्यकता है। जैसा कि मेरा डेटा संरचना में श्रेणीबद्ध या पदानुक्रमित है (एक ही मामले के कई समान लेकिन बार-बार माप नहीं, आमतौर पर एक ही नमूने के कई [सौ] अलग-अलग स्थान) मुझे प्रभावी नमूना आकार नहीं पता है।

बूटस्ट्रैपिंग की तुलना:

  • पुनरावृत्तियों नए यादृच्छिक विभाजन का उपयोग करते हैं।

  • मुख्य अंतर (बूटस्ट्रैप) या बिना (cv) प्रतिस्थापन के साथ रेज़म्पलिंग है।

  • कम्प्यूटेशनल लागत उसी के बारे में है, जैसा कि मैं cv के पुनरावृत्तियों में से कोई भी नहीं

  • बूटस्ट्रैप के कुछ सांख्यिकीय गुणों के संदर्भ में cv पर लाभ हैं (asymptotically सही, संभवतः आपको एक अच्छा अनुमान प्राप्त करने के लिए कम पुनरावृत्तियों की आवश्यकता है)

  • हालाँकि, cv के साथ आपको वह लाभ है जिसकी आपको गारंटी है

    • अलग-अलग प्रशिक्षण नमूनों की संख्या सभी मॉडलों के लिए समान है (यदि आप सीखना घटता की गणना करना चाहते हैं तो महत्वपूर्ण है)
    • प्रत्येक नमूने का प्रत्येक पुनरावृत्ति में एक बार परीक्षण किया जाता है
  • कुछ वर्गीकरण विधियां दोहराए गए नमूनों को छोड़ देंगी, इसलिए बूटस्ट्रैपिंग का कोई मतलब नहीं है

प्रदर्शन के लिए भिन्न

संक्षिप्त उत्तर: हाँ, यह उस स्थिति में विचरण की बात करने का कोई मतलब नहीं है जहाँ केवल {0,1} परिणाम मौजूद हैं।

द्विपद वितरण पर एक नजर डालें (k = सफलताओं, n = परीक्षण, p = सफलता के लिए सही संभावना = औसत k / n):

σ2(k)=np(1p)

pp^

  • फ्लेस: सांख्यिकीय तरीके दरें और अनुपात के लिए
  • फोर्थोफर और ली: बायोस्टैटिस्टिक्स का अच्छा परिचय है।

p^=kn

σ2(p^)=p(1p)n

इसका मतलब यह है कि क्लासिफायर प्रदर्शन को मापने के लिए अनिश्चितता केवल परीक्षण किए गए मॉडल के सही प्रदर्शन पी और परीक्षण नमूनों की संख्या पर निर्भर करती है।

क्रॉस सत्यापन में आप मान लेते हैं

  1. कि "सरोगेट" मॉडल का "वास्तविक" मॉडल के समान वास्तविक प्रदर्शन होता है जिसे आप आमतौर पर सभी नमूनों से बनाते हैं। (इस धारणा का टूटना प्रसिद्ध निराशावादी पूर्वाग्रह है)।

  2. कि k "सरोगेट" मॉडल का समान वास्तविक प्रदर्शन है (समतुल्य है, स्थिर भविष्यवाणियां हैं), इसलिए आपको k परीक्षणों के परिणामों को पूल करने की अनुमति है।
    बेशक, न केवल k "सरोगेट" cv के एक पुनरावृत्ति के मॉडल को पूल किया जा सकता है, बल्कि k- गुना cv के i पुनरावृत्तियों के ki मॉडल।

क्यों पुनरावृति?

पुनरावृत्तियों की मुख्य बात आपको बताती है कि एक ही नमूने के लिए विभिन्न मॉडलों के पूर्वानुमानों का मॉडल (पूर्वानुमान) अस्थिरता है।

p^

और हाँ, यह महत्वपूर्ण जानकारी है।

nbootstrapkniter. cvn1nσ2(p^)=p(1p)n

pknp^n

यदि आप मॉडल अस्थिरता का निरीक्षण करते हैं, तो पूल किए गए औसत सही प्रदर्शन का एक बेहतर अनुमान है। पुनरावृत्तियों के बीच विचरण एक महत्वपूर्ण जानकारी है, और आप इसे सभी पुनरावृत्तियों पर सही प्रदर्शन औसत प्रदर्शन के साथ आकार n के परीक्षण सेट के लिए अपेक्षित न्यूनतम विचरण से तुलना कर सकते हैं।


आप बूटस्ट्रैप की तरह, नए यादृच्छिक विभाजन के साथ पुनरावृति करते हैं? या आप कई बार k- गुना क्रॉस-सत्यापन दोहराते हैं? यह दिलचस्प है, क्योंकि यह बूटस्ट्रैप की तरह नहीं लगता है, लेकिन ऐसा काम कर सकता है। लेकिन आप कितने प्रतिकृति प्रदर्शन करते हैं? यह बहुत महंगा आसानी से मिल सकता है।
सीजर

@ केसर: यह बूटस्ट्रैप के समान है, विस्तारित उत्तर देखें।
cbeleites

CV प्रत्येक मॉडल के लिए "समान प्रशिक्षण नमूनों की समान संख्या" को कैसे छोड़ता है, लेकिन बूटस्ट्रैपिंग नहीं करता है? मैं इसका अनुसरण नहीं करता हूं, क्योंकि CV "डेटा सेट्स को दोहराता है" अवलोकनों का एक अलग संयोजन है - वे संभवतः अलग-अलग टिप्पणियों की समान संख्या कैसे प्रदान कर सकते हैं? शायद आप यह मान रहे हैं कि मूल प्रशिक्षण सेट में प्रत्येक रिकॉर्ड अलग है?
probabilityislogic

@probabilityislogic: CV प्रतिकृति डेटा सेट मूल डेटा सेट से छोटे होते हैं । इस प्रकार, प्रतिस्थापन के बिना resampling के साथ भी ऐसे विभिन्न प्रतिकृति का उत्पादन किया जा सकता है। प्रतिस्थापन के साथ रेज़मैपलिंग आप कई बार एक ही रिकॉर्ड बना सकते हैं। इस प्रकार, अद्वितीय रिकॉर्ड की संख्या अलग-अलग हो सकती है। हां, मैं मूल रिकॉर्ड को अलग मानता हूं। सांख्यिकीय स्वतंत्रता को बनाए रखने के लिए जो कई अनुप्रयोगों के लिए महत्वपूर्ण है, डेटा पदानुक्रम के उच्चतम स्तर पर पुन: नमूनाकरण किया जाना चाहिए। (जैसे मैं प्रत्येक रोगी के लिए सैकड़ों पंक्तियों के साथ रोगी डेटा के साथ काम करता हूं => रोगियों
को फिर से भरना

1
n

1

याद रखें सीवी केवल एक अनुमान है और कभी भी 'वास्तविक' सामान्यीकरण त्रुटि का प्रतिनिधित्व नहीं कर सकता है। आपके नमूना आकार (जो आपके सिलवटों या गुना आकार की संख्या को प्रभावित करेगा) के आधार पर आप सामान्यीकरण त्रुटि के वितरण के किसी भी पैरामीटर अनुमान की गणना करने की अपनी क्षमता में गंभीर रूप से सीमित हो सकते हैं। मेरी राय में (और मैंने इसे विभिन्न पाठ पुस्तकों में देखा है, 'नॉलेज डिस्कवरी विद सपोर्ट वेक्टर मशीन-लुत्ज हैमेल) आप सामान्यीकरण त्रुटि के वितरण का अनुमान लगाने के लिए सीवी के कुछ बूटस्ट्रैपिंग वेरिएंट कर सकते हैं, लेकिन एक मानक 10 1 (उदाहरण के लिए) एक बार बंद सीवी आपको वास्तविक जीन-त्रुटि के बारे में अनुमान लगाने के लिए पर्याप्त डेटा अंक नहीं देगा। बूटस्ट्रैपिंग के लिए आपको अपने प्रशिक्षण / परीक्षण / वैल से प्रतिस्थापन के साथ कई नमूने लेने की आवश्यकता होती है जो प्रभावी रूप से एकाधिक (जैसे 1000 या तो) 10-1 (या जो भी) सीवी परीक्षण करते हैं। फिर आप सीवी त्रुटियों की आबादी के लिए माध्य के नमूना वितरण के अनुमान के रूप में प्रत्येक सीवी परीक्षण के लिए औसत नमूने का नमूना लेते हैं और इसमें से आप वितरण के मापदंडों यानी माध्य, एसटीडी अधिकतम Q1 Q3 आदि का अनुमान लगा सकते हैं ... यह थोड़ा सा काम है, और मेरी राय में केवल वास्तव में आवश्यक है अगर आपका आवेदन महत्वपूर्ण है / अतिरिक्त काम को वारंट करने के लिए पर्याप्त जोखिम भरा है। यानी शायद मार्केटिंग के माहौल में, जहाँ व्यापार केवल यादृच्छिक से बेहतर होने के लिए खुश है तो शायद इसकी आवश्यकता नहीं है। लेकिन अगर आप उच्च जोखिम वाली दवाओं के लिए रोगी की प्रतिक्रियाओं का मूल्यांकन करने की कोशिश कर रहे हैं या बड़े निवेशों के लिए आय की उम्मीदों का अनुमान लगा रहे हैं तो आप इसे पूरा करने के लिए विवेकपूर्ण हो सकते हैं।


यह एक अनुमान है, लेकिन इतना कहा जा सकता है कि वस्तुतः किसी भी आंकड़े का उपयोग किया जा सकता है। हालाँकि, जब प्रत्येक तह में पहले से ही विचरण का अनुमान होता है, तो यह जानकारी को छोड़ना सही नहीं लगता है। मैंने स्पष्टीकरण के साथ प्रश्न को अपडेट किया है।
सीजर

शायद मुझे नहीं मिल रहा है। मुझे सच में समझ नहीं आ रहा है कि आप एक ही तह के विचरण पर क्यों तड़प रहे हैं?
क्ले

मैं जिस समस्या से निपटने की कोशिश कर रहा हूं, उसके लिए एक सिंगल 10 गुना सीवी चलाना बिल्कुल सस्ता नहीं है। आप सही हैं कि मैं बूटस्ट्रैप में प्रतिस्थापन के साथ कई नमूने ले कर विचरण का अनुमान लगा सकता हूं। लेकिन बड़ी संख्या में सीवी लेना, यहां तक ​​कि कुछ सौ, मेरे मामले में बहुत अव्यवहारिक हो सकते हैं। मैं व्यक्तिगत तह विचरण अनुमानों को संयोजित करने के लिए एक रास्ता (यदि कोई है) की तलाश कर रहा हूं, तो मुझे कम से कम बूटस्ट्रैप नमूनों की संख्या को कम करने की आवश्यकता हो सकती है। और इसके अलावा, जिज्ञासा।
सीजर

आह ठीक है। शायद तब समग्र मोड़ से 10 गुना साधनों में से प्रत्येक के विचरण का मतलब एक यादृच्छिक
रूपांतर होगा

@clancy: 10-1 के साथ क्या आपका मतलब है n = 10 नमूनों के लिए छुट्टी-एक-आउट cv? ध्यान दें कि छुट्टी-एक-आउट पुनरावृत्तियों के लिए कोई मतलब नहीं है।
केलीलाइट्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.