शाओ के परिणाम छुट्टी-एक-आउट क्रॉस-सत्यापन पर कब लागू होते हैं?


23

क्रॉस-वैलिडेशन द्वारा अपने पेपर रैखिक मॉडल चयन में , जुन शाओ दर्शाता है कि बहुभिन्नरूपी रैखिक प्रतिगमन में चर चयन की समस्या के लिए, छुट्टी-एक-आउट क्रॉस सत्यापन (एलओओसीवी) की विधि 'एसिम्पटोट असंगत' है। सादे अंग्रेजी में, यह बहुत अधिक चर वाले मॉडल का चयन करता है। एक सिमुलेशन अध्ययन में, शाओ दिखाता है कि 40 से अधिक टिप्पणियों के लिए भी, LOOCV अन्य क्रॉस-सत्यापन तकनीकों को कमजोर कर सकता है।

यह कागज कुछ विवादास्पद है, और कुछ हद तक नजरअंदाज किया गया है (इसके प्रकाशन के 10 साल बाद, मेरे केमोमेट्रिक्स सहयोगियों ने कभी इसके बारे में नहीं सुना था और चर चयन के लिए LOOCV का उपयोग खुशी से कर रहे थे ...)। एक विश्वास भी है (मैं इसका दोषी हूं), कि इसके परिणाम मूल सीमित दायरे से कुछ हद तक आगे हैं।

प्रश्न, फिर: ये परिणाम कितने दूर तक फैलते हैं? क्या वे निम्नलिखित समस्याओं पर लागू होते हैं?

  1. लॉजिस्टिक रिग्रेशन / जीएलएम के लिए परिवर्तनीय चयन?
  2. फिशर एलडीए वर्गीकरण के लिए परिवर्तनीय चयन?
  3. परिमित (या अनंत) कर्नेल स्थान के साथ SVM का उपयोग करके परिवर्तनीय चयन?
  4. वर्गीकरण में मॉडल की तुलना, एसवीएम को विभिन्न गुठली का उपयोग करते हुए कहते हैं?
  5. रैखिक प्रतिगमन में मॉडल की तुलना, रिज प्रतिगमन के लिए एमएलआर की तुलना कहते हैं?
  6. आदि।

केमोमेट्रिक्स पुस्तकों में कुछ होना चाहिए; एकमात्र आदमी जो मुझे पता है कि LOO का उपयोग करता है वह भी कर रहा है।

जवाबों:


14

आपको यह कहने से पहले मॉडल के उद्देश्य को निर्दिष्ट करने की आवश्यकता है कि क्या शाओ के परिणाम लागू हैं। उदाहरण के लिए, यदि उद्देश्य भविष्यवाणी है, तो LOOCV अच्छी समझ बनाता है और चर चयन की असंगति कोई समस्या नहीं है। दूसरी ओर, यदि उद्देश्य महत्वपूर्ण चर की पहचान करना है और यह बताना है कि वे प्रतिक्रिया चर को कैसे प्रभावित करते हैं, तो शाओ के परिणाम स्पष्ट रूप से महत्वपूर्ण हैं और LOOCV उचित नहीं है।

AIC asymptotically LOOCV है और BIC असमान रूप से एक छुट्टी- -out CV के बराबर है जहाँ v = n [ 1 - 1 / ( log ( n ) - 1 ) ] --- केवल रैखिक मॉडल के लिए BIC परिणाम। तो BIC लगातार मॉडल चयन देता है। इसलिए शाओ के परिणाम का एक छोटा-सा सारांश यह है कि AIC भविष्यवाणी के लिए उपयोगी है, लेकिन BIC स्पष्टीकरण के लिए उपयोगी है।vv=n[11/(log(n)1)]


1
मेरा मानना है कि शाओ पता चला है कि कश्मीर गुना सीवी असंगत है अगर , जबकि तय हो गई है n बढ़ता है। कश्मीरn
shabbychef

1
BIC ने n के साथ बढ़ रहा है।
रोब हंडमैन

1
मैं चुपचाप यह याद दिला दूंगा कि शाओ पेपर से * IC <-> * CV पत्राचार केवल रैखिक मॉडल के लिए काम करता है , और BIC केवल k के साथ CV को मोड़ने के लिए बराबर है।

वास्तव में, मेरा मानना ​​है कि शाओ दिखाता है कि सीवी असंगत है जब तक कि रूप में n inf , जहां n v परीक्षण सेट में नमूनों की संख्या है। इस प्रकार k -fold CV हमेशा चर चयन के लिए असंगत होता है। क्या मुझे गलत समझा गया है? द्वारा कश्मीर गुना सीवी मैं में नमूना विभाजित मतलब समूहों और प्रशिक्षण पर उनमें से, और उनमें से 1 पर परीक्षण करना, फिर दोहरा बार। तब के लिए गुना सीवी, जो दृष्टिकोण कभी नहीं 1.nv/n1ninfnvकश्मीरकश्मीरk - कश्मीरकश्मीर-1कश्मीरnv/n=1/कश्मीरकश्मीर
shabbychef

3
@mbq: नहीं - स्टोन 1977 द्वारा AIC / LOO प्रमाण रैखिक मॉडल नहीं मानते हैं। इस कारण से, शाओ के परिणाम के विपरीत, इसे व्यापक रूप से उद्धृत किया गया है; उदाहरण के लिए ईओएसएल या कम्प्यूटेशनल स्टेटिस्टिक्स की हैंडबुक में मॉडल चयन अध्याय या मॉडल चयन पर वास्तव में कोई अच्छा अध्याय / पेपर देखें। यह केवल एक पृष्ठ से थोड़ा अधिक लंबा है और पढ़ने के लायक है क्योंकि यह जिस तरह से प्राप्त करने के लिए फिशर जानकारी / स्कोर की गणना करने से बचता है वह परिणाम प्राप्त करने के लिए कुछ हद तक साफ है।
ars

7

यह कागज कुछ विवादास्पद है, और कुछ हद तक नजरअंदाज कर दिया गया है

वास्तव में नहीं, यह अच्छी तरह से माना जाता है कि मॉडल चयन का सिद्धांत चिंतित है, हालांकि यह निश्चित रूप से गलत है। असली मुद्दा यह है कि यह जंगली में मॉडलिंग के अभ्यास के लिए कितना प्रासंगिक है। मान लीजिए कि आप उन मामलों के लिए सिमुलेशन करते हैं जो आप जांचने और निर्धारित करने के लिए प्रस्तावित करते हैं कि एलओओसीवी वास्तव में असंगत है। एकमात्र कारण जो आपको मिलेगा वह यह है कि आप पहले से ही "सही" मॉडल को जानते थे और इसलिए यह निर्धारित कर सकते हैं कि "असली" मॉडल को पुनर्प्राप्त करने की संभावना नहीं है। 1. जंगली में मॉडलिंग के लिए, यह कितनी बार सच है ( इस घटना का वर्णन रेखीय मॉडल द्वारा किया जाता है और "सच" मॉडल विचार करने वालों का सबसेट है)!

सैद्धांतिक ढांचे को आगे बढ़ाने के लिए शाओ का पेपर निश्चित रूप से दिलचस्प है। यह कुछ स्पष्टता भी प्रदान करता है: यदि "सच" मॉडल वास्तव में विचाराधीन है, तो हमारे पास अपनी टोपी को लटकाने के लिए स्थिरता परिणाम हैं। लेकिन मुझे यकीन नहीं है कि आपके द्वारा वर्णित मामलों के लिए वास्तविक सिमुलेशन कितना दिलचस्प होगा। यह काफी हद तक ईओएसएल जैसी अधिकांश किताबें शाओ के परिणाम पर केंद्रित नहीं हैं, बल्कि मॉडल चयन के लिए एक मापदंड के रूप में भविष्यवाणी / सामान्यीकरण त्रुटि पर।

संपादित करें: आपके प्रश्न का बहुत ही संक्षिप्त उत्तर है: शाओ के परिणाम तब लागू होते हैं जब आप कम से कम वर्ग अनुमान, द्विघात हानि कार्य कर रहे होते हैं। कोई व्यापक नहीं। (मुझे लगता है कि यांग (2005?) द्वारा एक दिलचस्प पेपर था, जिसमें जांच की गई थी कि क्या आपके पास एक नकारात्मक उत्तर के साथ स्थिरता और दक्षता हो सकती है।)


मुझे नहीं लगता कि यह प्रासंगिक है कि मैं जंगल में सही मॉडल को जानता हूं या नहीं। अगर कोई 'सच्चा' मॉडल है, तो मैं एक ऐसा तरीका पसंद करूंगा, जिसमें इसे खोजने की संभावना अधिक हो।
shabbychef

2
@ शब्बीशेफ: मैं असहमत नहीं हूं। लेकिन ध्यान दें: "अगर एक 'सच' मॉडल है और यह विचाराधीन है .. तो आपको यह कैसे पता चलेगा?
ars

1
यह भी ध्यान दें कि मेरा दूसरा पैराग्राफ वास्तव में आपकी टिप्पणी में बात करता है। यह एक अच्छी संपत्ति है, लेकिन यह पूरी तरह से स्पष्ट नहीं है कि यह जंगली में कैसे लागू होता है; भले ही यह कुछ मायने में सुकून देने वाला हो, लेकिन यह गुमराह हो सकता है।
ars

2
@ars - ध्यान दें कि 'सही' मॉडल की "रैखिकता" एक रैखिक मॉडल से 'सही' मॉडल को पुनर्प्राप्त करने का एकमात्र तरीका नहीं है। यदि 'सही' मॉडल के गैर-रेखीय घटक को शोर शब्द द्वारा अच्छी तरह से मॉडल किया जा सकता है (जैसे गैर-रैखिक प्रभाव एक दूसरे को रद्द करने की प्रवृत्ति रखते हैं) तो हम तर्कसंगत रूप से रैखिक मॉडल को 'सच' कह सकते हैं। यह एक रैखिक टेलर श्रृंखला में शेष मान नगण्य के समान है।
संभाव्यता

1
v

6



10/101


प्रमाणों से परे, मैं सोच रहा हूँ कि उदाहरण के लिए, मेरे द्वारा सूचीबद्ध पांच मामलों में से किसी का अनुकरण अध्ययन किया गया है या नहीं।
शब्बीशेफ

कुछ बनाना चाहते हैं?

2
मैं करता हूँ; हालाँकि, यहाँ परिणाम साझा करने के लिए मुझे बहुत अधिक आर सीखना होगा, हालाँकि।
shabbychef

1
@ शब्बीशेफ: कभी ऐसा करने के लिए मिला? और वैसे, यदि आप अभी भी रसायन विज्ञानियों की गिनती कर रहे हैं जो चर चयन के लिए सीवी का उपयोग करते हैं या नहीं करते हैं, तो आप मुझे उन लोगों की तरफ से गिन सकते हैं जो इसे करने से इनकार करते हैं, क्योंकि क) मेरे पास अभी तक कोई वास्तविक डेटा नहीं है मेरे स्पेक्ट्रोस्कोपिक डेटा के लिए एक भी मॉडल की तुलना, और बी) की अनुमति देने के लिए पर्याप्त मामलों (नमूने) के साथ सेट करें, प्रासंगिक जानकारी आमतौर पर स्पेक्ट्रम के बड़े हिस्सों पर "स्मीयर" होती है, इसलिए मैं नियमितकरण पसंद करता हूं जो एक कठिन चर चयन नहीं करता है।
केबेलाइट्स मोनिका

1

1) @ars द्वारा उत्तर में यांग (2005) का उल्लेख है , "क्या AIC और BIC की ताकत साझा की जा सकती है?" । धीरे-धीरे बोलना, ऐसा लगता है कि आपके पास एक मॉडल-चयन मानदंड नहीं हो सकता है दोनों स्थिरता प्राप्त करते हैं (सही मॉडल को चुनने की प्रवृत्ति है, अगर वास्तव में एक सही मॉडल है और यह माना जा रहा है मॉडल में से है) और दक्षता (न्यूनतम मतलब प्राप्त करें) आपके द्वारा उठाए गए मॉडलों में औसत रूप से चुकता त्रुटि)। यदि आप औसत मॉडल को सही तरीके से चुनना चाहते हैं, तो कभी-कभी आपको थोड़ा-बहुत छोटा मॉडल मिलेगा ... लेकिन अक्सर एक वास्तविक भविष्यवक्ता को याद नहीं करने से, आप एमएसई के मामले में किसी ऐसे व्यक्ति की तुलना में बुरा करते हैं, जिसमें हमेशा कुछ भविष्यवक्ता भविष्यवाणियां शामिल होती हैं।

इसलिए, जैसा कि पहले कहा गया था, अगर आप सही-सही-सही-चर प्राप्त करने की तुलना में अधिक-अच्छी-भविष्यवाणियों के बारे में परवाह करते हैं, तो LOOCV या AIC का उपयोग करते रहना ठीक है।

2) लेकिन मैं उनके दो अन्य पत्रों को भी इंगित करना चाहता था: यांग (2006) "वर्गीकरण के लिए तुलनात्मक सीखने के तरीके" और यांग (2007) "संगति प्रतिगमन प्रक्रियाओं के लिए क्रॉस सत्यापन की संगति" । इन कागजों से पता चलता है कि आपको 0 से हटने के लिए प्रशिक्षण-से-परीक्षण डेटा के अनुपात की आवश्यकता नहीं है यदि आप उन मॉडलों की तुलना कर रहे हैं जो रैखिक मॉडल की तुलना में धीमी दरों पर अभिसरण करते हैं।

तो, अपने मूल सवालों के जवाब देने के लिए 1-6 और सीधे: शाओ के परिणाम एक दूसरे से रैखिक मॉडल की तुलना करते समय लागू होते हैं। रिग्रेशन या वर्गीकरण के लिए, यदि आप नॉनपार्टमेट्रिक मॉडल की तुलना कर रहे हैं, जो धीमी दर पर (या यहां तक ​​कि एक रेखीय मॉडल की तुलना एक नेपरमेट्रिक मॉडल से) कर रहे हैं, तो आप प्रशिक्षण के लिए अधिकांश डेटा का उपयोग कर सकते हैं और फिर भी मॉडल-चयन-संगत सीवी हो सकता है। .. लेकिन फिर भी, यांग का सुझाव है कि LOOCV बहुत चरम है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.