अनुकूलन: आंकड़ों में सभी बुराई की जड़?


14

मैंने पहले अभिव्यक्ति को सुना है:

"आँकड़ों में अनुकूलन सभी बुराई की जड़ है"।

उदाहरण के लिए, इस धागे में शीर्ष उत्तर मॉडल चयन के दौरान बहुत अधिक आक्रामक तरीके से अनुकूलन के खतरे के संदर्भ में यह बयान देता है।

मेरा पहला प्रश्न निम्नलिखित है: क्या यह उद्धरण विशेष रूप से किसी के लिए भी जिम्मेदार है? (आंकड़े साहित्य में)

मैं जो समझता हूं, वह कथन ओवरफिटिंग के जोखिमों को संदर्भित करता है। पारंपरिक ज्ञान का कहना है कि उचित क्रॉस सत्यापन पहले से ही इस समस्या से लड़ता है, लेकिन ऐसा लगता है कि इस समस्या से कहीं अधिक है।

क्या सांख्यिकीविदों और एमएल चिकित्सकों को कड़े पार सत्यापन प्रोटोकॉल (जैसे 100 नेस्टेड 10-गुना सीवी) का पालन करते हुए भी अपने मॉडलों का अधिक अनुकूलन करना चाहिए? यदि हां, तो हमें कैसे पता चलेगा कि "सर्वश्रेष्ठ" मॉडल की खोज कब बंद करनी है?


दूसरा सवाल निश्चित रूप से अपने दम पर खड़ा है, हालांकि यह नहीं है?
1

@Glen_b मैंने उस धागे में एक संदर्भ छोड़ दिया। लेकिन सिर्फ स्पष्ट करने के लिए, डिक्रान ने पहले से ही अलग-अलग थ्रेड्स में अपने जवाब के लिए सवालों के जवाब खोलने का सुझाव दिया था, और मुझे संदेह है कि इस प्रश्न को एक टिप्पणी में संबोधित किया जाना चाहिए।
एमिलियो वाज़केज़-रीना

3
@ RussellS.Pierce में वह प्रश्न सम्‍मिलित है जो अब खड़ा है - भले ही यह मेरी टिप्‍पणी से पहले बना हो - जब मैंने इसे लोड किया था और मूल प्रश्‍न और संभावित उत्तरों पर शोध शुरू नहीं किया था, तो इसका केवल वही था जो मैं वर्णन करूंगा। एक बयानबाजी के रूप में वहाँ सवाल। सवाल यह है कि यह अब ठीक है।
Glen_b -Reinstate Monica

2
क्रॉस- वेलिडेशन समस्या यहां एक अन्य प्रश्न में शामिल है : ysts.stackexchange.com/questions/29354/… क्रॉस-वैलिडेशन ओवर-फिटिंग से बचने में मदद कर सकता है, लेकिन यह समस्या को पूरी तरह से हल नहीं करता है। यह जानना कि कब रुकना एक निश्चित रूप से मुश्किल समस्या हो सकती है, और मुझे नहीं लगता कि एक सामान्य समाधान हो सकता है।
डिक्रान मार्सुपियल

1
"उचित क्रॉस सत्यापन पहले से ही इस समस्या से लड़ता है, लेकिन ऐसा लगता है कि इस समस्या से कहीं अधिक है।" हां: समस्या अभी भी क्रॉस सत्यापन के अनुमान का विचरण है (कई परीक्षण समस्याग्रस्त के साथ संयुक्त)। अगर मुझे समय मिलता है, तो मैं आपके संबंधित प्रश्न का उत्तर लिखूंगा।
केबिले मोनिका जूल

जवाबों:


14

यह उद्धरण डोनाल्ड नथ के उद्धरण का एक उदाहरण है , जिसे उन्होंने खुद होरे के लिए जिम्मेदार ठहराया है। उपरोक्त पृष्ठ से तीन अर्क:

समयपूर्व अनुकूलन प्रोग्रामिंग में सभी बुराई (या कम से कम अधिकांश) की जड़ है।

सभी बुराईयो की जड़ समयपूर्व इष्टतमीकरण है।

नुथ इसे 15 साल बाद "होरेस डिक्टम" के रूप में संदर्भित करता है ...

मुझे नहीं पता कि मैं आँकड़ों के साथ सहमत हूँ *। नहीं है बहुत सारे आंकड़ों में 'बुराई' की है कि अनुकूलन से संबंधित नहीं है।

क्या सांख्यिकीविदों और एमएल चिकित्सकों को हमेशा सख्त क्रॉस वेलिडेशन प्रोटोकॉल (जैसे 100 नेस्टेड 10-गुना सीवी) का पालन करते हुए भी अपने मॉडलों का अधिक अनुकूलन करना चाहिए? यदि हां, तो हमें कैसे पता चलेगा कि "सर्वश्रेष्ठ" मॉडल की खोज कब बंद करनी है?

मुझे लगता है कि महत्वपूर्ण बात यह है कि पूरी तरह से समझने के लिए (या पूरी तरह से संभव के रूप में) आप क्या प्रक्रिया शुरू करते हैं के गुण हैं।

* मैं नथ के उपयोग पर टिप्पणी नहीं करूंगा, क्योंकि मैं बहुत कम था कहते हैं कि वह ठीक से दस बार समझने का दावा नहीं कर सका, जैसा कि मैं करता हूं।


2
धन्यवाद, यह मददगार है। मुझे लगता है कि प्रोग्रामिंग और ओवरफिटिंग में पूर्व-परिपक्व अनुकूलन के बीच कुछ दिलचस्प कनेक्शन हैं। मुझे आश्चर्य है कि क्या हमारे समुदाय में कोई समान उद्धरण हैं, और यदि आँकड़ों में इससे लड़ने का एक कठोर तरीका है।
एमिलियो वाज़केज़-रीना

5
वाक्यांश का मेरा उपयोग नुथ के द्वारा प्रेरित था, हालांकि इसका कारण अलग है और बायेसियन परिप्रेक्ष्य से बहुत अधिक सभी अनुकूलन एक बुरी बात है और हाशिए पर रखना बेहतर है।
डिक्रान मार्सुपियल

3

कुछ तरीकों से आप उद्धरण (आंकड़ों में) को पार्स कर सकते हैं, यह मानते हुए कि अनुकूलन (डेटा-चालित) मॉडल चयन को संदर्भित करता है:

  • यदि आप भविष्यवाणी की परवाह करते हैं, तो आप एकल मॉडल का चयन करने के बजाय मॉडल औसत के साथ बेहतर हो सकते हैं।
  • यदि आप मॉडल को फिट करने के लिए उपयोग किए जाने वाले समान डेटासेट पर एक मॉडल का चयन करते हैं, तो यह सामान्य अनुमान उपकरण / प्रक्रियाओं पर कहर बरपाएगा, जो मान लेते हैं कि आपने मॉडल को प्राथमिकता दी थी । (कहते हैं कि आप स्टेप वाइज रिग्रेशन करते हैं, क्रॉस-वेलिडेशन द्वारा मॉडल का आकार चुनना। एक फ़्रीक्वेंटिस्ट विश्लेषण के लिए, चुने हुए मॉडल के लिए सामान्य पी-वैल्यू या CI गलत होंगे। मुझे यकीन है कि बायेसियन विश्लेषणों के लिए समान समस्याएं हैं जिनमें मॉडल शामिल है। चयन।)
  • यदि आपका डेटासेट आपके द्वारा समझे गए मॉडल के परिवार की तुलना में काफी बड़ा है, तो ओवरफिटिंग भी एक समस्या नहीं हो सकती है और मॉडल का चयन अनावश्यक हो सकता है। (कहते हैं कि आप कुछ वैरिएबल और बहुत अधिक अवलोकनों के साथ एक डेटासेट का उपयोग कर एक रेखीय प्रतिगमन को फिट करने जा रहे हैं । किसी भी चंचल चर को गुणांक का अनुमान वैसे भी 0 के करीब होना चाहिए, इसलिए शायद आपको छोटे मॉडल का चयन करने में भी दिक्कत न हो।)
  • यदि आपका डेटासेट छोटा है, तो आपके पास समस्या के लिए "सही" या "सर्वश्रेष्ठ" मॉडल फिट करने के लिए पर्याप्त डेटा नहीं हो सकता है। उस मामले में मॉडल-चयन को अच्छी तरह से करने का क्या मतलब है? (रेखीय प्रतीपगमन पर वापस? चाहिए कि आप सही चर के साथ "सही" मॉडल का चयन करने के उद्देश्य, भले ही आप उन सब को पर्याप्त रूप से मापने के लिए पर्याप्त डेटा नहीं करना चाहिए तुम सिर्फ सबसे बड़ा मॉडल है जिसके लिए आप लेने करते पर्याप्त डेटा ?)
  • अंत में, यहां तक ​​कि जब यह स्पष्ट है कि आप कर सकते हैं और मॉडल का चयन करना चाहिए, तो क्रॉस-सत्यापन एक रामबाण नहीं है। इसके कई प्रकार हैं और यहां तक ​​कि इसका अपना ट्यूनिंग पैरामीटर (सिलवटों की संख्या, या ट्रेन: परीक्षण अनुपात) जो इसके गुणों को प्रभावित करता है। तो आँख बंद करके भरोसा मत करो।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.