जब एक मॉडल को परिष्कृत करना बंद करना है?


15

मैं पिछले 3 वर्षों से कई पुस्तकों के आंकड़ों का अध्ययन कर रहा हूं, और इस साइट के लिए धन्यवाद मैंने बहुत कुछ सीखा है। फिर भी एक मौलिक प्रश्न अभी भी मेरे लिए अनुत्तरित है। इसका बहुत सरल या बहुत कठिन उत्तर हो सकता है, लेकिन मुझे यकीन है कि इसके लिए आंकड़ों की गहरी समझ की आवश्यकता है।

मॉडल को डेटा में फिट करते समय, यह एक निरंतरवादी या बायेसियन दृष्टिकोण हो, हम एक मॉडल का प्रस्ताव करते हैं, जिसमें संभावना, पूर्व, या कर्नेल (गैर-पैरामीट्रिक), आदि के लिए एक कार्यात्मक रूप शामिल हो सकता है। मुद्दा कोई भी मॉडल है अच्छाई के कुछ स्तर के साथ एक नमूना फिट बैठता है। वर्तमान में जो हाथ में है उसकी तुलना में एक हमेशा बेहतर या बदतर मॉडल पा सकता है। कुछ बिंदु पर हम निष्कर्ष निकालना शुरू करते हैं, जनसंख्या मापदंडों को सामान्य करते हैं, आत्मविश्वास अंतराल की रिपोर्ट करते हैं, जोखिम की गणना करते हैं, आदि इसलिए, हम जो भी निष्कर्ष निकालते हैं वह हमेशा उस मॉडल पर सशर्त होता है जिसे हमने तय किया था। भले ही हम ए.एल., एमडीएल इत्यादि जैसे केएल की अनुमानित दूरी का अनुमान लगाने के लिए उपकरणों का उपयोग कर रहे हों, लेकिन यह इस बारे में कुछ नहीं कहता है कि हम निरपेक्ष आधार पर कहां खड़े हैं, लेकिन सिर्फ सापेक्ष आधार पर हमारे अनुमान को बेहतर बनाता है।

अब मान लीजिए कि हम मॉडल बनाते समय किसी भी डेटा सेट पर लागू करने के लिए चरण प्रक्रिया द्वारा एक कदम को परिभाषित करना चाहेंगे। हमें रोक नियम के रूप में क्या निर्दिष्ट करना चाहिए? क्या हम कम से कम मॉडल त्रुटि को बाध्य कर सकते हैं जो हमें एक उद्देश्य रोक बिंदु देगा (यह सत्यापन नमूने का उपयोग करके प्रशिक्षण को रोकने से अलग है, क्योंकि यह मूल्यांकन किए गए मॉडल वर्ग के भीतर एक रोक बिंदु देता है बजाय कि सच्चे डीजीपी के)?


1
मुझे लगता है कि आपको सवाल के लिए अन्य टैग्स को केवल अनुमान से जोड़ना चाहिए, जैसे कुछ मॉडलिंग टैग और मॉडल-चयन। मुझे लगता है कि इस के लिए प्रासंगिक हो सकता है भी Occam के रेजर हैयहां एक पेपर भी है, जो इसे बेेटियन मॉडलिंग की चर्चा करता है।
ग्यूमो

कभी-कभी आप एक विशेष मॉडल का निर्माण करते हैं क्योंकि यह कुछ मापदंडों का अनुमान लगाने के लिए विशेष रूप से अच्छा है, इसलिए नहीं कि आपको लगता है कि समग्र वितरण सटीक है (देखें एम-अनुमान, सामान्यीकृत आकलन समीकरण) आदि, इसलिए, यदि आप वास्तव में स्थान के सभ्य अनुमान के बारे में परवाह करते हैं, तो आप एक गलत मॉडल के साथ बेहतर हो सकते हैं लेकिन एक जो आसानी से शोर से नहीं फेंका जाता है (आपकी रुचि के पैरामीटर के लिए)। सामान्य तौर पर, रोबस्ट अनुमान देखें।

बहुत ही रोचक सवाल। बस एक टिप्पणी है कि कम से कम बायेसियन सेटिंग में से एक को चुनने के बजाय मॉडल के प्रशंसनीय सबसेट पर औसत का सवाल भी उठता है। मैं ओपी के प्रश्न के किसी भी सैद्धांतिक तरीके के बारे में सुनिश्चित नहीं हूं और मुझे लगता है कि व्यावहारिक रूप से यह किया जाता है कि जिस समस्या को हल करने के लिए हम प्रयास कर रहे हैं उसके लिए उठाया मॉडल पर्याप्त है या नहीं। शायद हमें MCMC विधियों या कुछ इस तरह से मॉडल चयन की आवश्यकता है! मैं इसके लिए एक नेस्टेड MCMC दृष्टिकोण की कल्पना कर सकता हूं ...
लुका

@ लुका यह किया गया है। हालांकि समस्या यह है कि बायेसियन द्वारा परिभाषित मॉडल का स्थान पहले हो सकता है या इसमें सही मॉडल नहीं हो सकता है। यहां तक ​​कि अगर यह मॉडल की त्रुटि थी तब भी, यह सही DGP के संबंध में औसत मॉडल की त्रुटि है।
कागदस ओजेंकेन

1
प्रश्न के लिए +1। बड़े हिस्से में, इस चिंता दार्शनिक या epistemiological, कर रहे हैं यानी, नहीं "क्या केवल" क्या हम जानते हैं कि क्या करना है और हम इसे कैसे पता है "लेकिन कर सकते हैं कि हम जानते हैं और कैसे कर सकते हैं ? हम जानते हैं" जैसा कि भौतिक विज्ञानी रिचर्ड फेनमैन ने कहा, "किसी दिन ऐसा उत्तर मिलना असंभव है जो गलत नहीं होगा।" दूसरे शब्दों में और जब तक आप धार्मिक नहीं हैं, तब तक उचित संदेह है कि क्या एक अविभाज्य, शाश्वत जमीनी सच्चाई मौजूद है, जिस पर कुछ भी लंगर डालना है।
माइक हंटर

जवाबों:


12

दुर्भाग्य से, इस सवाल का एक अच्छा जवाब नहीं है। आप इस तथ्य के आधार पर सबसे अच्छा मॉडल चुन सकते हैं कि यह पूर्ण त्रुटि को कम करता है, चुकता त्रुटि, संभावना को अधिकतम करता है, कुछ मानदंडों का उपयोग करके जो कि कुछ सबसे सामान्य विकल्पों का उल्लेख करने के लिए संभावना (जैसे एआईसी, बीआईसी) को दंडित करता है। समस्या यह है कि उन मानदंडों में से कोई भी आपको वस्तुनिष्ठ रूप से सर्वश्रेष्ठ मॉडल का चयन नहीं करने देगा, बल्कि उस सर्वोत्तम से जिसे आप तुलना करते हैं। एक और समस्या यह है कि अनुकूलन करते समय आप हमेशा कुछ स्थानीय अधिकतम / न्यूनतम में समाप्त हो सकते हैं। फिर भी एक और समस्या यह है कि मॉडल चयन के लिए आपकी पसंद का विकल्प व्यक्तिपरक है । कई मामलों में आप सचेत रूप से, या अर्ध-होशपूर्वक, इस बात पर निर्णय लेते हैं कि आप क्या रुचि रखते हैं और इसके आधार पर मापदंड चुनें। उदाहरण के लिए, AIC के बजाय BIC का उपयोग करने से कम मापदंडों के साथ अधिक परमानेंट मॉडल होते हैं। आमतौर पर, मॉडलिंग के लिए आप अधिक पारसमणि मॉडल में रुचि रखते हैं जो ब्रह्मांड के बारे में कुछ सामान्य निष्कर्षों की ओर ले जाते हैं, जबकि भविष्यवाणी करने के लिए ऐसा नहीं होना चाहिए और कभी-कभी अधिक जटिल मॉडल में बेहतर पूर्वानुमान शक्ति हो सकती है (लेकिन अक्सर और अक्सर नहीं होती है) ऐसा नहीं होता)। अभी तक अन्य मामलों में, कभी-कभी अधिक जटिल मॉडल व्यावहारिक कारणों से पसंद किए जाते हैं , उदाहरण के लिए, MCMC के साथ बायेसियन मॉडल का आकलन करते समय, पदानुक्रमित हाइपरप्रिअर्स वाला मॉडल सरल की तुलना में सिमुलेशन में बेहतर व्यवहार कर सकता है। दूसरी ओर, आमतौर पर हम ओवरफिटिंग से डरते हैंऔर सरल मॉडल में ओवरफिटिंग का जोखिम कम होता है, इसलिए यह एक सुरक्षित विकल्प है। इसके लिए अच्छा उदाहरण एक स्वचालित स्टेपवाइज मॉडल चयन है जिसे आमतौर पर अनुशंसित नहीं किया जाता है क्योंकि यह आसानी से अतिव्यापी और पक्षपाती अनुमानों की ओर जाता है। एक दार्शनिक तर्क भी है, ओकाम का उस्तरा , कि सबसे सरल मॉडल पसंदीदा है। ध्यान दें, कि हम यहां विभिन्न मॉडलों की तुलना करते हुए चर्चा कर रहे हैं, जबकि वास्तविक जीवन की स्थितियों में यह इसलिए भी हो सकता है कि विभिन्न सांख्यिकीय उपकरणों का उपयोग करने से विभिन्न परिणाम हो सकते हैं - इसलिए विधि चुनने की एक अतिरिक्त परत है!

यह सब दुख की बात है, लेकिन मनोरंजक, तथ्य यह है कि हम कभी भी निश्चित नहीं हो सकते हैं। हम अनिश्चितता से शुरू करते हैं, इससे निपटने के लिए तरीकों का उपयोग करते हैं और हम अनीति के साथ समाप्त होते हैं। यह विरोधाभासी हो सकता है, लेकिन याद रखें कि हम आंकड़ों का उपयोग करते हैं क्योंकि हम मानते हैं कि दुनिया अनिश्चित और संभाव्य है (अन्यथा हम भविष्यद्वक्ताओं के कैरियर का चयन करेंगे), इसलिए हम संभवतः विभिन्न निष्कर्षों के साथ कैसे समाप्त हो सकते हैं? कोई उद्देश्य रोक नियम नहीं है, कई संभावित मॉडल हैं, उनमें से सभी गलत हैं (क्लीच के लिए खेद है!) क्योंकि वे जटिल (लगातार बदलते और संभाव्य) वास्तविकता को सरल बनाने की कोशिश करते हैं। हम अपने उद्देश्यों के लिए उनमें से कुछ को दूसरों की तुलना में अधिक उपयोगी पाते हैं और कभी-कभी हम ऐसा करते हैंθμ

आप और भी गहराई से जा सकते हैं और पता लगा सकते हैं कि वास्तविकता में "संभावना" जैसी कोई चीज नहीं है - यह हमारे चारों ओर अनिश्चितता का सिर्फ कुछ अनुमान है और इसके अनुमान लगाने के वैकल्पिक तरीके भी हैं जैसे कि फजी लॉजिक (देखें कोस्को, 1993) चर्चा के लिए)। यहां तक ​​कि बहुत ही मूल उपकरण और प्रमेय जो हमारे तरीकों पर आधारित हैं, वे सन्निकटन हैं और केवल वही नहीं हैं जो संभव हैं। हम बस इस तरह के एक सेटअप में निश्चित नहीं हो सकते।

नियम जो आप खोज रहे हैं वह हमेशा समस्या-विशिष्ट और व्यक्तिपरक है, अर्थात तथाकथित व्यावसायिक निर्णय पर आधारित है। वैसे, बहुत सारे अनुसंधान उदाहरण हैं जिन्होंने दिखाया है कि पेशेवरों को अक्सर बेहतर नहीं होता है और कभी-कभी अपने फैसले में लेप्स की तुलना में भी बदतर होता है (उदाहरण के लिए डैनियल काहमन द्वारा कागज और पुस्तकों में पुनर्जीवित किया गया ), जबकि अधिक आत्मविश्वास होने का खतरा है (यह वास्तव में है इस तर्क पर कि हमें अपने मॉडलों के बारे में "सुनिश्चित" होने की कोशिश क्यों नहीं करनी चाहिए )।


कोस्को, बी। (1993)। फजी सोच: फजी लॉजिक का नया विज्ञान। न्यूयॉर्क: हाइपरियन।


1
μ

1
यह दावा सही है जब इसकी धारणाएं संतुष्ट हैं (जैसे हमें एक निश्चित नमूना दिया जाता है, जो व्यवहार में सच है)। संदर्भ से बाहर ले जाया गया और मान्यताओं के उल्लंघन के साथ, यह निश्चित रूप से गलत हो सकता है।
रिचर्ड हार्डी

1
@CagdasOzgenc किसी के पास मॉडल बनाने के लिए एक पद्धति है जो वास्तविकता को पूरी तरह से प्रतिबिंबित करती है, जबकि नियम को रोकने के लिए, या मॉडल की त्रुटि को मापने के लिए कोई आवश्यकता नहीं है - मॉडल परिभाषा से परिपूर्ण है। यदि आप इस तरह के मॉडल के निर्माण के नियमों को जानते हैं , तो सच्चे DGP से अपने मॉडल के विचलन को मापने की कोई आवश्यकता नहीं है, क्योंकि सच्चे DGP को जानने के बाद ही इस तरह के ज्ञान का उपयोग होता है। दूसरी ओर, यदि आपका मॉडल आपके पास मौजूद डेटा के आधार पर सरलीकरण है, तो सामान्य आँकड़े नियम लागू होते हैं, जैसा कि मेरे उत्तर में वर्णित है।
टिम

1
@CagdasOzgenc अभी भी, यदि आप "सत्य" जानते हैं , तो नियम रोकना सरल है: तब रुकें जब आपका मॉडल "सत्य" पर फिट बैठता है। यदि आपको नहीं पता कि सच्चाई क्या है, तो "सभी मॉडल समान रूप से गलत हैं ..." और आपको आंकड़ों का उपयोग करना होगा। यदि आप नहीं जानते हैं, तो आप इससे विचलन को माप नहीं सकते।
टिम

1
@ लुका इसका मतलब बहुत है, लेकिन यह अमूर्त है।
टिम

4

एक पूरा क्षेत्र है जिसे गैर-समरूप आँकड़े कहा जाता है जो मजबूत मॉडल के उपयोग से बचा जाता है। हालांकि, फिटिंग मॉडल के बारे में आपकी चिंता, प्रति se, वैध है। दुर्भाग्य से फिटिंग के मॉडल के लिए कोई यांत्रिक प्रक्रिया नहीं है जिसे सार्वभौमिक रूप से "इष्टतम" के रूप में स्वीकार किया जाएगा। उदाहरण के लिए, यदि आप उस मॉडल को परिभाषित करना चाहते हैं जो आपके डेटा की संभावना को अधिकतम करता है, तो आपको अनुभवजन्य वितरण फ़ंक्शन के लिए नेतृत्व किया जाएगा।

हालांकि, हमारे पास आमतौर पर कुछ पृष्ठभूमि धारणाएं और बाधाएं हैं, जैसे कि परिमित पहले और दूसरे क्षण के साथ निरंतर। इस तरह के मामलों के लिए, एक दृष्टिकोण शैनन डिफरेंशियल एंट्रॉपी की तरह एक उपाय चुनना है और इसे निरंतर वितरण के स्थान पर अधिकतम करना है जो आपकी सीमा बाधाओं को पूरा करता है।

मैं यह बताना चाहता हूं कि यदि आप ECDF को डिफ़ॉल्ट नहीं करना चाहते हैं, तो आपको वहां जाने के लिए डेटा से परे मान्यताओं को जोड़ना होगा, और इसके लिए विषय वस्तु विशेषज्ञता की आवश्यकता होगी, और, हाँ , खूंखार ..... पेशेवर निर्णय

तो, क्या मॉडलिंग के लिए कोई गारंटी बिंदु है ... जवाब नहीं है। क्या रोकने के लिए एक अच्छी जगह है? आम तौर पर, हां, लेकिन यह बिंदु केवल डेटा और कुछ सांख्यिकीय डिसाइडेरटाटा से अधिक पर निर्भर करेगा, आप आमतौर पर विभिन्न त्रुटियों के जोखिम, मॉडल को लागू करने की तकनीकी सीमाएं और इसके अनुमानों की मजबूती को ध्यान में रखते हैं, आदि।

जैसा कि @ लुका ने कहा, आप हमेशा मॉडल के एक वर्ग पर औसत कर सकते हैं, लेकिन, जैसा कि आपने सही बताया है, यह प्रश्न को अगले स्तर के हाइपरपरमेटर्स तक ले जाएगा। दुर्भाग्य से, हम दोनों दिशाओं में एक अनन्त स्तरित प्याज के भीतर रहते हैं!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.