जब हम नहीं करते हैं तो हम रैखिक प्रतिगमन में सामान्य रूप से वितरित त्रुटि शर्तों (और होमोसकेडिसिटी) के बारे में इतना ध्यान क्यों रखते हैं?


52

मुझे लगता है कि मैं हर बार निराश हो जाता हूं जब मैंने किसी को यह कहते हुए सुना कि अवशिष्टों की गैर-सामान्यता और / या विषमलैंगिकता ओएलएस मान्यताओं का उल्लंघन करती है। करने के लिए अनुमान है एक OLS मॉडल में न तो इन मान्यताओं के मापदंडों गॉस-मार्कोव प्रमेय द्वारा आवश्यक हैं। मैं देखता हूं कि ओएलएस मॉडल के लिए हाइपोथिसिस परीक्षण में यह कैसे मायने रखता है , क्योंकि इन बातों को मानने से हमें टी-टेस्ट, एफ-परीक्षण और अधिक सामान्य वाल्ड आँकड़ों के लिए स्वच्छ सूत्र मिलते हैं।

लेकिन उनके बिना परिकल्पना परीक्षण करना बहुत कठिन नहीं है। अगर हम सिर्फ होमोसैकेडसिटी छोड़ते हैं तो हम मजबूत मानक त्रुटियों और क्लस्टर की गई मानक त्रुटियों की आसानी से गणना कर सकते हैं। यदि हम सामान्यता को पूरी तरह से छोड़ देते हैं, तो हम बूटस्ट्रैपिंग का उपयोग कर सकते हैं और, त्रुटि शर्तों, संभावना अनुपात और लैग्रेग गुणक परीक्षणों के लिए एक और पैरामीट्रिक विनिर्देश दिया है।

यह सिर्फ एक शर्म की बात है कि हम इसे इस तरह से सिखाते हैं, क्योंकि मैं बहुत सारे लोगों को ऐसी धारणाओं से जूझता हुआ देखता हूं, जो उन्हें पहली जगह में नहीं मिलते।

ऐसा क्यों है कि जब हम आसानी से और अधिक मजबूत तकनीकों को लागू करने की क्षमता रखते हैं, तो हम इन धारणाओं पर बहुत जोर देते हैं? क्या मुझे कुछ महत्वपूर्ण याद आ रहा है?


2
एक अनुशासनात्मक चीज लगती है। मेरे अनुभव में, चरमसीमा पर, अर्थमिति के ग्रंथ लगभग हमेशा कवर करते हैं कि प्रत्येक अनुमान खरीदता है और मनोविज्ञान ग्रंथ कभी भी विषय के बारे में कुछ भी उल्लेख नहीं करते हैं।
संयुक्ताक्षरी

12
हालांकि OLS BLUE होने के लिए Homoscedasticity आवश्यक है।
मोमो

4
मुझे लगता है कि आप सही हैं, उन धारणाओं पर अनुचित ध्यान दिया जाता है। सामान्यता या सशर्त समरूपता की विफलता। अधिकांश चिकित्सकों के हीन लक्ष्यों के लिए हानिकारक और खराब निर्दिष्ट कार्यात्मक रूपों के रूप में हानिकारक नहीं है।
23

2
@CloseToC यह एक बहुत अच्छा बिंदु है। अक्सर हम प्रतिगमन मॉडल की सांख्यिकीय तकनीकी के बारे में इतने चिंतित होते हैं कि हम बड़ी तस्वीर भूल जाते हैं ... क्या मेरा मॉडल सही ढंग से निर्दिष्ट और बहिर्जात है? किसी भी मॉडल को बनाते समय किसी के स्वयं को पूछने के लिए प्राथमिक प्रश्नों में से एक के रूप में इसे बार-बार जोर दिया जाना चाहिए।
ज़ाचरी ब्लुमेनफेल्ड

जवाबों:


25

अर्थमिति में, हम कहेंगे कि गैर-सामान्यता शास्त्रीय सामान्य रैखिक प्रतिगमन मॉडल की शर्तों का उल्लंघन करती है, जबकि विषमलैंगिकता CNLR और शास्त्रीय रैखिक प्रतिगमन मॉडल दोनों की मान्यताओं का उल्लंघन करती है।

लेकिन जो कहते हैं कि "... ओएलएस का उल्लंघन करता है" भी उचित हैं: ऑर्डिनरी लिस्ट-स्क्वायर नाम गॉस से सीधे आता है और अनिवार्य रूप से सामान्य त्रुटियों को संदर्भित करता है । दूसरे शब्दों में "ओएलएस" कम से कम वर्गों के आकलन (जो कि अधिक सामान्य सिद्धांत और दृष्टिकोण है) के लिए एक संक्षिप्त रूप नहीं है, लेकिन सीएनएलआर का।

ठीक है, यह इतिहास, शब्दावली और शब्दार्थ था। मैं ओपी के प्रश्न के मूल को निम्न प्रकार से समझता हूं: "हमें आदर्श पर जोर क्यों देना चाहिए, अगर हमें मामले का समाधान नहीं मिला है जब वह मौजूद नहीं है?" (क्योंकि CNLR मान्यताओं हैं आदर्श, इस अर्थ में वे उत्कृष्ट कम से कम वर्ग आकलनकर्ता गुण "ऑफ-द-शेल्फ" प्रदान करते हैं कि, और asymptotic परिणाम का सहारा की जरूरत के बिना। यह भी याद रखें कि OLS अधिकतम संभावना जब त्रुटियों सामान्य हो रहा है )।

एक आदर्श के रूप में, यह शिक्षण शुरू करने के लिए एक अच्छी जगह है । यह वह है जो हम हमेशा किसी भी तरह के विषय को पढ़ाने में करते हैं: "सरल" स्थितियां "आदर्श" स्थितियां हैं, जो कि उन जटिलताओं से मुक्त है जो वास्तव में वास्तविक जीवन और वास्तविक अनुसंधान में सामना करेंगे, और जिसके लिए कोई निश्चित समाधान मौजूद नहीं है

और यह वही है जो मुझे ओपी के पद के बारे में समस्याग्रस्त लगता है: वह मजबूत मानक त्रुटियों और बूटस्ट्रैप के बारे में लिखते हैं जैसे कि वे "बेहतर विकल्प" हैं, या चर्चा के तहत उक्त मान्यताओं की कमी के लिए मूर्खतापूर्ण समाधान जिसके लिए ओपी लिखते हैं।

".. लोगों को मिलने की जरूरत नहीं है"

क्यों? क्योंकि स्थिति से निपटने के कुछ तरीके हैं , ऐसे तरीके जिनकी कुछ वैधता है, लेकिन वे आदर्श से बहुत दूर हैं? बूटस्ट्रैप और heteroskedasticity-मजबूत मानक त्रुटियां नहीं है समाधान -यदि वे वास्तव में थे, वे प्रभावी प्रतिमान बन जाते है |, CLR और CNLR इतिहास की पुस्तकों के लिए भेज दिया। लेकिन वे नहीं हैं।

इसलिए हम उन अनुमानों के सेट से शुरू करते हैं जो उन अनुमानक गुणों की गारंटी देते हैं जिन्हें हमने महत्वपूर्ण माना है (यह एक और चर्चा है कि क्या वांछनीय के रूप में निर्दिष्ट गुण वास्तव में हैं जो होना चाहिए), ताकि हम यह देखते रहें कि उनमें से कोई भी उल्लंघन है, इन मान्यताओं की अनुपस्थिति से निपटने के लिए हमने जो तरीके खोजे हैं, उनके परिणामों को पूरी तरह से ऑफसेट नहीं किया जा सकता है। यह वास्तव में खतरनाक होगा, वैज्ञानिक रूप से बोलना, इस भावना को व्यक्त करने के लिए कि "हम मामले की सच्चाई के लिए अपना रास्ता खोल सकते हैं" -क्योंकि, बस, हम नहीं कर सकते।

इसलिए, वे समस्या के लिए अपूर्ण समाधान बने रहते हैं , न कि विकल्प और / या निश्चित रूप से चीजों को करने का बेहतर तरीका। इसलिए, हमें पहले समस्या-मुक्त स्थिति को पढ़ाना है, फिर संभावित समस्याओं को इंगित करना है, और फिर संभावित समाधानों पर चर्चा करना है। अन्यथा, हम इन समाधानों को एक ऐसी स्थिति में बढ़ा देंगे, जो वास्तव में उनके पास नहीं है।


हम्म्म, अगर यही आपका मतलब था, तो आप "पूरी तरह से सिद्ध" कोशिश कर सकते हैं।
गूँग - मोनिका

@gung नहीं, नहीं, गणितीय अर्थ में विधियां "पूरी तरह से सिद्ध" हैं, लेकिन मूर्खतापूर्ण नहीं हैं जैसा कि वे वास्तव में क्या वितरित करते हैं (यह फिर से स्पर्शोन्मुख दवाओं के बारे में "और" उनका मूल्य क्या है)। आपका सुधार सही था।
एलेकोस पापाडोपोलोस

22

यदि हमारे पास उस कक्षा में समय था जहां हम बूटस्ट्रैपिंग और आपके द्वारा उल्लिखित अन्य तकनीकों (उनकी सभी मान्यताओं, नुकसान आदि) पर चर्चा करने के लिए प्रतिगमन मॉडल पेश करते हैं, तो मैं आपसे सहमत हूं कि सामान्यता के बारे में बात करना आवश्यक नहीं है और समलैंगिकता मान्यताओं। लेकिन वास्तव में, जब प्रतिगमन पहली बार पेश किया जाता है तो हमारे पास उन सभी अन्य चीजों के बारे में बात करने का समय नहीं होता है, इसलिए हम छात्रों को रूढ़िवादी होंगे और उन चीजों की जांच करेंगे जिनकी आवश्यकता नहीं है और एक सांख्यिकीविद से परामर्श करें (या अन्य आँकड़े लें वर्ग या 2 या 3, ...) जब धारण धारण नहीं करते हैं।

यदि आप छात्रों को बताते हैं कि उन मान्यताओं को कोई फर्क नहीं पड़ता है जब ... को छोड़कर, तो अधिकांश को केवल महत्वपूर्ण हिस्सा याद नहीं होगा और महत्वपूर्ण नहीं जब भागों।

यदि हमारे पास असमान रूपांतरों के साथ मामला है, तो हाँ हम अभी भी एक न्यूनतम वर्ग फिट कर सकते हैं, लेकिन क्या यह अभी भी "सर्वश्रेष्ठ" रेखा है? या उस मामले में लाइनों को फिट करने के बारे में अधिक अनुभव / प्रशिक्षण के साथ किसी से परामर्श करना बेहतर होगा। यहां तक ​​कि अगर हम कम से कम वर्गों की रेखा से खुश हैं, तो क्या हमें यह स्वीकार नहीं करना चाहिए कि भविष्यवाणियों में भविष्यवक्ता (ओं) के विभिन्न मूल्यों के लिए अलग-अलग गुण होंगे? इसलिए असमान भिन्नताओं के लिए जाँच करना बाद की व्याख्याओं के लिए अच्छा है, भले ही हमें परीक्षणों / अंतराल / आदि के लिए इसकी आवश्यकता न हो। कि हम उपयोग कर रहे हैं।


मैं समझती हूं और सराहना करती हूं कि आपका क्या कहना विशेष रूप से एक महत्वपूर्ण समय बाधा है। जब मैं अपने संस्थान में देखता हूं, तब होता है जब छात्र इन मान्यताओं के साथ संघर्ष करते हैं जो वे अक्सर आवश्यक परामर्श प्राप्त नहीं कर सकते हैं या नहीं कर सकते हैं। इसलिए वे फिटिंग मॉडल मान्यताओं के आधार पर परियोजनाओं का चयन करते हैं या शास्त्रीय मॉडल का अनुचित तरीके से उपयोग करते हुए मान्यताओं का उल्लंघन करते हैं। मेरा तर्क है कि अधिक मजबूत तकनीकों को पढ़ाने से, छात्रों को वहाँ विकल्पों में कम प्रतिबंधित किया जाएगा और इस प्रकार उन परियोजनाओं को आगे बढ़ाने के लिए सशक्त बनाया जाएगा जिनके बारे में वे वास्तव में भावुक हैं।
ज़ाचरी ब्लुमेनफेल्ड

13
आप हमेशा एक आदर्श मामले से शुरू करते हैं जब पढ़ाते हैं, तो सभी प्रकार की जटिलताओं में जाते हैं। पीएचडी स्तर के अर्थशास्त्र में वे सभी प्रकार के अजीब सामान सिखाते हैं, लेकिन वहां पहुंचने में समय लगता है। मुझे नहीं लगता कि यह शिक्षा की समस्या है कि ज्यादातर लोग एमएससी स्तर के आसपास कहीं ट्रेन से उतरते हैं। वास्तव में, मैं यह दावा करूंगा कि बड़ा मुद्दा आधे-पके हुए "डेटा वैज्ञानिकों" द्वारा किया गया कीट प्रकोप है, जो कि फैंसी आर पैकेजों को बाएँ और दाएँ लगाने वाले आँकड़ों की नींव के शून्य ज्ञान के पास है, वे क्या कर रहे हैं और इसके लिए संघर्ष नहीं कर रहे हैं आउटपुट की भावना बनाएं।
अक्कल

@ अक्सकल जहां आप वास्तव में बड़ी संख्या में ओवरकॉन्फिडेंट, अयोग्य विश्लेषकों को देखते हैं? क्योंकि मैं जो अक्सर सामना करता हूं, वह लगभग विपरीत होता है। लोग उन तकनीकों को आज़माने से डरते हैं जो उन्होंने सीखी हैं जब तक कि पहले किसी कथित विशेषज्ञ से स्वीकृति न दी जाए। बस इस साइट पर, मुझे यकीन है कि आपने "क्या मुझे अनुमति दी गई ..." या "क्या यह मान्य है ...." के प्रभाव के लिए कई प्रश्न देखे हैं जब एक अधिक अनुभवी / रचनात्मक प्रश्न होगा " क्या परिणाम होगा अगर .... "
rolando2

18

1) शायद ही कभी लोग केवल अनुमान लगाना चाहते हैं। आमतौर पर अनुमान - सीआई, पीआई, परीक्षण - इसका उद्देश्य या इसका कम से कम हिस्सा है (भले ही कभी-कभी यह अपेक्षाकृत अनौपचारिक रूप से किया जाता है)

2) गॉस मार्कोव प्रमेय जैसी चीजें जरूरी मदद नहीं हैं - यदि वितरण पर्याप्त रूप से सामान्य से दूर है, तो एक रैखिक अनुमानक बहुत अधिक उपयोग नहीं है। यदि कोई रैखिक अनुमानक बहुत अच्छा नहीं है तो BLUE प्राप्त करने का कोई मतलब नहीं है।

3) सैंडविच अनुमानक जैसी चीजों में बड़ी संख्या में निहित पैरामीटर होते हैं। यदि आपके पास बहुत अधिक डेटा है तो भी यह ठीक हो सकता है, लेकिन कई बार लोग ऐसा नहीं करते हैं।

4) प्रीडिक्शन अंतराल सशर्त वितरण के आकार पर निर्भर करता है, जिसमें अवलोकन पर विचरण पर एक अच्छा हैंडल शामिल है - आप काफी आसानी से एक पीआई के साथ विवरणों को दूर नहीं कर सकते हैं।

5) बूटस्ट्रैपिंग जैसी चीजें अक्सर बहुत बड़े नमूनों के लिए उपयोगी होती हैं। वे कभी-कभी छोटे नमूनों में संघर्ष करते हैं - और यहां तक ​​कि मामूली आकार के नमूनों में भी, अक्सर हम पाते हैं कि वास्तविक कवरेज गुण विज्ञापित की तरह कुछ भी नहीं हैं।

जो कहना है - कुछ चीजें रामबाण हैं लोग उन्हें पसंद करेंगे। उन सभी चीजों में अपना स्थान होता है, और निश्चित रूप से ऐसे बहुत सारे मामले होते हैं जहां (कहते हैं) सामान्यता की आवश्यकता नहीं होती है, और जहां अनुमान और अनुमान (परीक्षण और CI) सामान्य रूप से सामान्यता, निरंतर विचरण और इतने पर की आवश्यकता के बिना उचित रूप से किए जा सकते हैं।

एक बात जो अक्सर भूली हुई लगती है, वह दूसरी परिकल्पनाएं हैं जो इसके बजाय बनाई जा सकती हैं। अक्सर लोग एक काफी सभ्य पैरामीट्रिक धारणा बनाने के लिए एक स्थिति के बारे में पर्याप्त जानते हैं (जैसे कहते हैं ... कि सशर्त प्रतिक्रिया एसडी के साथ सही तिरछा होना बहुत आनुपातिक मतलब होगा कि हमें एक गामा या लॉगऑनॉर्मल मॉडल कहने पर विचार कर सकता है); अक्सर यह एक बार में दोनों विषमलैंगिकता और गैर-सामान्यता से निपट सकता है।

एक बहुत ही उपयोगी उपकरण अनुकरण है - इसके साथ हम अपने औजारों के गुणों की स्थितियों में जांच कर सकते हैं जैसे कि ऐसा प्रतीत होता है कि हमारा डेटा उत्पन्न हो सकता है, और इसलिए या तो उन्हें आराम से ज्ञान का उपयोग करें कि उनके पास उन मामलों में अच्छे गुण हैं ( या, कभी-कभी, देखें कि वे काम नहीं करते हैं और साथ ही हम आशा भी कर सकते हैं)।


"शायद ही कभी लोग केवल अनुमान लगाना चाहते हैं" - कॉर्पोरेट वित्त और अर्थशास्त्र में, लोग एक निश्चित चर के प्रभाव को छेड़ने के लिए बहुत अनुमान लगाते हैं। मैंने कई पत्रों को पढ़ा है, जहां लेखक आत्मविश्वास के अंतराल को नहीं देखते हैं, वे सामान्य मान्यताओं के तहत, महत्व को नोटिस करते हैं।
अक्षकाल

6
@ अक्षल ठीक है, हाँ, लेकिन अगर वे मानक त्रुटियों, या टी-वैल्यूज़, या पी-वैल्यूज़ आदि पर कोई ध्यान दे रहे हैं ... तो मेरी राय से वे न केवल अनुमान लगाना चाहते हैं। चाहे वे औपचारिक रूप से अंतराल का परीक्षण / निर्माण करें या न करें, उस तरह की उन अन्य चीजों को देखने के लिए - हालांकि अनौपचारिक रूप से - सार्थक होने के लिए, उन्हें पहले स्थान पर अर्थ रखना होगा।
Glen_b
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.