प्रतिगमन: समग्र बच की क्यों परीक्षण सामान्य के बजाय बच पर सशर्त


10

मैं समझता हूं कि रैखिक प्रतिगमन में त्रुटियों को सामान्य रूप से वितरित माना जाता है, y के अनुमानित मूल्य पर सशर्त। तब हम अवशिष्टों को त्रुटियों के लिए एक प्रकार के प्रॉक्सी के रूप में देखते हैं।

अक्सर इस तरह से आउटपुट जेनरेट करने की सिफारिश की जाती है यहां छवि विवरण दर्ज करें:। हालाँकि, मुझे यह समझ में नहीं आता है कि प्रत्येक डेटा बिंदु के लिए अवशिष्ट प्राप्त करने का बिंदु क्या है और एक ही भूखंड में एक साथ मिलाना।

मैं समझता हूं कि हमारे पास प्रत्येक अनुमानित मूल्य पर सामान्य अवशिष्ट हैं या नहीं, इसका सही आकलन करने के लिए हमारे पास पर्याप्त डेटा बिंदु होने की संभावना नहीं है।

हालाँकि, यह सवाल नहीं है कि क्या हमारे पास सामान्य अवशिष्ट कुल मिलाकर एक अलग है, और एक जो स्पष्ट रूप से y के प्रत्येक अनुमानित मूल्य पर सामान्य अवशिष्ट के मॉडल की धारणा से संबंधित नहीं है? क्या हम समग्र रूप से अवशिष्ट होने के बावजूद, y के प्रत्येक अनुमानित मूल्य पर सामान्य अवशिष्ट नहीं रख सकते थे?


1
अवधारणा के लिए कुछ योग्यता हो सकती है - शायद बूटस्ट्रैपिंग यहां मदद कर सकती है (अवशेषों की प्रतिकृति प्राप्त करने के लिए)
प्रायिकतालोगिक

2
क्या आप रैखिक प्रतिगमन के लिए एक संदर्भ दे सकते हैं त्रुटियों को सामान्य रूप से वितरित माना जाता है, y की अनुमानित मूल्य पर सशर्त (यदि आपके पास कोई है)?
रिचर्ड हार्डी

प्रश्न पोस्ट करते समय मेरे पास कोई विशेष स्रोत नहीं था, लेकिन कैसे "मॉडलिंग की धारणा के बारे में है कि प्रतिक्रिया चर को सामान्य रूप से प्रतिगमन रेखा (जो सशर्त माध्य का अनुमान है) के आसपास वितरित किया जाता है, निरंतर विचरण के साथ" से यहाँ । अगर मैं इस बारे में गलत हूं तो आगे की प्रतिक्रिया का स्वागत करूंगा।
user1205901 - मोनिका

जवाबों:


17

क्या हम समग्र रूप से अवशिष्ट होने के बावजूद, y के प्रत्येक अनुमानित मूल्य पर सामान्य अवशिष्ट नहीं रख सकते थे?

नहीं - कम से कम, मानक धारणा के तहत नहीं कि त्रुटियों का विचरण स्थिर है।

आप सामान्य अवशिष्टों के मिश्रण के रूप में समग्र अवशेषों के वितरण के बारे में सोच सकते हैं (प्रत्येक स्तर के लिए )। धारणा के अनुसार, इन सभी सामान्य वितरणों का मतलब (0) और समान रूपांतर होता है। इस प्रकार, मानदंडों के इस मिश्रण का वितरण केवल एक सामान्य वितरण है।y^

तो इस से हम थोड़ा सा सिस्टोलिज़्म बना सकते हैं। यदि भविष्यवक्ता एक्स के मूल्यों को दिए गए व्यक्तिगत वितरण सामान्य हैं (और उनके संस्करण समान हैं), तो समग्र अवशिष्टों का वितरण सामान्य है। इसलिए अगर हम देखें कि समग्र अवशिष्टों का वितरण स्पष्ट रूप से सामान्य नहीं है, तो इसका मतलब है कि एक्स दिए गए वितरण समान गठबंधन के साथ सामान्य नहीं हैं। जो मानक मान्यताओं का उल्लंघन है।


1
@ जेक_वेस्टफॉल, मुझे उस पर यकीन नहीं है। हम जानते हैं कि संयुक्त गाऊसी वितरण वाले चर का एक परिमित रैखिक संयोजन गौसियन वितरण है। लेकिन एक अनंत संयोजन के बारे में क्या ? दूसरे शब्दों में, । उस , तो को सामान्य क्यों होना चाहिए ? यह पर निर्भर करेगा । ध्यान दें कि चूंकि , कंडीशनिंग ऑन या वास्तव में कुछ भी नहीं बदलता है। पी ( ε | x ) पी ( ε ) पी ( एक्स ) y = β 0 + β 1 एक्स y एक्सp(ϵ)=p(ϵ|x)p(x)dxp(ϵ|x)p(ϵ)p(x)y^=β0+β1Xy^X
डेल्टाविले

क्या यह कहना उचित है कि गैर-सामान्य मार्जिन हमें गैर-सामान्य सशर्त "अस्वीकार" करने की अनुमति देते हैं, लेकिन सामान्य मार्जिन हमें सामान्य सशर्त "स्वीकार" करने की अनुमति नहीं देते हैं?
छायाकार

6
p(ϵ|x)=p(ϵ)p(ϵ)N(0,σ2)N(0,σ2)
बिल

1
ε | XN(0,σ2)εN(0,σ2)

@ssdecontrol उत्तर से: " यदि भविष्यवाणियों में दिए गए व्यक्तिगत एक्सप्रेशर X के मान सामान्य हैं (और उनके संस्करण समान हैं), तो समग्र अवशिष्टों का वितरण सामान्य है। मुझे यकीन नहीं है कि मैं कितना अधिक स्पष्ट हो सकता हूं?"
जेक वेस्टफॉल

3

कहा गया हैy (OLS) में साधारण कम से कम वर्ग रेखीय निष्पक्ष अनुमानकर्ताओं की श्रेणी में इष्टतम है जब त्रुटियां समरूपता और क्रमिक रूप से असंबद्ध हैं। होमोसिस्टैस्टिक अवशिष्टों के बारे में, अवशिष्टों का विचरण वही स्वतंत्र होता है जहां हम एक्स-अक्ष पर अवशिष्ट परिमाण की भिन्नता को मापेंगे। उदाहरण के लिए, मान लीजिए कि हमारे मान की त्रुटि बढ़ती हुई y- मानों के लिए आनुपातिक रूप से बढ़ जाती है। हम फिर प्रतिगमन करने से पहले उन y- मूल्यों का लघुगणक ले सकते हैं। यदि ऐसा किया जाता है, तो एक लघुगणक लेने के बिना आनुपातिक त्रुटि मॉडल को फिट करने की तुलना में फिट की गुणवत्ता बढ़ जाती है। सामान्य रूप से समरूपता प्राप्त करने के लिए, हमें वाई या एक्स-एक्सिस डेटा, लॉगरिदम (एस), वर्ग या वर्गमूल के पारस्परिक को लेना होगा, या एक घातांक को लागू करना होगा। इसका एक विकल्प यह है कि वेटिंग फ़ंक्शन का उपयोग किया जाए,(y-नमूना)2y2(y-नमूना)2

इतना कहने के बाद, यह अक्सर होता है कि अवशिष्टों को अधिक समरूप बनाने से उन्हें अधिक सामान्य रूप से वितरित किया जाता है, लेकिन अक्सर, होमोसैडैस्टिक संपत्ति अधिक महत्वपूर्ण होती है। यह उत्तरार्द्ध इस बात पर निर्भर करेगा कि हम प्रतिगमन क्यों कर रहे हैं। उदाहरण के लिए, यदि लॉगरिथम लेने से डेटा का वर्गमूल सामान्य रूप से वितरित किया जाता है, लेकिन त्रुटि आनुपातिक प्रकार है, तो आबादी या माप के बीच अंतर का पता लगाने के लिए लॉगरिदम का टी-परीक्षण उपयोगी होगा, लेकिन अपेक्षित नहीं। मूल्य हमें डेटा के वर्गमूल का उपयोग करना चाहिए, क्योंकि डेटा का केवल वर्गमूल एक सममित वितरण है जिसके लिए माध्य, मोड और माध्य समान होने की उम्मीद है।

इसके अलावा, यह अक्सर होता है कि हम ऐसा उत्तर नहीं चाहते हैं जो हमें y- अक्ष मानों के कम से कम त्रुटि पूर्वसूचक देता हो, और वे प्रतिगमन भारी पक्षपातपूर्ण हो सकते हैं। उदाहरण के लिए, कभी-कभी हम x में कम से कम त्रुटि को पुनः प्राप्त करना चाह सकते हैं। या कभी-कभी हम y और x के बीच के संबंध को उजागर करना चाहते हैं, जो तब एक नियमित प्रतिगमन समस्या नहीं है। इसके बाद हम x और y न्यूनतम त्रुटि प्रतिगमन के बीच एक सरल समझौता के रूप में Theil, यानी, माध्य ढलान, प्रतिगमन का उपयोग कर सकते हैं। या यदि हम जानते हैं कि x और y दोनों के लिए दोहराए जाने वाले उपायों का विचलन क्या है, तो हम डेमिंग प्रतिगमन का उपयोग कर सकते हैं। जब हमारे पास आउटलेरर्स हैं, जो सामान्य प्रतिगमन परिणामों के लिए भयानक चीजें करते हैं, तो आईएल रिग्रेशन बेहतर होता है। और, मध्ययुगीन ढलान प्रतिगमन के लिए, यह बहुत कम मायने रखता है कि अवशेषों को सामान्य रूप से वितरित किया जाता है या नहीं।

BTW, अवशिष्टों की सामान्यता हमें कोई उपयोगी रेखीय प्रतिगमन जानकारी नहीं देती है।उदाहरण के लिए, मान लें कि हम दो स्वतंत्र मापों का दोहराव कर रहे हैं। चूंकि हमारे पास स्वतंत्रता है, अपेक्षित सहसंबंध शून्य है, और प्रतिगमन रेखा ढलान तब कोई यादृच्छिक संख्या हो सकती है जिसमें कोई उपयोगी ढलान नहीं है। हम स्थान का अनुमान लगाने के लिए माप दोहराते हैं, अर्थात, (या माध्य (एक चोटी के साथ कॉची या बीटा वितरण) या आम तौर पर किसी आबादी का अपेक्षित मूल्य), और उससे x और एक विचरण में गणना करने के लिए। y में, जो तब डेमिंग प्रतिगमन, या जो कुछ भी हो, के लिए इस्तेमाल किया जा सकता है। इसके अलावा, यह धारणा कि सुपरपोजिशन इसलिए सामान्य है कि अगर मूल आबादी सामान्य है, तो यह हमारे लिए उपयोगी रेखीय प्रतिगमन नहीं है। इसे और आगे ले जाने के लिए, मान लीजिए कि मैं तब शुरुआती मापदंडों को बदलता हूं और अलग-अलग मोंटे कार्लो एक्स और वाई-वैल्यू फ़ंक्शन जनरेट करने वाले स्थानों के साथ एक नया माप स्थापित करता हूं और उस डेटा को पहले रन से टकराता हूं। तब अवशिष्ट हर x- मान पर y- दिशा में सामान्य होते हैं, लेकिन, x-दिशा में, हिस्टोग्राम में दो चोटियाँ होंगी, जो OLS मान्यताओं से सहमत नहीं होती हैं, और हमारा ढलान और अवरोधक पक्षपाती होगा क्योंकि एक एक्स-अक्ष पर समान अंतराल डेटा नहीं है। हालांकि, कोलाज किए गए डेटा के प्रतिगमन में अब एक निश्चित ढलान और अवरोधन है, जबकि यह पहले नहीं था। इसके अलावा, क्योंकि हम केवल दोहराव के नमूने के साथ दो बिंदुओं का परीक्षण कर रहे हैं, हम रैखिकता के लिए परीक्षण नहीं कर सकते हैं। वास्तव में, सहसंबंध गुणांक एक ही कारण के लिए एक विश्वसनीय माप नहीं होगा,

इसके विपरीत, यह कभी-कभी अतिरिक्त रूप से माना जाता है कि त्रुटियों को रजिस्टरों पर सामान्य वितरण की स्थिति है। ओएलएस पद्धति की वैधता के लिए इस धारणा की आवश्यकता नहीं है, हालांकि कुछ अतिरिक्त परिमित-नमूना गुणों को उस स्थिति में स्थापित किया जा सकता है जब यह करता है (विशेषकर परिकल्पना परीक्षण के क्षेत्र में), यहां देखें। जब ओएलएस फिर हां सही प्रतिगमन में है? यदि, उदाहरण के लिए, हम एक ही समय में हर दिन बंद होने पर स्टॉक की कीमतों का माप लेते हैं, तो कोई टी-एक्सिस (थिंक एक्स-एक्सिस) संस्करण नहीं है। हालांकि, अंतिम व्यापार (निपटान) का समय बेतरतीब ढंग से वितरित किया जाएगा, और चर के बीच के संबंध को खोजने के लिए प्रतिगमन दोनों चर को शामिल करना होगा। उस परिस्थिति में, y में ओएलएस केवल y- मूल्य में कम से कम त्रुटि का अनुमान लगाएगा, जो कि निपटान के लिए ट्रेडिंग मूल्य को एक्सट्रपलेशन करने के लिए एक खराब विकल्प होगा, क्योंकि उस निपटान के समय की भी खुद को भविष्यवाणी करने की आवश्यकता होती है। इसके अलावा, सामान्य रूप से वितरित त्रुटि एक गामा मूल्य निर्धारण मॉडल से नीच हो सकती है ।

उससे क्या फ़र्क पड़ता है? खैर, कुछ स्टॉक एक मिनट में कई बार व्यापार करते हैं और अन्य हर दिन या यहां तक ​​कि हर हफ्ते व्यापार नहीं करते हैं, और यह एक बड़ा संख्यात्मक अंतर बना सकता है। इसलिए यह निर्भर करता है कि हम किस जानकारी की इच्छा रखते हैं। यदि हम यह पूछना चाहते हैं कि बाजार बंद होने पर कल कैसा व्यवहार करेगा, यह एक ओएलएस "प्रकार" प्रश्न है, लेकिन, इसका जवाब अशुभ, गैर-सामान्य अवशिष्ट हो सकता है और एक फिट फ़ंक्शन की आवश्यकता होनी चाहिए जिसमें आकृति गुणांक हो जो एक्सट्रैक्शन के लिए सही वक्रता स्थापित करने के लिए डेरिवेटिव फिट (और / या उच्चतर क्षण) से सहमत हों। । (उदाहरण के लिए क्यूबिक स्प्लिन का उपयोग करके एक व्यक्ति डेरिवेटिव के साथ-साथ एक फ़ंक्शन को भी फिट कर सकता है, इसलिए व्युत्पन्न समझौते की अवधारणा को आश्चर्य के रूप में नहीं आना चाहिए, भले ही यह शायद ही कभी पता लगाया गया हो।) यदि हम जानना चाहते हैं कि क्या हम पैसे कमाएंगे या नहीं। किसी विशेष स्टॉक पर, तब हम ओएलएस का उपयोग नहीं करते हैं, क्योंकि समस्या तब होती है।


1
क्या आप कहेंगे कि सामान्यता पर्याप्त है लेकिन एक वैध निष्कर्ष के लिए आवश्यक नहीं है? केवल विशेष रूप से विषमलैंगिकता के लिए परीक्षण क्यों नहीं? निश्चित रूप से एक भारी-पूंछ वाला (उदाहरण के लिए) अवशिष्टों का सीमांत वितरण जरूरी नहीं है कि सशर्त सामान्यता धारणा गलत है, है ना? फिर भी भारी पूंछ वाले अवशेषों के डिजाइन से अवशेषों के लिए सामान्यता का परीक्षण विफल हो जाएगा।
छायाकार

टी-टेस्टिंग के लिए होमोसेक्शुअलिटी अक्सर अधिक महत्वपूर्ण होती है। आउटलेरर्स 1.359 एसडी बनाते हैं। IQR थेंस टी परीक्षण की शक्ति को कम करते हैं। फिर या तो पुनर्मूल्यांकन या विलकॉक्सन परीक्षण का प्रयास करें, जो बाद की परिस्थितियों में वितरण के प्रकार या विषमलैंगिकता की डिग्री की परवाह किए बिना अधिकांश परिस्थितियों में काम करता है (शायद आर> 0.9999) नहीं। वास्तव में, यदि कोई कई समान मापदंडों का परीक्षण कर रहा है, तो विलकॉक्सन या टी-परीक्षण कम और उच्च संभावनाओं को सुलझाने के लिए बेहतर काम करेगा, इसलिए डेटा स्वयं अक्सर घोषित करता है कि क्या अधिक उपयोगी है।
कार्ल

उस 1.349 एसडी >> IQR बनाओ। 1.349 एसडी की संख्या है जो एक सामान्य वितरण के लिए एक इंटरक्वेर्टाइल रेंज (IQR) है। कुछ वितरण, जैसे कॉची वितरण, या स्वतंत्रता के दो डिग्री के साथ एक छात्र के पास कोई एसडी नहीं है, आउटलेयर उसे मारते हैं, लेकिन उनके पास IQRs होते हैं, और फिर एक स्थान के परीक्षण के रूप में विलकॉक्सन या अन्य गैर-पैरामीट्रिक परीक्षण का उपयोग करता है।
कार्ल

आगे सोचा (उत्तर में नई सामग्री देखें) y- अक्ष अवशिष्ट की सामान्यता अच्छा है, लेकिन अपर्याप्त है।
कार्ल

भारी पूंछ वाले वितरण प्रतिगमन समीकरणों के लिए भयानक काम करते हैं। उदाहरण के लिए, यदि कोई डेटा सेट में सभी संभावित ढलानों की जांच करता है, तो आम तौर पर एक ढलान का एक काउची वितरण होता है, एकेए स्टूडेंट की स्वतंत्रता के एक डिग्री के साथ टी । कॉची वितरण के लिए, कोई क्षण नहीं हैं। अर्थात्, एक माध्य और मानक विचलन की गणना कर सकता है और जितना अधिक डेटा होगा, उतना अधिक अनिश्चित और माध्य और मानक विचलन बन जाएगा। कॉची वितरण का अपेक्षित मूल्य औसत है और गणना करने के लिए किसी को चरम मूल्यों को सेंसर करना होगा।
कार्ल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.