कम से कम वर्गों का अनुमान है


9

निम्नलिखित रैखिक संबंध मान लें: , जहां निर्भर चर है, एक एकल स्वतंत्र चर और त्रुटि शब्द।Yi=β0+β1Xi+uiYiXiui

स्टॉक एंड वॉटसन (इकोनोमेट्रिक्स का परिचय; अध्याय 4 ) के अनुसार, तीसरा सबसे कम वर्ग की धारणा यह है कि और के चौथे क्षण गैर-शून्य और परिमित हैं ।Xiui(0<E(Xi4)< and 0<E(ui4)<)

मेरे पास तीन प्रश्न हैं:

  1. मैं इस धारणा की भूमिका को पूरी तरह से नहीं समझता। क्या ओएलएस पक्षपाती और असंगत है यदि यह धारणा पकड़ में नहीं आती है या हमें अनुमान के लिए इस धारणा की आवश्यकता है?

  2. स्टॉक और वॉटसन लिखते हैं "यह धारणा या अत्यंत बड़े मूल्यों के साथ अवलोकन को चित्रित करने की संभावना को सीमित ।" हालांकि, मेरा अंतर्ज्ञान यह है कि यह धारणा चरम है। यदि हम बड़े आउटलेर्स हैं (जैसे कि चौथे क्षण बड़े हैं) तो क्या हम मुसीबत में हैं लेकिन अगर ये मूल्य अभी भी परिमित हैं? वैसे: अंतर्निहित परिभाषा क्या है?Xiui

  3. क्या हम इसे इस प्रकार से सुधार सकते हैं: " और का और परिमित हैं?"Xiui


दुर्भाग्य से, मैं अब पूरी तरह से जवाब नहीं लिख सकता, लेकिन आपको सवाल का जवाब देने के लिए: 1, ओएलएस संगतता काम करती है। 2, आउटलेर की कोई स्पष्ट परिभाषा मौजूद नहीं है, लेकिन ओएलएस आउटलेर्स की उपस्थिति में बड़े नमूने में ठीक काम करता है। 3, मेरे जीवन के लिए मैं एक ऐसे उदाहरण के बारे में नहीं सोच सकता जहां यह सच नहीं होगा, लेकिन कोई मुझे गलत साबित कर सकता है, इसलिए कोई गारंटी नहीं है
रेमतैट

5
मैं विवाद करता हूं "लेकिन ओएलएस आउटलेर्स की उपस्थिति में बड़े नमूने में ठीक काम करता है" ... एक्स-स्पेस (यानी एक प्रभावशाली अवलोकन) में एक बड़ा पर्याप्त बाहरी ले लो और एक बिंदु एलएस फिट को इसके माध्यम से जाने के लिए मजबूर कर सकता है; यदि यह Y- दिशा में भी एक बाहर की ओर है, तो भी आपकी रेखा अभी भी एक बिंदु पर जाएगी, चाहे वह कितना भी चरम हो।
Glen_b -Reinstate Monica

2
आउटलेयर को परिभाषित करना आसान है। वे डेटा के थोक के पैटर्न के साथ असंगत हैं। जैसा कि Glen_b द्वारा उदाहरण से पता चलता है, इस तरह के बिंदु का फिट पर प्रभाव होता है, सीमा में, डेटासेट में अन्य सभी अवलोकन की सीमा को पार करते हुए, अत्यधिक पक्षपाती अनुमानों के लिए अग्रणी होता है।
user603

1
@ user603 ज़रूर ... और इसलिए क्या ... मुझे अभी तक एक प्रोग्राम / स्क्रिप्ट का सामना करना पड़ा है जो स्वचालित रूप से आउटलेर्स का पता लगाता है और स्पष्ट तरीके से ऐसा करता है कि हम सभी सहमत हैं कि यह सही तरीका है ... इसलिए जब मैं आपकी भावना से सहमत हूं यह ओपी की सहायता नहीं करता है
दोहराएं

@ रिपेट: कृपया ओपी के प्रश्न को दोबारा पढ़ें। मेरी टिप्पणी सीधे उन वाक्यों में से एक का जवाब देती है जो प्रश्नवाचक चिन्ह द्वारा लगाए गए हैं।
user603

जवाबों:


9

आपको ओएलएस अनुमानक की स्थिरता के लिए 4 वें क्षणों पर मान्यताओं की आवश्यकता नहीं है, लेकिन आपको एसिम्प्टोटिक सामान्यता के लिए और उच्च क्षणों पर मान्यताओं की आवश्यकता है और लगातार यह अनुमान लगाने के लिए कि असममित सहसंयोजक मैट्रिक्स क्या है।एक्सε

कुछ अर्थों में, यह एक गणितीय, तकनीकी बिंदु है, व्यावहारिक बिंदु नहीं है। OLS के लिए कुछ अर्थों में परिमित नमूनों में अच्छी तरह से काम करने के लिए, asymptotic स्थिरता या रूप में सामान्यता प्राप्त करने के लिए आवश्यक न्यूनतम मान्यताओं से अधिक की आवश्यकता होती है ।n

संगति के लिए पर्याप्त परिस्थितियाँ:

यदि आपके पास प्रतिगमन समीकरण है:

yमैं=एक्समैं'β+εमैं

OLS आकलनकर्ता रूप में लिखा जा सकता है: ^

^=β+(एक्स'एक्सn)-1(एक्स'εn)

के लिए स्थिरता , आप बड़े नंबर की Kolmogorov 's कानून लागू करने या धारावाहिक निर्भरता, कुछ कार्लिन और टेलर की ergodic प्रमेय की तरह इतना है कि साथ समय श्रृंखला के मामले में, करने में सक्षम होने की जरूरत है:

1nएक्स'एक्सपी[एक्समैंएक्समैं']1nएक्स'εपी[एक्समैं'εमैं]

अन्य मान्यताओं की आवश्यकता है:

  • [एक्समैंएक्समैं'] पूर्ण रैंक है और इसलिए मैट्रिक्स है।
  • प्रतिगमन पूर्वनिर्धारित या कड़ाई से बहिष्कृत होते हैं ताकि ।[एक्समैंεमैं]=0

तब और आपको(एक्स'एक्सn)-1(एक्स'εn)पी0^पीβ

यदि आप चाहते हैं कि केंद्रीय सीमा प्रमेय लागू हो, तो आपको उच्च क्षणों पर मान्यताओं की आवश्यकता होती है, उदाहरण के लिए, जहां । केंद्रीय सीमा प्रमेय वह है जो आपको सामान्यता प्रदान करता है और आपको मानक त्रुटियों के बारे में बात करने की अनुमति देता है। दूसरे क्षण के लिए को अस्तित्व में लिए, आपको अस्तित्व में आने के लिए और के चौथे क्षणों की आवश्यकता होती है। आप यह तर्क देना चाहते हैं कि जहां[जीमैंजीमैं']जीमैं=एक्समैंεमैं^[जीमैंजीमैं']एक्सεn(1nΣमैंएक्समैं'εमैं)एन(0,Σ)Σ=[एक्समैंएक्समैं'εमैं2] । इस काम के लिए, परिमित होना चाहिए।Σ

एक अच्छी चर्चा (जिसने इस पोस्ट को प्रेरित किया) हयाशी के अर्थमिति में दिया गया है । (4 पलों के लिए पी। 149 भी देखें और सहसंयोजक मैट्रिक्स का आकलन करें।)

चर्चा:

4 वें क्षण पर ये आवश्यकताएं व्यावहारिक बिंदु के बजाय संभवतः तकनीकी बिंदु हैं। आप शायद पैथोलॉजिकल डिस्ट्रीब्यूशन का सामना नहीं करने जा रहे हैं, जहां यह रोजमर्रा के आंकड़ों में एक समस्या है? यह ओआरएस की अधिक आम धारणा या अन्य धारणाओं के बारे में पता चलता है।

एक अलग सवाल, निस्संदेह स्टैकएक्सचेंज पर कहीं और जवाब दिया गया है, कि परिमित नमूनों के करीब पहुंचने के लिए आपको कितने नमूनों की आवश्यकता है। वहाँ कुछ समझदारी है जिसमें शानदार आउटलेर धीमी गति से अभिसरण का नेतृत्व करते हैं। उदाहरण के लिए, वास्तव में उच्च विचरण के साथ एक तार्किक वितरण के माध्य का अनुमान लगाने का प्रयास करें। नमूना मतलब जनसंख्या का एक सुसंगत, निष्पक्ष अनुमानक है, लेकिन पागल लॉग इन में सामान्य से अधिक कुरूपता आदि ... (लिंक का अनुसरण करें), परिमित नमूना परिणाम वास्तव में काफी बंद हैं।

परिमित बनाम अनंत गणित में एक बेहद महत्वपूर्ण अंतर है। यह वह समस्या नहीं है जिसका आप प्रतिदिन के आंकड़ों में सामना करते हैं। छोटी बनाम बड़ी श्रेणी में व्यावहारिक समस्याएं अधिक हैं। क्या विचरण, कुर्तोसिस आदि ... इतना छोटा है कि मैं अपने नमूना आकार को देखते हुए उचित अनुमान प्राप्त कर सकूं?

पैथोलॉजिकल उदाहरण जहां ओएलएस अनुमानक सुसंगत है लेकिन एसिम्पोटिक रूप से सामान्य नहीं है

विचार करें:

yमैं=एक्समैं+εमैं
जहाँ लेकिन को आज़ादी के 2 डिग्री के साथ एक टी-वितरण से तैयार किया जाता है, इस प्रकार । OLS अनुमान में संभाव्यता में परिवर्तित हो जाता है, लेकिन OLS अनुमान लिए नमूना वितरण सामान्य रूप से वितरित नहीं होता है। नीचे 10000 टिप्पणियों के साथ एक प्रतिगमन के 10000 सिमुलेशन पर आधारित लिए अनुभवजन्य वितरण है ।एक्समैं~एन(0,1)εमैंवीआर(εमैं)=^^आकलनकर्ता के लिए QQPlot (सामान्य वितरण में अभिसरण नहीं करता है)

का वितरण सामान्य नहीं है, पूंछ बहुत भारी हैं। लेकिन अगर आप स्वतंत्रता की डिग्री को 3 तक बढ़ा देते हैं ताकि दूसरा क्षण of मौजूद हो, तो केंद्रीय सीमा लागू होती है और आप: ^εमैंअनुमानक के लिए QQPlot (सामान्य में वितरण में धर्मान्तरित)

इसे उत्पन्न करने के लिए कोड:

beta = [-4; 3.7];
n = 1e5;    
n_sim = 10000;    
for s=1:n_sim
    X = [ones(n, 1), randn(n, 1)];  
    u  = trnd(2,n,1) / 100;
    y = X * beta + u;

    b(:,s) = X \ y;
end
b = b';
qqplot(b(:,2));

1
अच्छा उत्तर। लेकिन निम्नलिखित वास्तव में संदर्भ पर निर्भर करता है: आप रोजमर्रा के डेटा में गैर-मौजूद 4 क्षणों के साथ पैथोलॉजिकल वितरण का सामना करने वाले नहीं हैं। वित्तीय डेटा (वित्तीय परिसंपत्तियों पर लॉग-रिटर्न) आम तौर पर भारी-पूंछ के रूप में होते हैं, जो एक परिमित 4 वें पल नहीं होते हैं। इसलिए 4 वें पल की चिंता वहां बहुत वास्तविक है। (आप शायद इसे अपने दावे में एक माता-पिता के प्रतिरूप के रूप में जोड़ सकते हैं।) इसके अलावा, एक सवाल: आपके उदाहरण में, एक परिमित सामान्यता के बावजूद 4 वें पल नहीं होने के बावजूद क्यों विषमता उत्पन्न करता है ? टी(3)
रिचर्ड हार्डी

1
@RichardHardy आप जहां । आपको लगता है कि 4 पल की जरूरत है अस्तित्व के लिए, और मूल रूप में एक दूसरे क्षण है जब के साथ असहसंबद्ध है । n(1nΣमैंएक्समैंεमैं)एन(0,Σ)Σ=[एक्समैंएक्समैं'εमैं2]ΣΣεमैंεमैं2एक्समैंएक्समैं'
मैथ्यू गन

6
  1. यह एक पर्याप्त धारणा है, लेकिन न्यूनतम नहीं [1]। OLS इन शर्तों के तहत पक्षपाती नहीं है, यह सिर्फ असंगत है। ओएलएस के एसिम्प्टोटिक गुण तब टूट जाते हैं जब में बहुत बड़ा प्रभाव हो सकता है और / या यदि आप अत्यंत बड़े अवशिष्ट प्राप्त कर सकते हैं। आपको लिंडबर्ग फेलर केंद्रीय सीमा प्रमेय की एक औपचारिक प्रस्तुति का सामना नहीं करना पड़ा हो सकता है, लेकिन वह यही है कि वे चौथे क्षण की स्थितियों के साथ यहां संबोधित कर रहे हैं, और लिंडबर्ग स्थिति हमें मूल रूप से एक ही बात बताती है: कोई अतिशय प्रभाव अंक नहीं, कोई उच्च उत्तोलन नहीं अंक [२]।एक्स

  2. व्यावहारिक अनुप्रयोगों के लिए उबालने पर आंकड़ों के इन सैद्धांतिक आधारों में बहुत भ्रम होता है। एक बहिरंग की कोई परिभाषा नहीं है, यह एक सहज अवधारणा है। मोटे तौर पर इसे समझने के लिए, अवलोकन को एक उच्च उत्तोलन बिंदु या उच्च प्रभाव बिंदु होना होगा, जैसे कि एक जिसके लिए विलोपन निदान (DF बीटा) बहुत बड़ा है, या जिसके लिए भविष्यवक्ताओं में महालनोबिस दूरी बड़ी है (एकतरफा आँकड़े में) यह सिर्फ एक Z स्कोर है)। लेकिन चलो व्यावहारिक मामलों पर लौटते हैं: अगर मैं लोगों और उनकी घरेलू आय का यादृच्छिक सर्वेक्षण करता हूं, और 100 लोगों में से, जिन व्यक्तियों का मैं नमूना करता हूं, उनमें से 1 एक करोड़पति है, मेरा सबसे अच्छा अनुमान है कि करोड़पति 1% जनसंख्या के प्रतिनिधि हैं । एक बायोस्टैटिस्टिक्स व्याख्यान में, इन प्रिंसिपलों पर चर्चा की जाती है और इस बात पर जोर दिया जाता है कि कोई भी नैदानिक ​​उपकरण अनिवार्य रूप से खोजपूर्ण है [3]।नहीं यह है, "विश्लेषण जो शामिल नहीं बाहरी एक मेरा मानना है कि है", "दूर करने एक बिंदु पूरी तरह से अपने विश्लेषण बदल दिया है।"

  3. कर्टोसिस एक परिमाणित मात्रा है जो एक वितरण के दूसरे क्षण पर निर्भर करता है, लेकिन इन मूल्यों के लिए परिमित, गैर-शून्य संस्करण की धारणा मौन है क्योंकि इस संपत्ति को चौथे क्षण में पकड़ना असंभव है लेकिन दूसरे में नहीं। तो मूल रूप से हाँ, लेकिन कुल मिलाकर मैंने कभी भी कर्टोसिस या चौथे क्षणों का निरीक्षण नहीं किया। मैं उन्हें व्यावहारिक या सहज उपाय नहीं समझता। इस दिन जब किसी की उंगलियों के स्नैप द्वारा हिस्टोग्राम या स्कैटर प्लॉट का निर्माण किया जाता है, तो यह इन प्लॉटों का निरीक्षण करके हमें गुणात्मक ग्राफिकल डायग्नोस्टिक सांख्यिकी का उपयोग करने के लिए प्रेरित करता है।

[१] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied

[२] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818

[३] http://facademy.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html


जैसा कि पहले बताया जा चुका है , बाहरी लोगों के बारे में लोगों का अंतर्ज्ञान टूट जाता है जब उनमें से एक से अधिक होते हैं। वे जरूरी नहीं कि एक डीएफ बीटा प्लॉट में खड़े हों या बड़े जेड-स्कोर हों, क्योंकि ये आंकड़े खुद आउटलेर्स द्वारा बहाए जा सकते हैं। जैसा कि हमने पहले चर्चा की, आउटलेयर , अगर अनियंत्रित छोड़ दिया जाता है, तो पक्षपाती गुणांक पैदा करेगा जब तक कि आप उन्हें हटा नहीं देते हैं या उनके लिए एक अनुमान तकनीक का उपयोग नहीं करते हैं।
user603

1
मुझे लगता है कि आम तौर पर, जब राय व्यक्त करते हैं, तो आपके उत्तर प्रासंगिक साहित्य में संकेत सहित शामिल होंगे ताकि ओपी को पता चले कि इनमें से कौन सी राय व्यापक रूप से आयोजित की गई है।
user603

@ user603 आपकी पहली टिप्पणी के लिए, मैंने आउटफिटर्स की पहचान के लिए एक विशेष विधि के रूप में DFbetas (या किसी भी नैदानिक ​​उपकरण) को इंगित नहीं किया है , लेकिन निश्चित रूप से एक उपयोगी है। जब अर्ध-पैरामीट्रिक निष्कासन (माध्य मॉडल सही) का प्रदर्शन करते हैं, तो बाहरी लोग एलएस मॉडल का पक्षपात नहीं करते हैं, क्या आप गैर-पैरामीट्रिक एलएस के अलावा किसी भी मामले में एक संदर्भ या एक उदाहरण प्रस्तुत कर सकते हैं? आपकी दूसरी टिप्पणी एक अच्छी है, और मैं प्रशंसा पत्र की आपूर्ति करने के लिए अगले कई क्षण लूंगा।
एडमो

आपका कथन, "ओएलएस इन शर्तों के तहत पक्षपाती नहीं है, यह सिर्फ असंगत है" सही नहीं है। विषमतापूर्ण सामान्यता के लिए उच्च क्षणों की आवश्यकता होती है। उन्हें IID नमूनों में स्थिरता की आवश्यकता नहीं है जहां बड़ी संख्या में कोलमोगोरोव लॉ लागू होता है।
मैथ्यू गन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.