कई रैखिक प्रतिगमन में, मैं समझ सकता हूं कि अवशिष्ट और भविष्यवक्ताओं के बीच संबंध शून्य हैं, लेकिन अवशिष्ट और मानदंड चर के बीच अपेक्षित सहसंबंध क्या है? क्या यह शून्य या अत्यधिक सहसंबद्ध होने की उम्मीद है? इस का मतलब क्या है?
कई रैखिक प्रतिगमन में, मैं समझ सकता हूं कि अवशिष्ट और भविष्यवक्ताओं के बीच संबंध शून्य हैं, लेकिन अवशिष्ट और मानदंड चर के बीच अपेक्षित सहसंबंध क्या है? क्या यह शून्य या अत्यधिक सहसंबद्ध होने की उम्मीद है? इस का मतलब क्या है?
जवाबों:
प्रतिगमन मॉडल में:
सामान्य धारणा यह है कि , एक iid नमूना है। ऐसी धारणाओं के तहत कि और पास पूर्ण रैंक है, साधारण न्यूनतम वर्ग अनुमानक:मैं = 1 , । । । , n E x i u i = 0 E ( x i x ) i )
सुसंगत और asymptotically सामान्य है। एक अवशिष्ट और प्रतिक्रिया चर के बीच अपेक्षित सहसंयोजक है:
यदि हम आगे यह मान लेते हैं कि और , हम और उसके प्रतिगामी अवशेषों के बीच की गणना कर सकते हैं :ई ( यू 2 मैं | x 1 , । । । , X n ) = σ 2 y मैं
अब सहसंबंध प्राप्त करने के लिए हमें और गणना करने की आवश्यकता है । परिणाम यह निकलावार ( यू मैं )
इसलिये
अब शब्द आता है हैट मैट्रिक्स के विकर्ण से , जहां । मैट्रिक्स , बेरोजगार है, इसलिए यह निम्नलिखित संपत्ति को संतुष्ट करता है एच=एक्स( एक्स ' एक्स ) - 1 एक्स ' एक्स=[ एक्स मैं ,। । । , x N ] ′ एच
जहाँ का विकर्ण शब्द है । में रैखिक स्वतंत्र चर की संख्या है , जो आमतौर पर चर की संख्या है। इसे हम कहते हैं । की संख्या नमूना आकार । तो हमारे पास nonnegative शब्द हैं जो तक के योग होने चाहिए । आमतौर पर , से बहुत बड़ा होता है , इसलिए बहुत से शून्य के करीब होंगे, जिसका अर्थ है कि अवशिष्ट और प्रतिक्रिया चर के बीच का संबंध टिप्पणियों के बड़े हिस्से के लिए 1 के करीब होगा।
प्रभावशाली टिप्पणियों के निर्धारण के लिए विभिन्न प्रतिगमन डायग्नोस्टिक्स में शब्द का उपयोग किया जाता है।
सहसंबंध पर निर्भर करता है । यदि अधिक है, तो इसका मतलब है कि आपके आश्रित चर में बहुत भिन्नता को आपके स्वतंत्र चर में भिन्नता के लिए जिम्मेदार ठहराया जा सकता है, न कि आपकी त्रुटि अवधि को।
हालाँकि, यदि कम है, तो इसका मतलब है कि आपके आश्रित चर में भिन्नता आपके स्वतंत्र चर में भिन्नता से असंबंधित है, और इस प्रकार त्रुटि शब्द से संबंधित होना चाहिए।
निम्नलिखित मॉडल पर विचार करें:
, जहां और असंबंधित हैं।
सीएलटी धारण करने के लिए पर्याप्त नियमितता शर्तों को मानते हुए।
X और Y के असंबंधित होने के बाद से परिवर्तित हो जाएगा । इसलिए Y = एक्स β हमेशा शून्य हो जाएगा। इस प्रकार, ε : = वाई - वाई = वाई - 0 = वाई । ε और वाई पूरी तरह से सहसंबद्ध होते हैं !!!
अन्य सभी को निश्चित रखते हुए, को बढ़ाने से त्रुटि पर निर्भरता के बीच संबंध कम हो जाएगा। अलार्म के लिए एक मजबूत सहसंबंध जरूरी नहीं है। इसका मतलब यह हो सकता है कि अंतर्निहित प्रक्रिया शोर है। हालांकि, एक कम आर 2 (और इसलिए त्रुटि और आश्रित के बीच उच्च सहसंबंध) मॉडल गलतकरण के कारण हो सकता है।
मुझे लगता है कि यह विषय काफी दिलचस्प है और वर्तमान उत्तर दुर्भाग्य से अपूर्ण या आंशिक रूप से भ्रामक हैं - इस प्रश्न की प्रासंगिकता और उच्च लोकप्रियता के बावजूद।
शास्त्रीय OLS ढांचे की परिभाषा के अनुसार होना चाहिए के बीच कोई रिश्ता और यू के बाद से बच प्राप्त साथ असहसंबद्ध निर्माण प्रति कर रहे हैं, OLS आकलनकर्ता पाने। Homoskedasticity के तहत संपत्ति को कम करने वाला विचरण यह सुनिश्चित करता है कि अवशिष्ट त्रुटि बेतरतीब ढंग से फिट किए गए मूल्यों के आसपास फैली हुई है। इसे औपचारिक रूप से दिखाया जा सकता है:
= पी σ 2 - पी σ 2 = 0
कहाँ और पी : idempotent मैट्रिक्स के रूप में परिभाषित कर रहे हैं पी = एक्स ( एक्स ' एक्स ) एक्स ' और एम = मैं - पी ।
यह परिणाम सख्त अतिशयोक्ति और समरूपता पर आधारित है, और व्यावहारिक रूप से बड़े नमूनों में है। उनके uncorrelatedness के लिए अंतर्ज्ञान निम्नलिखित है: फिट मान पर सशर्त एक्स के आसपास केंद्रित कर रहे हैं यू , जो के रूप में लगा रहे हैं स्वतंत्र रूप से और हूबहू वितरित किए। हालांकि, सख्त exogeneity और homoskedasticity धारणा से कोई विचलन व्याख्यात्मक चर अंतर्जात होने का कारण बन और के बीच एक अव्यक्त सहसंबंध को प्रोत्साहित कर सकता है यू और y ।
अब बच के बीच संबंध "मूल" y एक पूरी तरह से अलग कहानी है:
कुछ सिद्धांत में जाँच और हम जानते हैं कि इस सहप्रसरण मैट्रिक्स अवशिष्ट की सहप्रसरण मैट्रिक्स के समान है यू ही (सबूत छोड़े गए)। हमारे पास है:
हम दोनों के बीच (अदिश) सहप्रसरण गणना करने के लिए चाहते हैं, तो और यू के रूप में ओ पी से अनुरोध किया है, हम प्राप्त:
(= सहसंयोजक मैट्रिक्स के विकर्ण प्रविष्टियों के योग और एन द्वारा विभाजित)
उपरोक्त सूत्र एक दिलचस्प बिंदु इंगित करता है। हम regressing द्वारा संबंध का परीक्षण तो बच पर यू (+ निरंतर), ढलान गुणांक β यू , y = 1 , जो आसानी से प्राप्त किया जा सकता है जब हम से ऊपर अभिव्यक्ति विभाजित वार ( यू | एक्स ) ।
दूसरी ओर, सहसंबंध संबंधित मानक विचलन द्वारा मानकीकृत सहसंयोजक है। अब, बच के विचरण मैट्रिक्स है , जबकि के विचरण y है σ 2 मैं । सहसंबंध Corr ( y , यू ) इसलिए हो जाता है:
यह मुख्य परिणाम है जो एक रैखिक प्रतिगमन में पकड़ना चाहिए। अंतर्ज्ञान है कि है त्रुटि अवधि का सच विचरण और विचरण बच के आधार पर के लिए एक प्रॉक्सी के बीच त्रुटि व्यक्त करता है। सूचना है कि विचरण y के विचरण के बराबर है y प्लस बच के विचरण यू । तो यह अधिक सहज रूप से फिर से लिखा जा सकता है:
काम पर यहां दो ताकतें हैं। अगर हम प्रतिगमन लाइन का एक बड़ा फिट है, सह-संबंध की वजह से कम होने की उम्मीद है । दूसरी ओर, वार ( y ) के रूप में यह बिना शर्त है और पैरामीटर अंतरिक्ष में एक पंक्ति सम्मान करने के लिए एक फ़ज का एक सा है। एक अनुपात के भीतर बिना शर्त और सशर्त रूपांतरों की तुलना करना सब के बाद एक उपयुक्त संकेतक नहीं हो सकता है। शायद, यही कारण है कि यह शायद ही कभी अभ्यास में किया जाता है।
एक प्रयास प्रश्न निष्कर्ष: के बीच संबंध और यू सकारात्मक है और बच के विचरण और सच त्रुटि अवधि के विचरण के अनुपात, में बिना शर्त विचरण द्वारा प्रॉक्सी से संबंधित है y । इसलिए, यह एक भ्रामक संकेतक है।
होते हुए भी इस अभ्यास हमें कामकाज और एक OLS प्रतिगमन के निहित सैद्धांतिक मान्यताओं पर कुछ अंतर्ज्ञान दे सकता है, हम शायद ही कभी के बीच संबंध का मूल्यांकन और यू । सही त्रुटि शब्द के गुणों की जाँच के लिए निश्चित रूप से अधिक स्थापित परीक्षण हैं। दूसरी बात यह है कि बच त्रुटि अवधि नहीं हैं, और बच गया पर परीक्षण को ध्यान में रखना यू सच त्रुटि अवधि पर विशेषताओं की है कि मेकअप भविष्यवाणियों यू सीमित हैं और उनकी वैधता की जरूरत अत्यंत सावधानी से नियंत्रित किया जा करने के लिए।
उदाहरण के लिए, मैं यहां पिछले पोस्टर द्वारा दिए गए एक बयान को इंगित करना चाहूंगा। ऐसा कहा जाता है कि,
"यदि आपके अवशेषों को आपके स्वतंत्र चर के साथ सहसंबद्ध किया जाता है, तो आपका मॉडल हेटेरोसेडस्टिक है ..."
मुझे लगता है कि इस संदर्भ में पूरी तरह से मान्य नहीं हो सकता है। मानो या न मानो, लेकिन OLS बच निर्माण से कर रहे हैं स्वतंत्र चर के साथ असहसंबद्ध जा करने के लिए किए गए एक्स कश्मीर । इसे देखने के लिए, विचार करें:
= एक्स ' y - एक्स ' एक्स ( एक्स ' एक्स ) एक्स ' y = एक्स ' y - एक्स ' य = ०
हालाँकि, आपने दावे सुने होंगे कि एक व्याख्यात्मक चर त्रुटि शब्द के साथ संबद्ध है । ध्यान दें कि इस तरह के दावे एक सच्चे अंतर्निहित प्रतिगमन मॉडल के साथ पूरी आबादी के बारे में मान्यताओं पर आधारित हैं , कि हम पहले हाथ का निरीक्षण नहीं करते हैं। नतीजतन, के बीच संबंध की जाँच और यू एक रेखीय OLS ढांचे में व्यर्थ लगता है। हालांकि, जब के लिए परीक्षण heteroskedasticity , हम यहाँ खाते में दूसरा सशर्त क्षण ले, उदाहरण के लिए, हम पर वर्ग बच निकासी एक्स या के एक समारोह एक्स, जैसा कि अक्सर एफजीएसएल अनुमानकों के साथ होता है। यह सादे सहसंबंध के मूल्यांकन से अलग है। मुझे उम्मीद है कि इससे मामलों को और अधिक स्पष्ट करने में मदद मिलेगी।
आदम का जवाब गलत है। यहां तक कि एक मॉडल के साथ जो डेटा को पूरी तरह से फिट करता है, फिर भी आप अवशिष्ट और निर्भर चर के बीच उच्च सहसंबंध प्राप्त कर सकते हैं। यही कारण है कि कोई प्रतिगमन पुस्तक आपको इस सहसंबंध की जांच करने के लिए नहीं कहती है। आप डॉ। ड्रेपर की "एप्लाइड रिग्रेशन एनालिसिस" पुस्तक पर उत्तर पा सकते हैं।
तो, अवशिष्ट आपके अस्पष्टीकृत विचरण हैं, आपके मॉडल की भविष्यवाणियों और आपके द्वारा मॉडलिंग किए जाने वाले वास्तविक परिणाम के बीच का अंतर। व्यवहार में, रैखिक प्रतिगमन के माध्यम से उत्पादित कुछ मॉडल शून्य के करीब सभी अवशिष्ट होंगे जब तक कि एक यांत्रिक या निश्चित प्रक्रिया का विश्लेषण करने के लिए रैखिक प्रतिगमन का उपयोग नहीं किया जा रहा हो।
आदर्श रूप से, आपके मॉडल से अवशिष्ट यादृच्छिक होना चाहिए, जिसका अर्थ है कि उन्हें आपके स्वतंत्र या निर्भर चर (जिसे आप मानदंड चर कहते हैं) के साथ संबंध नहीं होना चाहिए। रैखिक प्रतिगमन में, आपका त्रुटि शब्द सामान्य रूप से वितरित किया जाता है, इसलिए आपके अवशेषों को भी सामान्य रूप से वितरित किया जाना चाहिए। यदि आपके पास महत्वपूर्ण आउटलेयर हैं, या यदि आपके अवशेषों पर आपके आश्रित चर या आपके स्वतंत्र चर के साथ संबंध हैं, तो आपको अपने मॉडल के साथ समस्या है।
यदि आपके पास महत्वपूर्ण अवशेष हैं और आपके अवशेषों का गैर-सामान्य वितरण है, तो आउटलेयर आपके वजन (बेतास) को तिरछा कर सकते हैं, और मैं आपके वजन पर आपके अवलोकन के प्रभाव की जांच करने के लिए DFBETAS की गणना करने का सुझाव दूंगा। यदि आपके अवशेषों को आपके आश्रित चर के साथ सहसंबद्ध किया जाता है, तो काफी मात्रा में अस्पष्टीकृत विचरण होता है, जिसका आप हिसाब नहीं लगा रहे हैं। यदि आप एक ही चीज़ के बार-बार अवलोकन का विश्लेषण कर रहे हैं, तो आप इसे देख सकते हैं। यह देखने के लिए जाँच की जा सकती है कि क्या आपके अवशेष आपके समय या सूचकांक चर के साथ सहसंबद्ध हैं। यदि आपके अवशेषों को आपके स्वतंत्र चर के साथ सहसंबद्ध किया जाता है, तो आपका मॉडल विषमलैंगिक है (देखें: http://en.wikipedia.org/wiki/Heteroscedasticity)। यदि आपके इनपुट चर सामान्य रूप से वितरित किए जाते हैं, तो आपको जांच (अगर आपने पहले से नहीं की है), और यदि नहीं, तो आपको इसे और अधिक बनाने के लिए अपने डेटा को स्केल करना या बदलना (सबसे सामान्य प्रकार लॉग और स्क्वायर-रूट हैं) पर विचार करना चाहिए। सामान्यीकृत।
दोनों के मामले में, आपके अवशेष, और आपके स्वतंत्र चर, आपको एक क्यूक्यू-प्लॉट लेना चाहिए, साथ ही एक कोलमोगोरोव-स्मिरनोव परीक्षण करना चाहिए (यह विशेष कार्यान्वयन कभी-कभी लिलिफ़ोर टेस्ट के रूप में संदर्भित किया जाता है) यह सुनिश्चित करने के लिए कि आपके मान एक सामान्य वितरण फिट।
तीन चीजें जो त्वरित हैं और इस समस्या से निपटने में मददगार हो सकती हैं, आपके अवशेषों के मध्यिका की जांच कर रही हैं, यह यथासंभव शून्य के करीब होना चाहिए (त्रुटि शब्द फिट होने के परिणामस्वरूप माध्य लगभग हमेशा शून्य होगा। रैखिक प्रतिगमन में), आपके अवशेषों में ऑटोकॉर्पलेशन के लिए एक डर्बिन-वाटसन परीक्षण (विशेषकर जैसा कि मैंने पहले उल्लेख किया है, यदि आप एक ही चीजों के कई अवलोकनों को देख रहे हैं), और एक आंशिक अवशिष्ट भूखंड का प्रदर्शन करने से विषमलैंगिकता और आउटलेयर की तलाश में मदद मिलेगी।