रैखिक प्रतिगमन में गुणांक मानक त्रुटियों की व्याख्या कैसे करें?


26

मैं सोच रहा हूं कि आर में प्रदर्शन फ़ंक्शन का उपयोग करते समय एक प्रतिगमन के गुणांक मानक त्रुटियों की व्याख्या कैसे करें।

निम्न आउटपुट में उदाहरण के लिए:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

क्या उच्चतर मानक त्रुटि का अधिक महत्व है?

इसके अलावा अवशिष्ट मानक विचलन के लिए, एक उच्च मूल्य का अर्थ है अधिक प्रसार, लेकिन आर स्क्वेर्ड एक बहुत करीबी फिट दिखाता है, क्या यह विरोधाभास नहीं है?

जवाबों:


52

नमूना अनुमान, जैसे नमूना माध्य या OLS प्रतिगमन गुणांक, नमूना आँकड़े हैं जिनका उपयोग हम संबंधित जनसंख्या मापदंडों के बारे में निष्कर्ष निकालने के लिए करते हैं। जनसंख्या पैरामीटर वे हैं जिनकी हम वास्तव में परवाह करते हैं, लेकिन क्योंकि हमारे पास पूरी आबादी तक पहुंच नहीं है (आमतौर पर अनंत माना जाता है), हमें इसके बजाय इस दृष्टिकोण का उपयोग करना चाहिए। हालांकि, कुछ असहज तथ्य हैं जो इस दृष्टिकोण के साथ आते हैं। उदाहरण के लिए, यदि हमने एक और नमूना लिया, और फिर से पैरामीटर का अनुमान लगाने के लिए आंकड़े की गणना की, तो हम लगभग निश्चित रूप से पाएंगे कि यह अलग है। इसके अलावा, न तो अनुमान सही पैरामीटर मान से मेल खाने की संभावना है जो हम जानना चाहते हैं। वास्तव में, अगर हमने ऐसा किया है और हमेशा के लिए नमूना और अनुमान जारी रखते हैं, हम पाएंगे कि विभिन्न अनुमान मूल्यों की सापेक्ष आवृत्ति ने प्रायिकता वितरण का अनुसरण किया है। केंद्रीय सीमा प्रमेय से पता चलता है कि यह वितरण सामान्य होने की संभावना है। हमें उस वितरण में अनिश्चितता की मात्रा निर्धारित करने का एक तरीका चाहिए। यही आपके लिए मानक त्रुटि है।

अपने उदाहरण में, आप जनसंख्या में X1 और y के बीच रैखिक संबंध के ढलान को जानना चाहते हैं, लेकिन आपके पास केवल आपके नमूने तक पहुंच है। आपके नमूने में, वह ढलान है .51, लेकिन यह जानने के बिना कि उसमें कितनी भिन्नता है, इसके अनुरूप नमूना वितरण है , यह जानना मुश्किल है कि उस नंबर का क्या बनाना है। मानक त्रुटि, .05 इस मामले में, उस नमूना वितरण का मानक विचलन है। महत्व की गणना करने के लिए, आप एसई द्वारा अनुमान को विभाजित करते हैं और तालिका में भागफल को देखते हैं। इस प्रकार, बड़े एसई का मतलब कम महत्व है।

अवशिष्ट मानक विचलन का आपके ढलानों के नमूना वितरण से कोई लेना-देना नहीं है। यह सिर्फ आपके मॉडल पर आपके नमूना सशर्त का मानक विचलन है। कोई विरोधाभास नहीं है, न ही हो सकता है। जैसा कि आपके पास उच्च आर ^ 2 और केवल 40 डेटा बिंदुओं के साथ एक बड़ा एसडी है, मुझे लगता है कि आपके पास सीमा प्रतिबंध के विपरीत होगा - आपके एक्स मान बहुत व्यापक रूप से फैले हुए हैं।


उत्कृष्ट और बहुत स्पष्ट जवाब! तो मूल रूप से दूसरे प्रश्न के लिए एसडी क्षैतिज फैलाव को इंगित करता है और आर ^ 2 समग्र फिट या ऊर्ध्वाधर फैलाव को इंगित करता है?
ऊपर

7
@ डर, मदद करने में खुशी होगी। आमतौर पर हम अनुक्रिया चर को ऊर्ध्वाधर अक्ष पर और क्षैतिज अक्ष पर पूर्वसूचक चर के रूप में सोचते हैं। इस सेटअप के साथ, सब कुछ लंबवत है - प्रतिगमन भविष्यवाणियों और प्रतिक्रिया चर (एसएसई) के बीच ऊर्ध्वाधर दूरी को कम कर रहा है। इसी तरह, अवशिष्ट एसडी अनुमानित मानों के लिए जिम्मेदार होने के बाद ऊर्ध्वाधर फैलाव का एक उपाय है। अंत में, R ^ 2 आपके पूर्वानुमान के ऊर्ध्वाधर फैलाव का अनुपात है जो आपके कच्चे डेटा के कुल ऊर्ध्वाधर फैलाव के लिए है।
गूँग - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.