जब मेरे टी-आँकड़े इतने बड़े हैं तो मेरा आर-स्क्वेर इतना कम क्यों है?


18

मैं 4 चर के साथ एक प्रतिगमन भाग गया, और सभी बहुत सांख्यिकीय रूप से महत्वपूर्ण है, टी मूल्यों के साथ कर रहे हैं 7,9,26 और 31 (मैं कहता हूँ क्योंकि यह दशमलव के शामिल करने के लिए अप्रासंगिक लगती है), जो बहुत ही उच्च और स्पष्ट रूप से महत्वपूर्ण हैं। लेकिन फिर R2 केवल है ।2284। क्या मैं टी वैल्यू की गलत व्याख्या कर रहा हूं इसका मतलब यह है कि वे कुछ नहीं हैं? टी मान देखने पर मेरी पहली प्रतिक्रिया यह थी कि R2 काफी अधिक होगा, लेकिन शायद यह उच्च R2 ?


1
मुझे यकीन है कि आपका मध्यम रूप से बड़ा है, है ना? n
Glen_b -Reinstate मोनिका

@Glen_b हाँ, लगभग 6000.
काइल

11
तब बड़ी -statistics छोटे से संबद्ध किए जाने आर 2 पूरी तरह से साधारण है। चूंकि मानक त्रुटियां कम हो जाती हैंtR2 ,1/n -ratios के रूप में वृद्धि होगीt , जबकिR2बढ़तेn केसाथ स्थिर रहेगा। आप क्यों परवाह करते हैं किआर2क्याहै? आप परवाह क्यों करते हैं कि टी-अनुपात क्या है? nR2nR2
Glen_b -Reinstate मोनिका

जवाबों:


46

t -values और R2 बहुत अलग बातें न्याय किया जाता है। t -values के अपने अनुमान के accurary न्याय किया जाता है βi की, लेकिन R2 उपायों आपकी प्रतिक्रिया चर में परिवर्तन की राशि आपके covariates से समझाया। मान लीजिए कि आप n टिप्पणियों के साथ एक प्रतिगमन मॉडल का अनुमान लगा रहे हैं ,

Yi=β0+β1X1i+...+βkXki+ϵi

जहां ϵii.i.dN(0,σ2) , i=1,...,n

बड़े t -values (निरपेक्ष मूल्य में) शून्य परिकल्पना है कि अस्वीकार करने के लिए आप का नेतृत्व βi=0 । इसका मतलब है कि आप आश्वस्त हो सकते हैं कि आपने गुणांक के संकेत का सही अनुमान लगाया है। इसके अलावा, अगर |t|> 4 और आपके पास n>5 , तो 0 गुणांक के लिए 99% विश्वास अंतराल में नहीं है। t एक गुणांक के लिए -value βi अनुमान के बीच अंतर है βi^ और 0 से मानक त्रुटि सामान्यीकृत se{βi^}

t=βi^se{βi^}

जो केवल इसकी परिवर्तनशीलता के माप से विभाजित अनुमान है। यदि आपके पास एक बड़ा पर्याप्त डेटासेट है, तो आपके पास हमेशा सांख्यिकीय रूप से महत्वपूर्ण (बड़े) t अंतराल होंगे। इसका मतलब जरूरी नहीं है कि आपके सहसंयोजक प्रतिक्रिया चर में भिन्नता के बारे में बहुत कुछ समझाते हैं।

जैसा कि @ स्टैट ने उल्लेख किया है, R2 आपके आश्रित चर द्वारा आपके प्रतिक्रिया चर में भिन्नता की मात्रा को मापता है। R2 बारे में अधिक जानकारी के लिए , विकिपीडिया पर जाएं । आपके मामले में, ऐसा लगता है कि आप इसे सही अनुमान लगाने के लिए एक बड़ा पर्याप्त डेटा सेट βi की, लेकिन अपने covariates समझा और \ या प्रतिक्रिया मूल्यों की भविष्यवाणी की एक गरीब काम करते हैं।


1
(+1) यह शुरू से ही स्पष्ट है कि यह एक अच्छी तरह से माना जाता है, जानकारीपूर्ण व्याख्या है।
whuber

अच्छा उत्तर। मुझे लगता है कि शब्द "व्यावहारिक महत्व" और "सांख्यिकीय महत्व" अक्सर इस मुद्दे के बारे में सोचने में सहायक होते हैं।
हारून ने स्टैक ओवरफ्लो

3
दो आँकड़ों के बीच एक साधारण परिवर्तन भी है: R2=t2t2+df
जेफ

8

कैबुरके के समान लेकिन साधारण रूप से एक ही बात कहने के लिए, आप बहुत विश्वासपात्र हैं कि आपके चरों की औसत प्रतिक्रिया शून्य नहीं है। लेकिन बहुत सी अन्य चीजें हैं जो आपके पास प्रतिगमन में नहीं हैं जो प्रतिक्रिया के चारों ओर कूदने का कारण बनती हैं।


0

क्या ऐसा हो सकता है कि यद्यपि आपके पूर्वानुमानकर्ता आपके प्रतिक्रिया चर के संदर्भ में रैखिक रूप से ट्रेंड कर रहे हैं (ढलान शून्य से काफी अलग है), जो टी मूल्यों को महत्वपूर्ण बनाता है, लेकिन आर स्क्वैयर कम है क्योंकि त्रुटियां बड़ी हैं, जिसका अर्थ है कि परिवर्तनशीलता आपका डेटा बड़ा है और इस तरह आपका प्रतिगमन मॉडल एक अच्छा फिट नहीं है (पूर्वानुमान सटीक नहीं हैं)?

बस मेरे 2 सेंट।

शायद यह पोस्ट मदद कर सकती है: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-p-p-p मान


0

दिए गए कई उत्तर करीब हैं लेकिन फिर भी गलत हैं।

"T-मानों का उपयोग'si के आपके अनुमान की सटीकता का न्याय करने के लिए किया जाता है" वह है जो मुझे सबसे अधिक चिंतित करता है।

टी-मूल्य यादृच्छिक घटना की संभावना का एक संकेत मात्र है। बड़े साधन की संभावना नहीं है। छोटे का मतलब बहुत संभावना है। सकारात्मक और नकारात्मक संभावना व्याख्या के लिए मायने नहीं रखते।

"R2 आपके कोवरेट्स द्वारा बताए गए आपके प्रतिक्रिया चर में भिन्नता की मात्रा को मापता है" सही है।

(मैंने टिप्पणी की होगी, लेकिन अभी तक इस मंच द्वारा अनुमति नहीं दी गई है।)


2
आप t-मानों के बारे में लिखने के लिए लगता है जैसे कि वे पी-मान
व्ह्यूबर

-4

एक छोटे से आर चुकता से निपटने का एकमात्र तरीका, निम्नलिखित की जांच करें:

  1. क्या आपका नमूना आकार काफी बड़ा है? यदि हां, तो चरण 2 करें। लेकिन यदि नहीं, तो अपना नमूना आकार बढ़ाएं।
  2. आपने अपने मॉडल के आकलन के लिए कितने कोवरिएट्स का उपयोग किया? यदि आपके मामले में 1 से अधिक है, तो सहसंयोजकों की बहुसंकेतनता की समस्या से निपटने के लिए या बस, प्रतिगमन को फिर से चलाएं और इस बार बिना स्थिरांक जिसे बीटा शून्य के रूप में जाना जाता है।

  3. हालांकि, अगर समस्या अभी भी बनी हुई है, तो एक स्टेप वाइज रिग्रेशन करें और एक उच्च आर वर्ग के साथ मॉडल का चयन करें। लेकिन जो मैं आपको सलाह नहीं दे सकता क्योंकि यह कोविरेट्स में पूर्वाग्रह लाता है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.