R में lm में समायोजित R-squared सूत्र क्या है और इसकी व्याख्या कैसे की जानी चाहिए?


35

समायोजित आर-वर्ग के लिए R में प्रयुक्त सटीक सूत्र क्या है lm() ? मैं इसकी व्याख्या कैसे कर सकता हूं?

समायोजित r-squared सूत्र

समायोजित आर-वर्ग की गणना करने के लिए कई सूत्र मौजूद हैं।

  • हैरी सूत्र: 1(1R2)(n1)(nv)
  • मैकनेमर का सूत्र:1(1R2)(n1)(nv1)
  • भगवान का सूत्र:1(1R2)(n+v1)(nv1)
  • स्टीन का सूत्र:1[(n1)(nk1)(n2)(nk2)(n+1)n](1R2)

पाठ्यपुस्तक विवरण

  • फ़ील्ड की पाठ्यपुस्तक के अनुसार, आर (2012, पी। 273) का उपयोग करके सांख्यिकी का पता लगाने के लिए आर व्हेरे के समीकरण का उपयोग करता है, जो बताता है कि "यदि मॉडल से जनसंख्या ली गई थी, जिसमें नमूना लिया गया था, तो वाई में कितना विचरण होगा इसका हिसाब दिया जाएगा"। वह व्हेरी के लिए सूत्र नहीं देता है। वह स्टीन के फार्मूले (हाथ से) का उपयोग करके यह जांचने की सलाह देता है कि मॉडल क्रॉस-वैलिड कितनी अच्छी तरह से जाँच करता है।
  • क्लेबर / जीलीस, एप्लाइड इकोनोमेट्रिक्स विथ आर (2008, पी। 59) का दावा है कि यह "Theil's समायोजित R-squared" है और ठीक-ठीक यह मत कहो कि इसकी व्याख्या कई R- वर्ग से कैसे भिन्न होती है।
  • डलागार्ड, आर के साथ परिचयात्मक सांख्यिकी (2008, पृष्ठ 113) लिखते हैं कि "यदि आप [% R- चुकता] को 100% से गुणा करते हैं, तो इसे '% विचरण कमी' के रूप में व्याख्या किया जा सकता है।" वह यह नहीं कहता कि यह किस सूत्र से मेल खाता है।

मैंने पहले सोचा था, और व्यापक रूप से पढ़ा, कि मॉडल में अतिरिक्त चर जोड़ने के लिए आर-वर्ग दंडित करता है। अब इन विभिन्न सूत्रों का उपयोग विभिन्न व्याख्याओं के लिए कहता है। मैंने स्टैक ओवरफ्लो पर एक संबंधित प्रश्न को भी देखा ( एकाधिक आर-स्क्वेर्ड और एडजस्टेड आर-स्क्वेर के बीच अंतर एक एकल-कम से कम वर्गों के प्रतिगमन में क्या है? ) और यूपीर्न में व्हार्टन स्कूल के सांख्यिकीय शब्दकोश

प्रशन

  • R द्वारा समायोजित r-square के लिए कौन सा सूत्र प्रयोग किया जाता है lm() ?
  • मैं इसकी व्याख्या कैसे कर सकता हूं?

8
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)सारांश से। lm (): जहाँ ans $ r.squared = R ^ 2; n = n, rdf = अवशिष्ट df, df.int = अवरोधन df (0 या 1)।
ईडी

मैं यहां वास्तविक समस्या का उत्तर देने जा रहा हूं, जो "आर ^ 2 ..." किस प्रकार का नहीं है। आपके (और कई अन्य) अभाव की जानकारी यह है: सभी आर संकुल, यहां तक ​​कि कोर, स्रोत कोड उपलब्ध कराते हैं। यहां तक ​​कि डिस्ट्रोस में संकलित सामान भी {packagenames} .tar.gz में CRAN या अन्य रिपॉजिटरी पर उपलब्ध है।
कार्ल विटथॉफ्ट

ओपी यहाँ: इस महान इनपुट के लिए धन्यवाद। मेरे दूसरे प्रश्न के बारे में कैसे: मैं इसकी व्याख्या कैसे कर सकता हूं? मैंने Adj की कई अलग-अलग व्याख्याएं पढ़ीं। R- चुकता है कि कभी-कभी एक सूत्र पर आधारित प्रतीत होता है जो कि शायद वेरी का नहीं है?

जवाबों:


29

1. lmसमायोजित आर-वर्ग के लिए R उपयोग में क्या सूत्र है ?

जैसा कि पहले ही उल्लेख किया गया है, टाइपिंग summary.lmआपको वह कोड देगा जो R समायोजित आर वर्ग की गणना करने के लिए उपयोग करता है। आपके द्वारा प्राप्त की जाने वाली सबसे अधिक प्रासंगिक रेखा निकालना:

ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)

जो गणितीय संकेतन से मेल खाती है:

Radj2=1(1R2)n1np1

यह मानते हुए कि एक अवरोधन है (यानी, df.int=1), आपका नमूना आकार है, और आपके भविष्यवक्ताओं की संख्या है। इस प्रकार, आपकी स्वतंत्रता की डिग्री (यानी, ) बराबर होती है ।पीnprdfn-p-1

यह सूत्र यिन और फैन (2001) लेबल फॉर्मूला -1 से मेल खाता है (जाहिरा तौर पर एक और कम सामान्य वेरी फार्मूला है जो बजाय हर में का उपयोग करता है )। वे सुझाव देते हैं कि यह घटना के क्रम में सबसे आम नाम हैं "वेरी फॉर्मूला", "ईजेकील फॉर्मलुआ", "व्हीरी / मैकनेमर फार्मूला", और "कोहेन / कोहेन फॉर्मूला"।एन - पी - npnp1

2. इतने सारे समायोजित आर-वर्ग फ़ार्मुलों क्यों हैं?

ρ 2 ρ 2Radj2 उद्देश्य का अनुमान लगाना है, जनसंख्या प्रतिगमन समीकरण द्वारा जनसंख्या में समझाया गया विचरण का अनुपात। जबकि यह स्पष्ट रूप से नमूना आकार और भविष्यवक्ताओं की संख्या से संबंधित है, जो सबसे अच्छा अनुमानक है वह कम स्पष्ट है। इस प्रकार, आपके पास सिमुलेशन अध्ययन जैसे यिन और फैन (2001) हैं जिन्होंने विभिन्न समायोजित आर-वर्ग फ़ार्मुलों का मूल्यांकन किया है कि वे कितनी अच्छी तरह से अनुमान लगाते हैंρ2ρ2 ( आगे की चर्चा के लिए इस प्रश्न को देखें )।

आर2आरj2

आरj2

आरj2ρ2ρ2आर2

संदर्भ

  • आर2

9

अपने पहले प्रश्न के बारे में: यदि आप नहीं जानते कि यह कोड की गणना कैसे की जाती है! यदि आप summary.lmअपने कंसोल में टाइप करते हैं, तो आपको इस फ़ंक्शन के लिए कोड मिलता है। यदि आप कोड को स्किम करते हैं तो आपको एक लाइन मिलेगी ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf):। यदि आप इस रेखा के ऊपर कुछ रेखाएँ देखते हैं तो आप देखेंगे कि:

  • ans$r.squaredआर2
  • n अवशिष्टों की संख्या = अवलोकनों की संख्या
  • df.int 0 या 1 है (यदि आपके पास कोई अवरोधन है)
  • rdf आपके अवशिष्ट डी.एफ.

आर2आर2

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.