सरल रेखीय प्रतिगमन के रिपोर्टिंग परिणाम: क्या जानकारी शामिल करने के लिए?


11

मैंने अभी हाल ही में जेनस्टैट में कुछ (बहुत) सरल रैखिक प्रतिगमन का प्रदर्शन किया है और अपनी रिपोर्ट में आउटपुट के एक संक्षिप्त और सार्थक सारांश को शामिल करना चाहूंगा। मुझे यकीन नहीं है कि मुझे क्या या कितनी जानकारी शामिल करनी चाहिए।

मेरे जेनस्टैट आउटपुट के मुख्य बिट इस तरह दिखते हैं:

Summary of analysis 
Source      d.f.    s.s.       m.s.       v.r.    F pr.
Regression    1   8128935.   8128935.    814.41   <.001
Residual     53    529015.      9981.        
Total        54   8657950.    160332.        

Percentage variance accounted for 93.8
Standard error of observations is estimated to be 99.9.

Estimates of parameters 
Parameter    estimate    s.e.     t(53)   t pr.
Constant      41.5      30.7       1.35   0.182
UKHR_Ref       0.8659    0.0303   28.54   <.001

मैं इसे इस तरह रिपोर्ट करना चाहता था:

Adjusted R2 = 0.94 (slope = 0.87, p < 0.001; intercept not significantly different from 0).

लेकिन एक सहकर्मी ने सुझाव दिया है कि मुझे भी कम से कम शामिल होना चाहिए root mean squared error(जो मुझे विश्वास है कि इस मामले में टिप्पणियों के मानक त्रुटि के बराबर है। 99.9?)।

क्या RMSE सहित अतिरिक्त उपयोगी जानकारी प्रदान करता है, या समायोजित-आर 2 मूल्य द्वारा पहले से ही पर्याप्त रूप से समझाया गया फिट की भलाई है?

रिपोर्ट करने के लिए कितनी जानकारी के लिए कठिन और तेज़ नियम हैं, या यह काफी व्यक्तिपरक है?

बहुत बहुत धन्यवाद!


1
"क्या सूचना देने के लिए कठिन और तेज़ नियम हैं" - यह वास्तव में इस बात पर निर्भर करता है कि आप प्रतिगमन के बाद क्या करना चाहते हैं। सिर्फ सहसंबंध गुणांक से खुश हो सकता है; उस के शीर्ष पर डर्बिन-वाटसन मूल्य की आवश्यकता हो सकती है, और अभी भी एक और हैट मैट्रिक्स के विकर्ण को देखना चाह सकता है ... यह वास्तव में निर्भर करता है।
JM

2
कुछ संगठनों में नियम होते हैं। उदाहरण के लिए एपीए दिशानिर्देश देखें ।
व्हिबर

जवाबों:


6

एक साधारण रेखीय प्रतिगमन के लिए, मैं हमेशा y चर के खिलाफ x चर के एक भूखंड का उत्पादन करूंगा, भूखंड पर प्रतिगमन रेखा सुपर-लगाए जाने के साथ (हमेशा जब भी संभव हो तो आपके डेटा की साजिश करें!)। यह आपको बहुत आसानी से बताएगा कि आपका मॉडल कितनी अच्छी तरह फिट बैठता है, और 1 चर प्रतिगमन के लिए पढ़ना आसान है। जो आपने पहले ही प्राप्त कर लिया है, उसे जोड़ना संभवतः पर्याप्त होगा, हालांकि आप कुछ नैदानिक ​​भूखंडों (लाभ उठाने, रसोइयों की दूरी, अवशिष्ट, आदि) को शामिल करना चाह सकते हैं। यह इस बात पर निर्भर करता है कि एक्स प्लॉट कितना अच्छा है, और आपके इच्छित दर्शकों पर, और कोई भी प्रोटोकॉल जो आपके दर्शकों को उम्मीद है।

R2 बनाम आरएमएसई

± ± 2 आर 2R2 एक सापेक्ष माप है, जबकि RMSE एक पूर्ण माप से अधिक है, जैसा कि आप सबसे अधिक टिप्पणियों की उम्मीद करेंगे कि फिट लाइन से RMSE के भीतर हो , और लगभग सभी RMSE के भीतर हों । यदि आप "व्याख्यात्मक शक्ति" को व्यक्त करना चाहते हैं, तो शायद बेहतर है, और यदि आप "भविष्य कहनेवाला शक्ति" को व्यक्त करना चाहते हैं, तो RMSE शायद बेहतर है।±±2R2


धन्यवाद @probabilityislogic। मैंने अपनी रिपोर्ट में एक भूखंड को शामिल किया है, और ऐसा लगता है कि इस मामले में मेरा मूल वाक्य पर्याप्त होना चाहिए। मुझे लगता है कि नैदानिक ​​भूखंडों सहित इस दर्शकों के लिए संभवतः अनावश्यक है, हालांकि मैंने स्पष्ट रूप से उन्हें स्वयं जांच लिया है और वे उचित दिखते हैं। आर 2 बनाम आरएमएसई के स्पष्टीकरण के लिए भी धन्यवाद - यह बहुत उपयोगी है।
9

T-value (s) और df (s) के बारे में क्या? इन्हें कब शामिल किया जाना चाहिए? क्या यह केवल दोनों को शामिल करने के लिए समझ में आता है या नहीं?
पोषक तत्वों के बारे में

1

मैं fficient गुणांक प्लस ९ ५% सीआई, पी मान और समायोजित रुपये की रिपोर्ट करने के लिए उपयोग करता हूं। उदाहरण के लिए:

(19 = 1.46, 95% CI [1.19, 1.8], p = 0.001 **, समायोजित R2 = 0.48)

यदि कारक चर के साथ एक से अधिक प्रतिगमन या एक प्रतिगमन की रिपोर्ट करते हैं, तो मैं गुणांक, 95% CI, p मान और फिर अलग-अलग F (स्वतंत्रता के degres) आँकड़े, समायोजित R2 और मॉडल के p मान की रिपोर्ट करता हूं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.