रैखिक प्रतिगमन एफ सांख्यिकीय, आर चुकता और अवशिष्ट मानक त्रुटि हमें क्या बताती है?

14

मैं निम्नलिखित शब्दों के रैखिक प्रतिगमन के संदर्भ में अर्थ के अंतर के बारे में वास्तव में उलझन में हूं:

एफ स्टेटिस्टिक
आर चुकता
अवशिष्ट मानक त्रुटि

मैंने इस वेबस्टी को पाया , जिसने मुझे रेखीय प्रतिगमन में शामिल विभिन्न शब्दों में बहुत अंतर्दृष्टि दी, हालांकि ऊपर उल्लिखित शब्द एक जैसा दिखता है (जहां तक मैं समझता हूं)। मैं जो कुछ पढ़ता हूँ और जो मुझे भ्रमित करता है, उसका हवाला दूंगा:

अवशिष्ट मानक त्रुटि एक रेखीय प्रतिगमन फिट की गुणवत्ता की माप है ....... अवशिष्ट मानक त्रुटि औसत राशि है जो प्रतिक्रिया (डिस्ट्रेस) सही प्रतिगमन रेखा से विचलित हो जाएगी।

1. इस प्रकार यह वास्तव में lm लाइन से देखे गए मानों की औसत दूरी है?

R-squared आँकड़ा एक माप प्रदान करता है कि मॉडल वास्तविक डेटा को कितनी अच्छी तरह से फिट कर रहा है।

2. अब मैं भ्रमित हो रहा हूं क्योंकि यदि आरएसई हमें बताता है कि हमारे प्रेक्षित बिंदु प्रतिगमन रेखा से कितनी दूरी पर हैं तो आरएसई वास्तव में हमें बता रहा है "आपका मॉडल देखे गए डेटा बिंदुओं के आधार पर अच्छी तरह से फिटिंग कर रहा है" -> इस प्रकार हमारा कितना अच्छा मॉडल फिट बैठता है, इसलिए आर स्क्वेर और आरएसई में क्या अंतर है?

एफ-स्टेटिस्टिक एक अच्छा संकेतक है कि क्या हमारे भविष्यवक्ता और प्रतिक्रिया चर के बीच कोई संबंध है।

3. क्या यह सच है कि हम एक मजबूत रिश्ते को इंगित करने वाला एफ मान रख सकते हैं जो कि NON LINEAR है ताकि हमारा RSE अधिक हो और हमारा R वर्ग कम हो

— KingBoomie
स्रोत

क्यू 3 फेल्यू गैर रेखीय संबंध नहीं दर्शाता है। यह एक अनुपात है जो इंगित करता है कि क्या दो चर के बीच एक स्थिर (स्थिर) संबंध है - निर्भर और स्वतंत्र।

— सुभाष सी। दावर

यह हमें रिश्ते की प्रकृति नहीं बताता है - गैर-रेखीय या रैखिक।

— सुभाष सी। दावर

12

इन शर्तों को समझने का सबसे अच्छा तरीका हाथ से प्रतिगमन गणना करना है। मैंने दो निकट से संबंधित उत्तर ( यहां और यहां ) लिखे हैं , हालांकि वे आपके विशेष मामले को समझने में पूरी तरह से आपकी मदद नहीं कर सकते हैं। लेकिन फिर भी उनके माध्यम से पढ़ें। हो सकता है कि वे इन शब्दों को बेहतर तरीके से समझने में आपकी मदद करें।

एक प्रतिगमन (या एनोवा) में, हम एक नमूना डेटासेट के आधार पर एक मॉडल बनाते हैं जो हमें ब्याज की आबादी से परिणामों की भविष्यवाणी करने में सक्षम बनाता है। ऐसा करने के लिए, निम्नलिखित तीन घटकों की गणना एक साधारण रेखीय प्रतिगमन में की जाती है, जहाँ से अन्य घटकों की गणना की जा सकती है, उदाहरण के लिए वर्गों, F- मान, (समायोजित ), और अवशिष्ट मानक त्रुटि ( ): $R^2$ $R^2$ $RSE$

वर्गों के कुल योग ( ) $SS_{total}$
वर्गों के अवशिष्ट योग ( ) $SS_{residual}$
वर्गों के मॉडल रकम ( ) $SS_{model}$

उनमें से प्रत्येक यह आकलन कर रहे हैं कि मॉडल डेटा का कितना अच्छा वर्णन करता है और डेटा बिंदुओं से सज्जित मॉडल तक चौकोर दूरी का योग है (नीचे दिए गए प्लॉट में लाल रेखाओं के रूप में चित्रित किया गया है)।

का आकलन कैसे अच्छी तरह से मतलब फिट डेटा। मतलब क्यों? क्योंकि माध्य सबसे सरल मॉडल है जिसे हम फिट कर सकते हैं और इसलिए उस मॉडल के रूप में कार्य करता है, जिसकी तुलना सबसे कम-वर्ग प्रतिगमन रेखा से की जाती है। डेटासेट का उपयोग कर यह प्लॉट दिखाता है कि: $SS_{total}$ cars

का आकलन कैसे अच्छी तरह से प्रतिगमन लाइन डेटा फिट बैठता है। $SS_{residual}$

तुलना कितना बेहतर प्रतिगमन लाइन मतलब की तुलना में है (यानी के बीच का अंतर और )। $SS_{model}$ $SS_{total}$ $SS_{residual}$

अपने प्रश्नों का उत्तर देने के लिए, पहले उन शब्दों की गणना करें, जिन्हें आप संदर्भ के रूप में मॉडल और आउटपुट से शुरू करना चाहते हैं:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

वर्गों के योग मॉडल के व्यक्तिगत डेटा बिंदुओं की वर्ग दूरी हैं:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

औसत वर्ग स्वतंत्रता की डिग्री द्वारा औसत वर्ग के योग हैं:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

आपके सवालों के मेरे जवाब:

Q1:

इस प्रकार यह वास्तव में lm लाइन से देखे गए मानों की औसत दूरी है?

अवशिष्ट मानक त्रुटि ( ) का वर्गमूल है अवशिष्ट मतलब वर्ग ( ): $RSE$ $MS_{residual}$

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se

यदि आपको याद है कि अवलोकन डेटा बिंदुओं और मॉडल (ऊपर दूसरे भूखंड में प्रतिगमन रेखा) की चुकता दूरी थी, और केवल औसत , तो आपके पहले का उत्तर। प्रश्न है, हां: मॉडल से देखे गए डेटा की औसत दूरी का प्रतिनिधित्व करता है। सहज रूप से, यह भी सही समझ में आता है क्योंकि अगर दूरी छोटी है, तो आपका मॉडल फिट भी बेहतर है। $SS_{residual}$ $MS_{residual}$ $SS_{residual}$ $RSE$

Q2:

अब मैं भ्रमित हो रहा हूं क्योंकि अगर आरएसई हमें बताता है कि हमारे प्रेक्षित बिंदु रिग्रेशन लाइन से कितने कम हैं, तो आरएसई वास्तव में हमें बता रहा है "आपका मॉडल प्रेक्षित डेटा बिंदुओं के आधार पर अच्छी तरह से फिट हो रहा है" -> इस प्रकार हमारे मॉडल कितने अच्छे बैठते हैं , तो आर स्क्वेर्ड और आरएसई में क्या अंतर है?

अब और का अनुपात है : $R^2$ $SS_{model}$ $SS_{total}$

# R squared
r.sq <- ss.model/ss.total
r.sq

व्यक्त के कितना कुल भिन्नता डेटा में मॉडल (प्रतिगमन लाइन) से समझाया जा सकता। याद रखें कि कुल भिन्नता डेटा में भिन्नता थी जब हमने डेटा के लिए सबसे सरल मॉडल को फिट किया था, अर्थात। प्लॉट के साथ प्लॉट की तुलना करें । $R^2$ $SS_{total}$ $SS_{model}$

तो आपके दूसरे प्रश्न का उत्तर देने के लिए, और बीच का अंतर यह है कि आपको गए डेटा को देखते हुए मॉडल की अशुद्धि (इस मामले में प्रतिगमन लाइन) के बारे में कुछ बताता है। $RSE$ $R^2$ $RSE$

दूसरी तरफ आपको बताता है कि बहुत भिन्नता मॉडल (यानी प्रतिगमन लाइन) सापेक्ष विविधता मतलब अकेले (यानी सबसे सरल मॉडल) द्वारा समझाया गया था द्वारा समझाया गया है। $R^2$

Q3:

क्या यह सच है कि हम एक मजबूत रिश्ते को इंगित करने वाले एक एफ मूल्य हो सकते हैं जो एनओएन लाइनर है ताकि हमारा आरएसई उच्च हो और हमारा आर स्क्वैयर कम हो

तो दूसरे पर -value मॉडल मतलब वर्ग के रूप में गणना की जाती है (या संकेत) से विभाजित (शोर): $F$ $MS_{model}$ $MS_{residual}$

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F

या दूसरे शब्दों में -value व्यक्त करता है कि मॉडल की अशुद्धि को देखते हुए मॉडल में कितना सुधार हुआ है (मतलब की तुलना में)। $F$

आपका तीसरा प्रश्न समझना थोड़ा मुश्किल है लेकिन मैं आपके द्वारा दिए गए उद्धरण से सहमत हूं।

— स्टीफन
स्रोत

3

(2) आप इसे सही तरीके से समझ रहे हैं, आप अवधारणा के साथ कठिन समय बिता रहे हैं।

मूल्य कितनी अच्छी तरह मॉडल डेटा के सभी के लिए खातों का प्रतिनिधित्व करता है। यह केवल 0 और 1. के बीच के मानों को ले सकता है। यह डेटासेट में उन बिंदुओं के विचलन का प्रतिशत है जो मॉडल समझा सकता है। $R^2$

RSE मूल डेटा का प्रतिनिधित्व करने वाले मॉडल से क्या विचलन करता है, इसका वर्णन अधिक है। इसलिए, कहता है, "मॉडल प्रस्तुत आंकड़ों की व्याख्या करने में यह अच्छी तरह से करता है।" आरएसई कहता है, "जब मैप किया जाता है, तो हमें उम्मीद थी कि डेटा यहां होगा, लेकिन यहां वह है जहां यह वास्तव में था।" वे बहुत समान हैं लेकिन विभिन्न तरीकों से मान्य करने के लिए उपयोग किए जाते हैं। $R^2$

— क्रिस
स्रोत

0

क्रिस ने जो उत्तर दिया उसे पूरक करने के लिए:

एफ-स्टेटिस्टिक मॉडल माध्य वर्ग और अवशिष्ट माध्य वर्ग का विभाजन है। प्रतिगमन मॉडल को फिट करने के बाद स्टैटा जैसे सॉफ्टवेयर भी एफ-स्टेटिस्टिक से जुड़े पी-मूल्य प्रदान करते हैं। यह आपको अशक्त परिकल्पना का परीक्षण करने की अनुमति देता है कि आपके मॉडल के गुणांक शून्य हैं। आप इसे "समग्र रूप से मॉडल का सांख्यिकीय महत्व" के रूप में सोच सकते हैं।

— YSC
स्रोत