रैखिक प्रतिगमन एफ सांख्यिकीय, आर चुकता और अवशिष्ट मानक त्रुटि हमें क्या बताती है?


14

मैं निम्नलिखित शब्दों के रैखिक प्रतिगमन के संदर्भ में अर्थ के अंतर के बारे में वास्तव में उलझन में हूं:

  • एफ स्टेटिस्टिक
  • आर चुकता
  • अवशिष्ट मानक त्रुटि

मैंने इस वेबस्टी को पाया , जिसने मुझे रेखीय प्रतिगमन में शामिल विभिन्न शब्दों में बहुत अंतर्दृष्टि दी, हालांकि ऊपर उल्लिखित शब्द एक जैसा दिखता है (जहां तक ​​मैं समझता हूं)। मैं जो कुछ पढ़ता हूँ और जो मुझे भ्रमित करता है, उसका हवाला दूंगा:

अवशिष्ट मानक त्रुटि एक रेखीय प्रतिगमन फिट की गुणवत्ता की माप है ....... अवशिष्ट मानक त्रुटि औसत राशि है जो प्रतिक्रिया (डिस्ट्रेस) सही प्रतिगमन रेखा से विचलित हो जाएगी।

1. इस प्रकार यह वास्तव में lm लाइन से देखे गए मानों की औसत दूरी है?

R-squared आँकड़ा एक माप प्रदान करता है कि मॉडल वास्तविक डेटा को कितनी अच्छी तरह से फिट कर रहा है।

2. अब मैं भ्रमित हो रहा हूं क्योंकि यदि आरएसई हमें बताता है कि हमारे प्रेक्षित बिंदु प्रतिगमन रेखा से कितनी दूरी पर हैं तो आरएसई वास्तव में हमें बता रहा है "आपका मॉडल देखे गए डेटा बिंदुओं के आधार पर अच्छी तरह से फिटिंग कर रहा है" -> इस प्रकार हमारा कितना अच्छा मॉडल फिट बैठता है, इसलिए आर स्क्वेर और आरएसई में क्या अंतर है?

एफ-स्टेटिस्टिक एक अच्छा संकेतक है कि क्या हमारे भविष्यवक्ता और प्रतिक्रिया चर के बीच कोई संबंध है।

3. क्या यह सच है कि हम एक मजबूत रिश्ते को इंगित करने वाला एफ मान रख सकते हैं जो कि NON LINEAR है ताकि हमारा RSE अधिक हो और हमारा R वर्ग कम हो


क्यू 3 फेल्यू गैर रेखीय संबंध नहीं दर्शाता है। यह एक अनुपात है जो इंगित करता है कि क्या दो चर के बीच एक स्थिर (स्थिर) संबंध है - निर्भर और स्वतंत्र।
सुभाष सी। दावर

यह हमें रिश्ते की प्रकृति नहीं बताता है - गैर-रेखीय या रैखिक।
सुभाष सी। दावर

जवाबों:


12

इन शर्तों को समझने का सबसे अच्छा तरीका हाथ से प्रतिगमन गणना करना है। मैंने दो निकट से संबंधित उत्तर ( यहां और यहां ) लिखे हैं , हालांकि वे आपके विशेष मामले को समझने में पूरी तरह से आपकी मदद नहीं कर सकते हैं। लेकिन फिर भी उनके माध्यम से पढ़ें। हो सकता है कि वे इन शब्दों को बेहतर तरीके से समझने में आपकी मदद करें।

एक प्रतिगमन (या एनोवा) में, हम एक नमूना डेटासेट के आधार पर एक मॉडल बनाते हैं जो हमें ब्याज की आबादी से परिणामों की भविष्यवाणी करने में सक्षम बनाता है। ऐसा करने के लिए, निम्नलिखित तीन घटकों की गणना एक साधारण रेखीय प्रतिगमन में की जाती है, जहाँ से अन्य घटकों की गणना की जा सकती है, उदाहरण के लिए वर्गों, F- मान, (समायोजित ), और अवशिष्ट मानक त्रुटि ( ):R2R2RSE

  1. वर्गों के कुल योग ( )SStotal
  2. वर्गों के अवशिष्ट योग ( )SSresidual
  3. वर्गों के मॉडल रकम ( )SSmodel

उनमें से प्रत्येक यह आकलन कर रहे हैं कि मॉडल डेटा का कितना अच्छा वर्णन करता है और डेटा बिंदुओं से सज्जित मॉडल तक चौकोर दूरी का योग है (नीचे दिए गए प्लॉट में लाल रेखाओं के रूप में चित्रित किया गया है)।

का आकलन कैसे अच्छी तरह से मतलब फिट डेटा। मतलब क्यों? क्योंकि माध्य सबसे सरल मॉडल है जिसे हम फिट कर सकते हैं और इसलिए उस मॉडल के रूप में कार्य करता है, जिसकी तुलना सबसे कम-वर्ग प्रतिगमन रेखा से की जाती है। डेटासेट का उपयोग कर यह प्लॉट दिखाता है कि:SStotalcars

यहाँ छवि विवरण दर्ज करें

का आकलन कैसे अच्छी तरह से प्रतिगमन लाइन डेटा फिट बैठता है।SSresidual

यहाँ छवि विवरण दर्ज करें

तुलना कितना बेहतर प्रतिगमन लाइन मतलब की तुलना में है (यानी के बीच का अंतर और )।SSmodelSStotalSSresidual

यहाँ छवि विवरण दर्ज करें

अपने प्रश्नों का उत्तर देने के लिए, पहले उन शब्दों की गणना करें, जिन्हें आप संदर्भ के रूप में मॉडल और आउटपुट से शुरू करना चाहते हैं:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

वर्गों के योग मॉडल के व्यक्तिगत डेटा बिंदुओं की वर्ग दूरी हैं:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

औसत वर्ग स्वतंत्रता की डिग्री द्वारा औसत वर्ग के योग हैं:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

आपके सवालों के मेरे जवाब:

Q1:

  1. इस प्रकार यह वास्तव में lm लाइन से देखे गए मानों की औसत दूरी है?

अवशिष्ट मानक त्रुटि ( ) का वर्गमूल है अवशिष्ट मतलब वर्ग ( ):RSEMSresidual

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

यदि आपको याद है कि अवलोकन डेटा बिंदुओं और मॉडल (ऊपर दूसरे भूखंड में प्रतिगमन रेखा) की चुकता दूरी थी, और केवल औसत , तो आपके पहले का उत्तर। प्रश्न है, हां: मॉडल से देखे गए डेटा की औसत दूरी का प्रतिनिधित्व करता है। सहज रूप से, यह भी सही समझ में आता है क्योंकि अगर दूरी छोटी है, तो आपका मॉडल फिट भी बेहतर है।SSresidualMSresidual SSresidualRSE

Q2:

  1. अब मैं भ्रमित हो रहा हूं क्योंकि अगर आरएसई हमें बताता है कि हमारे प्रेक्षित बिंदु रिग्रेशन लाइन से कितने कम हैं, तो आरएसई वास्तव में हमें बता रहा है "आपका मॉडल प्रेक्षित डेटा बिंदुओं के आधार पर अच्छी तरह से फिट हो रहा है" -> इस प्रकार हमारे मॉडल कितने अच्छे बैठते हैं , तो आर स्क्वेर्ड और आरएसई में क्या अंतर है?

अब और का अनुपात है :R2SSmodelSStotal

# R squared
r.sq <- ss.model/ss.total
r.sq

व्यक्त के कितना कुल भिन्नता डेटा में मॉडल (प्रतिगमन लाइन) से समझाया जा सकता। याद रखें कि कुल भिन्नता डेटा में भिन्नता थी जब हमने डेटा के लिए सबसे सरल मॉडल को फिट किया था, अर्थात। प्लॉट के साथ प्लॉट की तुलना करें ।R2SStotalSSmodel

तो आपके दूसरे प्रश्न का उत्तर देने के लिए, और बीच का अंतर यह है कि आपको गए डेटा को देखते हुए मॉडल की अशुद्धि (इस मामले में प्रतिगमन लाइन) के बारे में कुछ बताता है।RSER2RSE

दूसरी तरफ आपको बताता है कि बहुत भिन्नता मॉडल (यानी प्रतिगमन लाइन) सापेक्ष विविधता मतलब अकेले (यानी सबसे सरल मॉडल) द्वारा समझाया गया था द्वारा समझाया गया है।R2

Q3:

  1. क्या यह सच है कि हम एक मजबूत रिश्ते को इंगित करने वाले एक एफ मूल्य हो सकते हैं जो एनओएन लाइनर है ताकि हमारा आरएसई उच्च हो और हमारा आर स्क्वैयर कम हो

तो दूसरे पर -value मॉडल मतलब वर्ग के रूप में गणना की जाती है (या संकेत) से विभाजित (शोर):FMSmodelMSresidual

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

या दूसरे शब्दों में -value व्यक्त करता है कि मॉडल की अशुद्धि को देखते हुए मॉडल में कितना सुधार हुआ है (मतलब की तुलना में)।F

आपका तीसरा प्रश्न समझना थोड़ा मुश्किल है लेकिन मैं आपके द्वारा दिए गए उद्धरण से सहमत हूं।


3

(2) आप इसे सही तरीके से समझ रहे हैं, आप अवधारणा के साथ कठिन समय बिता रहे हैं।

मूल्य कितनी अच्छी तरह मॉडल डेटा के सभी के लिए खातों का प्रतिनिधित्व करता है। यह केवल 0 और 1. के बीच के मानों को ले सकता है। यह डेटासेट में उन बिंदुओं के विचलन का प्रतिशत है जो मॉडल समझा सकता है।R2

RSE मूल डेटा का प्रतिनिधित्व करने वाले मॉडल से क्या विचलन करता है, इसका वर्णन अधिक है। इसलिए, कहता है, "मॉडल प्रस्तुत आंकड़ों की व्याख्या करने में यह अच्छी तरह से करता है।" आरएसई कहता है, "जब मैप किया जाता है, तो हमें उम्मीद थी कि डेटा यहां होगा, लेकिन यहां वह है जहां यह वास्तव में था।" वे बहुत समान हैं लेकिन विभिन्न तरीकों से मान्य करने के लिए उपयोग किए जाते हैं।R2


0

क्रिस ने जो उत्तर दिया उसे पूरक करने के लिए:

एफ-स्टेटिस्टिक मॉडल माध्य वर्ग और अवशिष्ट माध्य वर्ग का विभाजन है। प्रतिगमन मॉडल को फिट करने के बाद स्टैटा जैसे सॉफ्टवेयर भी एफ-स्टेटिस्टिक से जुड़े पी-मूल्य प्रदान करते हैं। यह आपको अशक्त परिकल्पना का परीक्षण करने की अनुमति देता है कि आपके मॉडल के गुणांक शून्य हैं। आप इसे "समग्र रूप से मॉडल का सांख्यिकीय महत्व" के रूप में सोच सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.