किसी सुविधा की भविष्य कहनेवाला क्षमता के बारे में कहने के लिए टी-स्टेटिस्टिकल के पास कुछ भी नहीं हो सकता है, और उन्हें भविष्यवाणियों को स्क्रीन से बाहर करने या भविष्यवाणियों को भविष्य कहनेवाला मॉडल में अनुमति देने के लिए उपयोग नहीं किया जाना चाहिए।
पी-मान कहते हैं कि महत्वपूर्ण विशेषताएं महत्वपूर्ण हैं
आर। में निम्नलिखित परिदृश्य सेटअप पर विचार करें । दो वैक्टर बनाएं, पहला यादृच्छिक सिक्का फ़्लिप है:5000
set.seed(154)
N <- 5000
y <- rnorm(N)
दूसरा सदिश अवलोकनों है, प्रत्येक को से एक को समान रूप से रैंडम कक्षाओं के लिए दिया गया है:5005000500
N.classes <- 500
rand.class <- factor(cut(1:N, N.classes))
अब हम y
दिए गए पूर्वानुमान के लिए एक रेखीय मॉडल फिट करते हैं rand.classes
।
M <- lm(y ~ rand.class - 1) #(*)
सही गुणांक के सभी के लिए मूल्य शून्य है, उनमें से कोई भी है किसी भी भविष्यवाणी करने की शक्ति। कोई नहीं-कम, उनमें से कई 5% के स्तर पर महत्वपूर्ण हैं
ps <- coef(summary(M))[, "Pr(>|t|)"]
hist(ps, breaks=30)
वास्तव में, हमें उनके बारे में 5% महत्वपूर्ण होने की उम्मीद करनी चाहिए, भले ही उनके पास कोई पूर्वानुमानित शक्ति न हो!
पी-मान महत्वपूर्ण विशेषताओं का पता लगाने में विफल रहते हैं
यहाँ एक उदाहरण दूसरी दिशा में है।
set.seed(154)
N <- 100
x1 <- runif(N)
x2 <- x1 + rnorm(N, sd = 0.05)
y <- x1 + x2 + rnorm(N)
M <- lm(y ~ x1 + x2)
summary(M)
मैंने दो सहसंबद्ध भविष्यवाणियों का निर्माण किया है, जिनमें से प्रत्येक में पूर्वानुमानित शक्ति है।
M <- lm(y ~ x1 + x2)
summary(M)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.1271 0.2092 0.608 0.545
x1 0.8369 2.0954 0.399 0.690
x2 0.9216 2.0097 0.459 0.648
पी-मान दोनों चर की अनुमानित शक्ति का पता लगाने में विफल होते हैं क्योंकि सहसंबंध प्रभावित करता है कि मॉडल डेटा से दो व्यक्तिगत गुणांक का अनुमान कितनी सटीक रूप से लगा सकता है।
एक चर की भविष्य कहनेवाला शक्ति या महत्व के बारे में बताने के लिए अवर आंकड़े नहीं हैं। यह उस तरह से उनका उपयोग करने के लिए इन मापों का दुरुपयोग है। भविष्य कहनेवाला रैखिक मॉडल में चर चयन के लिए बहुत बेहतर विकल्प उपलब्ध हैं, उपयोग करने पर विचार करें glmnet
।
(*) ध्यान दें कि मैं यहाँ एक अवरोधन छोड़ रहा हूँ, इसलिए सभी तुलनाएँ शून्य की आधार रेखा से होती हैं, न कि पहली कक्षा के समूह माध्य से। यह @ व्हिबर का सुझाव था।
चूंकि इसने टिप्पणियों में बहुत दिलचस्प चर्चा की, मूल कोड था
rand.class <- factor(sample(1:N.classes, N, replace=TRUE))
तथा
M <- lm(y ~ rand.class)
जिसके कारण निम्नलिखित हिस्टोग्राम हो गया