क्या पी-वैल्यू के आधार पर सुविधाओं का चयन करना गलत है?


12

सुविधाओं का चयन कैसे करें के बारे में कई पोस्ट हैं। विधि में से एक टी-आँकड़ों के आधार पर विशेषता महत्व का वर्णन करता है। मानकीकृत सुविधाओं के varImp(model)साथ रैखिक मॉडल पर लागू आर में प्रत्येक मॉडल पैरामीटर के लिए टी-स्टेटिस्टिक का निरपेक्ष मूल्य उपयोग किया जाता है। तो, मूल रूप से हम इसके टी-आंकड़ों के आधार पर एक विशेषता चुनते हैं, जिसका अर्थ है कि गुणांक कितना सटीक है। लेकिन क्या मेरे गुणांक की पूर्वता मुझे सुविधा की अनुमानित क्षमताओं के बारे में कुछ बताती है?

क्या ऐसा हो सकता है कि मेरी सुविधा में टी-स्टैटिसटिक्स कम है लेकिन फिर भी मॉडल की सटीकता में सुधार होगा (कहने दें)? यदि हाँ, तो टी-आंकड़ों के आधार पर चर को बाहर करना कब होगा? या क्या यह गैर-महत्वपूर्ण चरों की अनुमानित क्षमताओं की जांच करने के लिए सिर्फ एक शुरुआती बिंदु देता है?


3
माध्य के एक-नमूना परीक्षण के लिए, टी स्टेटिस्टिक बस अनुमानित मानक त्रुटि (नमूना आकार के वर्गमूल द्वारा विभाजित नमूना मानक विचलन) द्वारा विभाजित नमूना मतलब है। यह आँकड़ा अपने आप में किसी विशेष परिकल्पना पर निर्भर नहीं करता है। उस सांख्यिकीय से एपी मूल्य प्राप्त करना एक परिकल्पना पर निर्भर करता है।
दान हिक्स

@DanHicks मैंने अपना प्रश्न संपादित किया।
एलिना

मैं कैरेट से बहुत परिचित नहीं हूं, लेकिन ऐसा लगता है कि यह varImp()एक सूचनात्मक या नैदानिक ​​कार्य करने के लिए है और इसका उपयोग सीधे चयन या उन्मूलन के लिए नहीं किया जाता है।
david25272

जवाबों:


11

किसी सुविधा की भविष्य कहनेवाला क्षमता के बारे में कहने के लिए टी-स्टेटिस्टिकल के पास कुछ भी नहीं हो सकता है, और उन्हें भविष्यवाणियों को स्क्रीन से बाहर करने या भविष्यवाणियों को भविष्य कहनेवाला मॉडल में अनुमति देने के लिए उपयोग नहीं किया जाना चाहिए।

पी-मान कहते हैं कि महत्वपूर्ण विशेषताएं महत्वपूर्ण हैं

आर। में निम्नलिखित परिदृश्य सेटअप पर विचार करें । दो वैक्टर बनाएं, पहला यादृच्छिक सिक्का फ़्लिप है:5000

set.seed(154)
N <- 5000
y <- rnorm(N)

दूसरा सदिश अवलोकनों है, प्रत्येक को से एक को समान रूप से रैंडम कक्षाओं के लिए दिया गया है:5005000500

N.classes <- 500
rand.class <- factor(cut(1:N, N.classes))

अब हम yदिए गए पूर्वानुमान के लिए एक रेखीय मॉडल फिट करते हैं rand.classes

M <- lm(y ~ rand.class - 1) #(*)

सही गुणांक के सभी के लिए मूल्य शून्य है, उनमें से कोई भी है किसी भी भविष्यवाणी करने की शक्ति। कोई नहीं-कम, उनमें से कई 5% के स्तर पर महत्वपूर्ण हैं

ps <- coef(summary(M))[, "Pr(>|t|)"]
hist(ps, breaks=30)

पी-मूल्यों का हिस्टोग्राम

वास्तव में, हमें उनके बारे में 5% महत्वपूर्ण होने की उम्मीद करनी चाहिए, भले ही उनके पास कोई पूर्वानुमानित शक्ति न हो!

पी-मान महत्वपूर्ण विशेषताओं का पता लगाने में विफल रहते हैं

यहाँ एक उदाहरण दूसरी दिशा में है।

set.seed(154)
N <- 100
x1 <- runif(N)
x2 <- x1 + rnorm(N, sd = 0.05)
y <- x1 + x2 + rnorm(N)

M <- lm(y ~ x1 + x2)
summary(M)

मैंने दो सहसंबद्ध भविष्यवाणियों का निर्माण किया है, जिनमें से प्रत्येक में पूर्वानुमानित शक्ति है।

M <- lm(y ~ x1 + x2)
summary(M)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   0.1271     0.2092   0.608    0.545
x1            0.8369     2.0954   0.399    0.690
x2            0.9216     2.0097   0.459    0.648

पी-मान दोनों चर की अनुमानित शक्ति का पता लगाने में विफल होते हैं क्योंकि सहसंबंध प्रभावित करता है कि मॉडल डेटा से दो व्यक्तिगत गुणांक का अनुमान कितनी सटीक रूप से लगा सकता है।

एक चर की भविष्य कहनेवाला शक्ति या महत्व के बारे में बताने के लिए अवर आंकड़े नहीं हैं। यह उस तरह से उनका उपयोग करने के लिए इन मापों का दुरुपयोग है। भविष्य कहनेवाला रैखिक मॉडल में चर चयन के लिए बहुत बेहतर विकल्प उपलब्ध हैं, उपयोग करने पर विचार करें glmnet

(*) ध्यान दें कि मैं यहाँ एक अवरोधन छोड़ रहा हूँ, इसलिए सभी तुलनाएँ शून्य की आधार रेखा से होती हैं, न कि पहली कक्षा के समूह माध्य से। यह @ व्हिबर का सुझाव था।

चूंकि इसने टिप्पणियों में बहुत दिलचस्प चर्चा की, मूल कोड था

rand.class <- factor(sample(1:N.classes, N, replace=TRUE))

तथा

M <- lm(y ~ rand.class)

जिसके कारण निम्नलिखित हिस्टोग्राम हो गया

पी-मूल्यों का तिरछा हिस्टोग्राम


2
हम्म, यह पी-मूल्य वितरण एक समान क्यों नहीं है?
अमीबा का कहना है कि

4
वाह, आपने बीज संख्या कैसे निकाली? लगभग समान PS में कोई अन्य परिणाम ...
मनोवैज्ञानिक

3
मैं हमेशा इस तरह की चीज के लिए एक ही बीज का उपयोग करने की कोशिश करता हूं: en.wikipedia.org/wiki/154_(album)
मैथ्यू

9
आप गलत परीक्षण कर रहे हैं: आप 499 समूह साधनों की तुलना पहले समूह माध्य से कर रहे हैं। बीज 154 के साथ, 1.18 का पहला समूह औसत असामान्य रूप से अधिक है (जो कि हो सकता है क्योंकि 5 का समूह आकार इतना छोटा है), इसलिए अधिकांश अन्य में काफी नकारात्मक प्रभाव पड़ता है। इसे मॉडल चलाकर ठीक करें lm(y ~ rand.class - 1)। यह आपकी सभी टिप्पणियों (+1) की वैधता को नहीं बदलता है। : और भी समझाने होने के लिए, संतुलन समूह आकारrand.class <- cut(1:N, N.classes)
whuber

1
बेशक: / I 100% @whuber को छोड़ने की उम्मीद है, और कुछ पूरी तरह से स्पष्ट और स्पष्ट कहना है कि मैं चूक गया था। मैं इसे अब ठीक कर दूँगा।
मैथ्यू

2

टी-स्टेटिस्टिक प्रभाव आकार और नमूना आकार से प्रभावित होता है। यह मामला हो सकता है कि प्रभाव का आकार गैर-शून्य हो, लेकिन नमूना आकार इतना बड़ा नहीं है कि यह महत्वपूर्ण हो सके।

शून्य माध्य के लिए एक साधारण टी-टेस्ट में (जो कि एक फीचर के प्रभाव शून्य होने पर परीक्षण के अनुरूप है) टी स्टेटिस्टिकt=(x¯s)n

x¯s प्रभाव आकार का नमूना अनुमान है, यदि यह छोटा है तो पी-मान तब तक अपना महत्वपूर्ण नहीं दिखाएगा जब तक कि शब्द बड़ा नहीं हो जाता।n

आपके मामले में गैर-शून्य प्रभाव वाली कोई भी सुविधा प्रदर्शन में सुधार करेगी, लेकिन आपके पास उस सुविधा के पी-मूल्य को महत्वपूर्ण बनाने के लिए पर्याप्त डेटा नहीं हो सकता है।


4
मुझे नहीं लगता कि यह सच है कि गैर-शून्य प्रभाव वाली किसी भी सुविधा के प्रदर्शन में सुधार होगा। शायद यह प्रशिक्षण डेटा पर सच है, लेकिन यह निश्चित रूप से परीक्षण डेटा पर नहीं है ।
मैथ्यू

@MatthewDrury क्या आप कह रहे हैं कि हमारे पास नमूनों से जनसंख्या माप को परिभाषित करने के लिए तरीके नहीं हैं?
टॉड डी

नहीं, लेकिन यह सच है कि शानदार विशेषताएं आपकी क्षमता को अच्छी तरह से करने के लिए हस्तक्षेप कर सकती हैं।
मैथ्यू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.