चंक टेस्ट क्या हैं?


13

मल्टीकोलिनरिटी की उपस्थिति में मॉडल चयन पर एक सवाल के जवाब में , फ्रैंक हार्ले ने सुझाव दिया :

सभी चर को मॉडल में रखें, लेकिन प्रतिस्पर्धी चर के प्रभावों के लिए समायोजित एक चर के प्रभाव के लिए परीक्षण न करें ... प्रतिस्पर्धी चर के चंक परीक्षण शक्तिशाली होते हैं, क्योंकि कोलीनियर चर, स्वतंत्रता संघ परीक्षण के समग्र एकाधिक डिग्री में बलों में शामिल होते हैं, बजाय जब आप वैयक्तिकृत रूप से परीक्षण करते हैं तो एक दूसरे के खिलाफ प्रतिस्पर्धा करते हैं।

चंक टेस्ट क्या हैं ? क्या आप उनके आवेदन का उदाहरण दे सकते हैं r?


3
मुझे लगता है कि यह एक समय में चर के ब्लॉक का परीक्षण करने के लिए संदर्भित करता है, जहां एक ब्लॉक के भीतर सभी संभावित समरूपता होती है, जो -टेस्ट या संभावना अनुपात परीक्षण जैसे सर्वग्राही परीक्षणों को प्रभावित नहीं करती है , लेकिन मैंने शब्द कभी नहीं सुना है " चंक परीक्षण ”। F
मैक्रों

2
एक स्थिति जिसे मैंने उन्हें सुझाया है (और खुद उन्हें किया है) है जब आपके पास कई परस्पर अनन्य डमी चर की श्रृंखला होती है (जैसे कई संभावित श्रेणियों के साथ एक नाममात्र स्वतंत्र चर)। किसी भी एकल डमी चर के साथ जुड़े किसी भी व्यक्तिगत गुणांक का परीक्षण बहुत दिलचस्प नहीं है, क्योंकि यह आधार रेखा के रूप में जो भी आप चुनते हैं उसके साथ एक विशेष विपरीत का परीक्षण करता है। इसलिए एक अधिक जानकारीपूर्ण परीक्षण सभी डमी चरों को छोड़ने वाले प्रतिबंधित मॉडल की संभावना अनुपात परीक्षण है।
एंडी डब्ल्यू

2
पेजिंग @FrankHarrell ...
fmark

यह काम नहीं करता है, चिह्न। :)
कार्डिनल

1
शर्म की बात है, यह :) चाहिए
fmark

जवाबों:


13

@ mark999 ने एक उत्कृष्ट उत्तर प्रदान किया। संयुक्त रूप से बहुपद के परीक्षण के अलावा, आप संयुक्त रूप से ("चंक परीक्षण") चर के किसी भी सेट का परीक्षण कर सकते हैं। मान लीजिए कि आपके पास प्रतिस्पर्धी कोलीनियर चर ट्राइसप परिधि, कमर, कूल्हे परिधि, शरीर के आकार के सभी मापों के साथ एक मॉडल था। एक समग्र शरीर के आकार का परीक्षण करने के लिए, आप कर सकते हैं

require(rms)
f <- ols(y ~ age + tricep + waist + pol(hip,2))
anova(f, tricep, waist, hip)  # 4 d.f. test

NAtricep, waist, hipR2


1
फ्रैंक कि बाहर इशारा करने के लिए धन्यवाद। मुझे नहीं पता था कि आप ऐसा कर सकते हैं।
mark999

12

मैक्रों की टिप्पणी सही है, जैसा कि एंडी है। यहाँ एक उदाहरण है।

> library(rms)
> 
> set.seed(1)
> d <- data.frame(x1 = rnorm(50), x2 = rnorm(50))
> d <- within(d, y <- 1 + 2*x1 + 0.3*x2 + 0.2*x2^2 + rnorm(50))
> 
> ols1 <- ols(y ~ x1 + pol(x2, 2), data=d) # pol(x2, 2) means include x2 and x2^2 terms
> ols1

Linear Regression Model

ols(formula = y ~ x1 + pol(x2, 2), data = d)

                Model Likelihood     Discrimination    
                   Ratio Test           Indexes        
Obs       50    LR chi2     79.86    R2       0.798    
sigma 0.9278    d.f.            3    R2 adj   0.784    
d.f.      46    Pr(> chi2) 0.0000    g        1.962    

Residuals

    Min      1Q  Median      3Q     Max 
-1.7463 -0.4789 -0.1221  0.4465  2.2054 

          Coef   S.E.   t     Pr(>|t|)
Intercept 0.8238 0.1654  4.98 <0.0001 
x1        2.0214 0.1633 12.38 <0.0001 
x2        0.2915 0.1500  1.94 0.0581  
x2^2      0.2242 0.1163  1.93 0.0602  


> anova(ols1)
                Analysis of Variance          Response: y 

 Factor     d.f. Partial SS MS          F      P     
 x1          1   131.894215 131.8942148 153.20 <.0001
 x2          2    10.900163   5.4500816   6.33 0.0037
  Nonlinear  1     3.196552   3.1965524   3.71 0.0602
 REGRESSION  3   156.011447  52.0038157  60.41 <.0001
 ERROR      46    39.601647   0.8609054              

इसके x2और x2^2शर्तों पर अलग से विचार करने के बजाय , "चंक टेस्ट" 2-df टेस्ट है जो अशक्त परिकल्पना का परीक्षण करता है कि उन शब्दों के गुणांक दोनों शून्य हैं (मेरा मानना ​​है कि इसे आमतौर पर "सामान्य रैखिक एफ-टेस्ट" की तरह कुछ कहा जाता है )। उस परीक्षण का पी-मान 0.0037 द्वारा दिया गया है anova(ols1)

ध्यान दें कि rmsपैकेज में, आपको यह जानने के लिए x2शर्तों को निर्दिष्ट करना होगा कि उन्हें एक साथ परीक्षण किया जाना है।pol(x2, 2)anova.rms()

anova.rms()भविष्यवक्ता चर के लिए इसी तरह के परीक्षण करेंगे जो कि उदाहरण के लिए rcs(x2, 3), और श्रेणीबद्ध भविष्यवाणियों के लिए क्यूबिक स्प्लिन के रूप में प्रतिनिधित्व किए जाते हैं । इसमें "हिस्सा" में बातचीत की शर्तें भी शामिल होंगी।

यदि आप सामान्य "प्रतिस्पर्धी" भविष्यवक्ता चर के लिए एक चंक परीक्षण करना चाहते थे, जैसा कि उद्धरण में उल्लेख किया गया है, मेरा मानना ​​है कि आपको इसे दो मॉडलों को अलग-अलग फिटिंग और फिर उपयोग करके मैन्युअल रूप से करना होगा anova(model1, model2)। [संपादित करें: यह गलत है - फ्रैंक हरेल का उत्तर देखें।]


2
Xcor(X,X2)=0

स्पष्टता के लिए, मुझे लगता है कि मुझे यह "आंशिक एफ-परीक्षण" के रूप में सिखाया गया था, जहां आप संयुक्त महत्व के लिए 2 या अधिक चर का परीक्षण करते हैं। या आपके मॉडल में चर का एक सबसेट अधिक प्रतिबंधित मॉडल (केवल संभावना अनुपात परीक्षण की तरह) में सुधार करता है या नहीं। क्या मैं सही हूँ?
सी। पीटर

@ C.Pieters मुझे नहीं पता कि आप सही हैं, लेकिन यह उचित लगता है।
mark999
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.