रैखिक प्रतिगमन में श्रेणीबद्ध चर के लिए सांख्यिकीय महत्व का परीक्षण कैसे करें?


18

यदि एक रेखीय प्रतिगमन में मेरे पास श्रेणीगत चर है ... तो मैं कैसे श्रेणीगत चर के स्थिर संकेत को जान सकता हूं?

मान लीजिए कि कारक के 10 स्तर हैं ... एक कारक चर की छतरी के नीचे 10 विभिन्न परिणामी टी-मान ...X1X1

ऐसा लगता है कि सांख्यिकीय चर के प्रत्येक स्तर के लिए सांख्यिकीय हस्ताक्षर का परीक्षण किया जाता है? नहीं?

@ मैक्रो: आपके सुझाव के बाद, मैंने निम्न उदाहरण बनाया है:

ऐसा लगता है कि x3 उपयोगी है और नीचे दिए गए मॉडल की तुलना में मॉडल में शामिल होना चाहिए।

लेकिन वास्तव में यह गलत है ...

n=100    
x1=1:n
x2=(1:n)^2 
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)

lm2=lm(y~x1+x2) 
summary(lm2)

anova(lm1, lm2)

> anova(lm1, lm2)
Analysis of Variance Table

Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1     96  82.782                                  
2     97 146.773 -1    -63.99 74.207 1.401e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

1
@ लूना, वो गलत क्यों है? यह आप के लिए इस्तेमाल किया प्रतीत होता है x3उत्पन्न करने के लिए yतो यह मॉडल और में शामिल किया जाना चाहिए, रों -value कि निष्कर्ष के साथ सहमत हैं। p
मैक्रों

@ सेठ - आप सही कह रहे हैं। मैं बस मॉडल तुलना में आमतौर पर एनोवा का उपयोग करने का एक खिलौना उदाहरण दे रहा था। तो यह मेरे मूल प्रश्न से जुड़ा नहीं है।
लूना

@ मकारो - तुम सही हो। अब मैं बिंदु को देखता हूं। धन्यवाद!
लूना

आर 'कार' पैकेज ( पीडीएफ ) से 'एनोवा' फ़ंक्शन आपको एक श्रेणीगत चर के समग्र महत्व का परीक्षण करने देता है। यह बहुत सारे अलग-अलग पैकेज और प्रकार के प्रतिगमन के साथ काम करता है।
SK4ndal

जवाबों:


28

p

जब मॉडल में अन्य भविष्यवक्ता होते हैं। आपके पास एक श्रेणीबद्ध भविष्यवक्ता के महत्व के परीक्षण के लिए दो विकल्प हैं:

YiXi1,...,XipCik

Yi=β0+β1Xi1+...+βpXip+εi

Rlm()logLikL0

Yi=β0+β1Xi1+...+βpXip+j=1k1αjBj+εi

Bj1Di=j0kk1Rlm()L1Di

λ=2(L1L0)

χ2k1p1-pchisq(2*(L1-L0),df=k-1)R

FRRlm()g1g0anova(g1,g0)

F


बहुत बहुत धन्यवाद मैक्रों। मैंने पाया कि मेरा डेटा अत्यधिक गैर-सामान्य है। QQ प्लॉट इस प्रकार है: वक्र सीधे 45 डिग्री लाइन के नीचे है। वक्र उस सीधी रेखा में स्पर्शरेखा है। और वक्र f (x) = - x ^ 2 (आकृति-वार) के वक्र जैसा दिखता है। मुझे किस तरह की समस्या का सामना करना पड़ रहा है? और मैं इसे कैसे ठीक करूंगा? धन्यवाद!
लूना

1
@ लूना, आपका डेटा अत्यधिक गैर-सामान्य है या अवशिष्ट अत्यधिक गैर-सामान्य हैं? इसके अलावा, मुझे नहीं लगता कि 45 डिग्री लाइन के तहत झूठ के पूरे सेट के लिए यह संभव है।
मैक्रों

ओह वास्तव में आप सही हैं ... मैंने QQ की साजिश पर एक बार और गौर किया। यह 45 डिग्री लाइन के अंतर्गत आने वाले बिंदुओं का पूरा सेट नहीं है। यह f (x) = - x ^ 2 के आकार के साथ वक्र है जो 45 डिग्री लाइन के लिए "स्पर्शरेखा" है। "स्पर्शरेखा" से मेरा मतलब यह होना चाहिए कि "स्पर्शरेखा" बिंदु के आसपास के बिंदु वास्तव में 45 डिग्री रेखा से ऊपर हैं, हालांकि बहुत थोड़ा। इसलिए, नेत्रहीन बोलना, अधिकांश डेटा (~ 98%) 45 डिग्री लाइन से नीचे हैं ... मॉडल तुलना करने से पहले मैं इस समस्या को ठीक करने के लिए सबसे पहले क्या करूंगा? धन्यवाद!
लूना

2
p

1
@ Druss2k, हाँ यह सही है।
मैक्रो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.