ये प्रतिगमन एनोवा टेबल समान क्यों हैं?


11

मेरे पास एक ही Y और तीन-स्तरीय X के दो रजिस्टर हैं। कुल मिलाकर n = 15, प्रत्येक समूह या X के स्तर में n = 5 के साथ। पहला प्रतिगमन X को श्रेणीगत के रूप में मानता है, संकेतक चर को स्तर 2 और 3 के रूप में निर्दिष्ट करता है। एक संदर्भ है। संकेतक / डमी इस तरह हैं: X1 = 1 यदि स्तर = 2, 0 यदि और तो X2 = 1 यदि स्तर = 3, 0 यदि अन्य

परिणामस्वरूप मेरा फिट मॉडल कुछ इस तरह दिखता है: y = b0 + b1 (X1) + b2 (x2)

मैं प्रतिगमन चलाता हूं, और आउटपुट में वैरिएन टेबल का विश्लेषण शामिल है:

तालिका

बाकी उत्पादन यहाँ अप्रासंगिक है।

ठीक है तो अब मैं एक ही डेटा पर एक अलग प्रतिगमन चलाता हूं। मैं श्रेणीबद्ध विश्लेषण का विश्लेषण करता हूं और X को निरंतर मानता हूं, लेकिन मैं समीकरण में एक चर जोड़ता हूं: X ^ 2, X का वर्ग। तो अब मेरे पास निम्नलिखित मॉडल है: y = b0 + b1 (X) + b2 (X) ^ 2

अगर मैं इसे चलाता हूं, तो यह वैरिएनस टेबल का वही सटीक विश्लेषण करता है जो मैंने आपको ऊपर दिखाया था। ये दोनों प्रतिगमन एक ही तालिकाओं को क्यों जन्म देते हैं?

[इस छोटे से संधि का श्रेय कैलिफोर्निया यूनिवर्सिटी ऑफ लॉस एंजिल्स में डिपार्टमेंट ऑफ बायोस्टैटिस्टिक्स में थॉमस बेलिन को जाता है।]


मुझे लगता है कि आपको हमें वह कोड दिखाना होगा जो "प्रतिगमन करता है" और संभवतः डेटा चरण (मेरे लिए एसएएस आउटपुट जैसा दिखता है) आप डेटा टैब बनाने के लिए उपयोग करते हैं जिस पर आप काम कर रहे हैं।
ब्रैड एस।

1
@ मुझे नहीं लगता कि यह आवश्यक है: स्थिति स्पष्ट रूप से वर्णित है और यह बताने के लिए और अधिक जानकारी की आवश्यकता नहीं है कि क्या चल रहा है।
whuber

@ हो सकता है। मुझे लगता है, यदि आप ऐसा कहते हैं, लेकिन यह मेरे लिए एक प्रोग्रामिंग त्रुटि की तरह लगता है। मैं तुम्हारे जवाब की प्रतीक्षा में रहूंगा।
ब्रैड एस।

1
@ ब्रैड प्रोग्रामिंग त्रुटि नहीं: मैंने अपना स्पष्टीकरण पोस्ट किया। यह एक अच्छा प्रश्न है, वास्तविक सांख्यिकीय ब्याज (और प्रयोज्यता) के साथ।
whuber

हे ब्रैड, यह वास्तव में एक समस्या सेट से है - स्थिति मुझे उसी तरह दी गई थी जैसे मैंने इसे आप लोगों को दिया था, और सवाल थोड़े उसी तरह से पेश आया: "वे एक ही क्यों होंगे?"। यह सिर्फ इतना है कि मैंने इसे कैसे बाहर रखा: दो मॉडल, एक ही एनोवा तालिका, बाकी आउटपुट भी नहीं दिए गए (मुझे "अप्रासंगिक" कहने के बजाय यह स्पष्ट करना चाहिए)।
logjammin

जवाबों:


22

मैट्रिक्स संदर्भ में अपने मॉडल सामान्य रूप में कर रहे हैं [Y]=एक्सβ

पहला मॉडल X में पंक्ति द्वारा पहले समूह के एक तत्व का प्रतिनिधित्व करता है , जो इंटरसेप्ट के अनुरूप है, श्रेणी 2 के लिए संकेतक और श्रेणी 3 के लिए संकेतक। यह दूसरे समूह के एक तत्व का प्रतिनिधित्व करता है। पंक्ति ( 1 , 1 , 0 ) और तीसरे समूह का एक तत्व ( 1 , 0 , 1 )(1,0,0)एक्स(1,1,0)(1,0,1)

इसके बजाय दूसरा मॉडल पंक्तियों , ( 1 , 2 , 2 2 ) = ( 1 , 2 , 4 ) , और ( 1 , 3 , 3 2 ) = का उपयोग करता है ( 1 , 3 , 9 ) , क्रमशः।(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)

आइए परिणामी मॉडल matrices और X 2 को कॉल करें । वे बस संबंधित हैं: एक के कॉलम दूसरे के कॉलम के रैखिक संयोजन हैं। उदाहरण के लिए, चलोएक्स1एक्स2

वी=(111013028)

तब से

(100110101)वी=(111124139),

यह इस प्रकार है कि

एक्स1वी=एक्स2

इसलिए मॉडल खुद से संबंधित हैं

एक्स1β1=[Y]=एक्स2β2=(एक्स1वी)β2=एक्स1(वीβ2)

β2

β1=वीβ2

वही संबंध इसलिए उनके कम से कम वर्गों के अनुमान के लिए है। इससे पता चलता है कि मॉडल में समान फिट हैं : वे केवल उन्हें अलग तरीके से व्यक्त करते हैं।

चूंकि दो मॉडल मैट्रिस के पहले कॉलम समान हैं, कोई भी एनोवा तालिका जो पहले कॉलम और शेष कॉलम के बीच विचरण का विघटन करती है, वह नहीं बदलेगी। एक एनोवा तालिका जो दूसरे और तीसरे कॉलम के बीच अंतर करती है, हालांकि, इस बात पर निर्भर करेगा कि डेटा कैसे एन्कोडेड हैं।

आर15एक्स1एक्स2


समझाने के लिए, यहाँ आपके जैसे डेटा (लेकिन अलग-अलग प्रतिक्रियाओं के साथ) और उसी के अनुसार उत्पन्न किए गए विश्लेषण हैं R

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

दो मॉडल फिट करें:

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

उनके एनोवा तालिकाओं को प्रदर्शित करें:

anova(fit.1)
anova(fit.2)

पहले मॉडल के लिए आउटपुट है

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

दूसरे मॉडल के लिए यह है

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

आप देख सकते हैं कि वर्गों के अवशिष्ट योग समान हैं। दूसरे मॉडल में पहली दो पंक्तियों को जोड़कर आप उसी DF और योग का वर्ग प्राप्त करेंगे, जहाँ से समान माध्य वर्ग, F मान और P- मान की गणना की जा सकती है।

अंत में, चलो गुणांक अनुमानों की तुलना करते हैं।

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

आउटपुट है

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

वी

(111013028)(-3.46273854.4667371-0.5531225)=(0.45087622.80736974.5084944)

जैसा कि दावा किया गया है वैसे ही फिट बैठता है।


6
पवित्र धूम्रपान करता है, आदमी। मैंने कभी भी अधिक विचार नहीं किया है, इंटरनेट से सवाल पूछने का पूरी तरह से जवाब। धन्यवाद x1000, गंभीरता से।
logjammin

हमारी साइट पर आपका स्वागत है! मुझे आशा है कि आप इसका उपयोग जारी रखेंगे और आपके योगदान के लिए तत्पर रहेंगे।
whuber

1
मैंने आज कुछ सीखा! (upvoted)
ब्रैड एस।


5

संक्षेप में, दोनों मॉडल इस अर्थ में संतृप्त हैं कि वे एक्स के सभी 3 स्तरों पर प्रतिक्रिया की अद्वितीय अनुभवजन्य भविष्यवाणियां प्रदान करते हैं। यह मॉडल 1 में कारक चर कोडिंग के लिए स्पष्ट हो सकता है। द्विघात प्रवृत्ति के लिए, यह ध्यान रखना दिलचस्प है कि द्विघात सूत्र किसी भी 3 बिंदुओं को प्रक्षेपित कर सकता है। हालांकि विरोधाभास अलग-अलग हैं, दोनों मॉडल में एक अवरोधन की एक अशांति के खिलाफ वैश्विक परीक्षण केवल मॉडल समान निष्कर्ष प्रदान करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.