रिग्रेशन, टी-टेस्ट और एनोवा सामान्य रैखिक मॉडल के सभी संस्करण कैसे हैं?


49

जवाबों:


47

इस बात पर विचार करें कि वे सभी एक प्रतिगमन समीकरण के रूप में लिखे जा सकते हैं (शायद उनके पारंपरिक रूपों की तुलना में थोड़ी भिन्न व्याख्याओं के साथ)।

प्रतिगमन:

Y=β0+β1X(continuous)+εwhere εN(0,σ2)

t-test:

Y=β0+β1X(dummy code)+εwhere εN(0,σ2)

ANOVA:

Y=β0+β1X(dummy code)+εwhere εN(0,σ2)

प्रोटोटाइप प्रतिगमन साथ एक सतत चर के रूप में अवधारणा है । हालांकि, बारे में वास्तव में बनाई गई एकमात्र धारणा यह है कि यह ज्ञात स्थिरांक का एक वेक्टर है। यह एक सतत चर हो सकता है, लेकिन यह एक डमी कोड (यानी, के & वेक्टर का भी संकेत हो सकता है) जो इंगित करता है कि क्या अवलोकन एक संकेतित समूह का सदस्य है - जैसे, एक उपचार समूह)। इस प्रकार, दूसरे समीकरण में, ऐसा डमी कोड हो सकता है, और पी-वैल्यू वैसा ही होगा जैसा कि अपने अधिक पारंपरिक रूप में टी-टेस्ट से। एक्स 0 1 एक्सXX01X

हालांकि, यहां दांव का मतलब अलग होगा। इस स्थिति में, नियंत्रण समूह का माध्यम होगा (जिसके लिए डमी चर में प्रविष्टियां 's) , और उपचार समूह और नियंत्रण के माध्य के बीच अंतर होगा। समूह। 0 β 1β00β1

अब, याद रखें कि केवल दो समूहों (हालांकि एक टी-परीक्षण अधिक सामान्य होगा) के साथ एक एनोवा को चलाने / चलाने के लिए यह पूरी तरह से उचित है, और आप तीनों जुड़े हुए हैं। यदि आप यह देखना पसंद करते हैं कि यदि आपके पास 3 समूहों के साथ एक एनोवा है तो यह कैसे काम करेगा; यह होगा: ध्यान दें कि आप जब कि समूहों, आप डमी कोड उन्हें प्रतिनिधित्व करते हैं। संदर्भ समूह (आमतौर पर नियंत्रण समूह) को सभी के लिए होने का संकेत दिया गया हैजी जी - 1 0 β 0 β 1 β 2

Y=β0+β1X(dummy code 1)+β2X(dummy code 2)+εwhere εN(0,σ2)
gg10डमी कोड (इस मामले में, डमी कोड 1 और डमी कोड 2)। इस मामले में, आप मानक सांख्यिकीय आउटपुट के साथ आने वाले इन बेटों के लिए टी-परीक्षणों के पी-मूल्यों की व्याख्या नहीं करना चाहेंगे - वे केवल संकेत देते हैं कि क्या संकेतित समूह नियंत्रण समूह से अलग होने पर मूल्यांकन किया जाता है । यही है, ये परीक्षण स्वतंत्र नहीं हैं। इसके बजाय, आप यह आंकलन करना चाहेंगे कि क्या समूह का मतलब एनोवा तालिका का निर्माण करके और एफ-टेस्ट आयोजित करने से भिन्न हो सकता है। यह जो मूल्य है, उसके लिए व्याख्या ऊपर वर्णित टी-टेस्ट संस्करण के साथ की गई है: नियंत्रण / संदर्भ समूह का मतलब है, समूह 1 और संदर्भ समूह के साधनों के बीच अंतर को इंगित करता है, औरβ0β1β2समूह 2 और संदर्भ समूह के बीच अंतर को इंगित करता है।

नीचे @ whuber की टिप्पणी के प्रकाश में, ये भी मैट्रिक्स समीकरण के माध्यम से व्यक्त किया जा सकता: प्रतिनिधित्व इस तरह से, और लंबाई की वैक्टर हैं , और लंबाई का एक वेक्टर है । अब रो और कॉलम के साथ एक मैट्रिक्स है । एक प्रोटोटाइप प्रतिगमन में आप निरंतर चर और अवरोधन। इस प्रकार, आपका मैट्रिक्स कॉलम वैक्टर की एक श्रृंखला से बना होता है, जो कि प्रत्येक
वाई ε एन β पी + 1 एक्स एन ( पी + 1 ) पी एक्स एक्स एक्स 1

Y=Xβ+ε
YεNβp+1XN(p+1)pXXXवैरिएबल, इंटरसेप्ट के लिए बायीं ओर कॉलम के साथ । 1

यदि आप इस तरह से समूहों के साथ एक एनोवा का प्रतिनिधित्व कर रहे हैं , तो याद रखें कि आपके पास समूह को इंगित करने वाले डमी चर होंगे, संदर्भ समूह द्वारा प्रत्येक डमी चर में अवलोकन से संकेत मिलता है । ऊपर के रूप में, आप अभी भी एक अवरोधन होगा। इस प्रकार, । जी - 1 0 पी = जी - 1gg10p=g1


1
ANOVA समीकरण एक एनोवा (और टी-टेस्ट नहीं) के रूप में समझ में आता है, केवल अगर को वेक्टर के रूप में व्याख्या किया गया हो और दाईं ओर गुणा किया गया हो। β1
whuber

ये मैट्रिक्स समीकरण नहीं हैं; मैं शायद ही कभी उन लोगों का उपयोग करता हूं, जैसा कि कई लोग उन्हें नहीं पढ़ते हैं। 1 एनोवा पूर्ववर्ती टी-टेस्ट के समान स्थिति का प्रतिनिधित्व करता है। मैं सिर्फ यह इंगित कर रहा हूं कि यदि आप 2-नमूना स्वतंत्र टी-टेस्ट चला सकते हैं, तो आप एक एनोवा (जो बहुत से लोग अपने आँकड़े 101 वर्ग से पहचान / याद रखें) के रूप में एक ही डेटा चला सकते हैं। मैं एक और ANOVA संस्करण w / 3 समूहों को जोड़कर स्पष्ट करता हूं कि 2-समूह की स्थिति केवल ANOVA मामला नहीं है जिसे प्रतिगमन के रूप में समझा जा सकता है; लेकिन रेग समीकरण अब अलग दिखता है - मैं ऊपर एक अधिक स्पष्ट समानांतर बनाए रखने की कोशिश कर रहा था।
गूँग - मोनिका

मेरा कहना यह है कि जब तक आप इसे एक मैट्रिक्स समीकरण नहीं बनाते हैं, तब तक एनोवा का आपका लक्षण वर्णन उपयोगी होने तक सीमित है: यह टी-टेस्ट के आपके लक्षण वर्णन के समान है और इसलिए यह मददगार होने की तुलना में अधिक भ्रामक है। जब आप अधिक समूह शुरू करते हैं, तो आप अचानक समीकरण बदल देते हैं, जो स्पष्ट से कम भी हो सकता है। आप मैट्रिक्स संकेतन का उपयोग करना चाहते हैं या नहीं, यह आप पर निर्भर है, लेकिन अच्छी तरह से संवाद करने के हित में आपको निरंतरता के लिए प्रयास करना चाहिए।
whuber

क्या आप टी-टेस्ट की लोकप्रिय परिभाषा से आपके द्वारा दिखाए गए समीकरण के बारे में थोड़ा और विस्तार से बता सकते हैं। आमतौर पर मैं यह नहीं समझ सकता कि यहां वाई क्या है (यह आंकड़े के लिए भोली या कम बुद्धि हो सकती है)। हालाँकि इस समीकरण में t = (yx-u0) / s से कैसे पहुँचें।
गौरव सिंघल

यह नहीं है, हालांकि यह आपके लिए अपरिचित हो सकता है। सूचीबद्ध सभी मामलों में निरंतर (और सशर्त रूप से सामान्य) माना जाता है। बारे में कोई वितरण संबंधी धारणा नहीं है , यह निरंतर, द्विध्रुवीय या एक बहु-स्तरीय श्रेणीगत चर हो सकता है। एक्सYX
गंग -

16

वे सभी सामान्य रैखिक मॉडल के विशेष मामलों के रूप में लिखे जा सकते हैं।

टी-परीक्षण एनोवा का दो-नमूना मामला है। यदि आप टी-टेस्ट स्टेटिस्टिक को स्क्वायर करते हैं तो आपको एनोवा में संबंधित मिलता है ।F

एक एनोवा मॉडल मूल रूप से सिर्फ एक प्रतिगमन मॉडल है जहां कारक स्तरों को डमी (या संकेतक ) चर द्वारा दर्शाया जाता है ।

इसलिए यदि टी-टेस्ट के लिए मॉडल एनोवा मॉडल का सबसेट है और एनोवा कई प्रतिगमन मॉडल का एक उप-समूह है, तो प्रतिगमन स्वयं (और प्रतिगमन के अलावा अन्य चीजें) सामान्य लीनियर मॉडल का एक उप-समूह है , जो प्रतिगमन को एक में बदल देता है सामान्य प्रतिगमन मामले (जो कि 'स्वतंत्र' और 'समान-विचरण') की तुलना में त्रुटि शब्द का अधिक सामान्य विनिर्देश है, और को बहुस्तरीय करना है ।Y


यहां एक उदाहरण साधारण (समान-विचरण) दो नमूना- विश्लेषण और एक प्रतिगमन मॉडल में एक परिकल्पना परीक्षण दिखा रहा है , जो R में किया गया है (वास्तविक डेटा को युग्मित किया गया लगता है, इसलिए यह वास्तव में एक उपयुक्त विश्लेषण नहीं है) :t

> t.test(extra ~ group, var.equal=TRUE, data = sleep) 

    Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919   
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

उपरोक्त 0.079 के पी-मूल्य पर ध्यान दें। यहाँ एक ही रास्ता है:

> summary(aov(extra~group,sleep))
            Df Sum Sq Mean Sq F value Pr(>F)  
group        1  12.48  12.482   3.463 0.0792 
Residuals   18  64.89   3.605                 

अब प्रतिगमन के लिए:

> summary(lm(extra ~ group, data = sleep))

(कुछ आउटपुट हटाया गया)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   0.7500     0.6004   1.249   0.2276  
group2        1.5800     0.8491   1.861   0.0792 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared:  0.1613,    Adjusted R-squared:  0.1147 
F-statistic: 3.463 on 1 and 18 DF,  p-value: 0.07919

'Group2' पंक्ति में पी-मान की तुलना करें, और अंतिम पंक्ति में एफ-परीक्षण के लिए पी-मूल्य भी। दो-पूंछ वाले परीक्षण के लिए, ये समान हैं और दोनों ही टी-टेस्ट परिणाम से मेल खाते हैं।

इसके अलावा, 'group2' का गुणांक दो समूहों के लिए साधनों के अंतर को दर्शाता है।


सभी 3 परिदृश्यों में समान p मान होना जादुई और प्रभावशाली है, हालाँकि यदि आप इन p-मानों की गणना कैसे की जाती है, इस बारे में थोड़ा और बता सकते हैं, तो यह निश्चित रूप से इस उत्तर को और अधिक रोचक बना देगा । मुझे नहीं पता कि क्या पी-वैल्यू गणना दिखाने से यह अधिक उपयोगी हो जाएगा , इसलिए यह वह चीज है जो आप तय कर सकते हैं।
गौरव सिंघल

@ गौरव पी-मान समान हैं क्योंकि आप एक ही मॉडल पर एक ही परिकल्पना का परीक्षण कर रहे हैं, बस थोड़ा अलग ढंग से प्रतिनिधित्व किया है। यदि आप रुचि रखते हैं कि कुछ विशिष्ट पी-मूल्य की गणना कैसे की जाती है, तो यह एक नया प्रश्न होगा (यह यहाँ प्रश्न का उत्तर नहीं होगा)। आप इस तरह का सवाल पूछने के लिए स्वतंत्र हैं, हालांकि पहले खोज का प्रयास करें क्योंकि यह पहले से ही उत्तर दिया जा सकता है।
Glen_b

धन्यवाद @Glen_b, एक स्पष्ट प्रश्न पूछने के लिए क्षमा करें और वह भी सबसे अच्छे तरीके से नहीं। और आपने अभी भी मेरे प्रश्न का उत्तर दिया - "एक ही मॉडल (और / या डेटा) पर एक ही परिकल्पना"। मैंने पर्याप्त विचार नहीं दिया कि वे एक ही परिकल्पना का परीक्षण कैसे कर रहे हैं। साभार
गौरव सिंघल

2

यह उत्तर जो मैंने पहले पोस्ट किया था वह कुछ हद तक प्रासंगिक है, लेकिन यह सवाल कुछ अलग है।

आप निम्नलिखित रेखीय मॉडल के बीच अंतर और समानता के बारे में सोचना चाह सकते हैं:

[Y1Yn]=[1x11x21x31xn][α0α1]+[ε1εn]
[Y1Yn]=[10001000010001000010][α0αk]+[ε1εn]

2
कुछ विवरण और सवाल टिप्पणी पाठकों के लिए उपयोगी अब क्योंकि वे लगता है कि करने के लिए होगा वे कहाँ से आए थे और वे सवाल से संबंधित होते हैं ...
टिम

0

एनोवा उपचारों के बीच अज्ञात लेकिन समान भिन्नताओं की धारणा के तहत साधनों की समानता के लिए एक टी-टेस्ट के समान है। ऐसा इसलिए है क्योंकि एनोवा एमएसई टी-टेस्ट में उपयोग किए जाने वाले पूल-वेरिएंस के समान है। टी-टेस्ट के अन्य संस्करण भी हैं जैसे कि अन-बराबर वेरिएन्स और जोड़ी-वार टी-टेस्ट के लिए एक। इस दृष्टिकोण से, टी-टेस्ट अधिक लचीला हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.