मुझे इस विचार में कुछ रंग डालना चाहिए कि श्रेणीबद्ध ( डमी-कोडेड ) रजिस्टरों वाले ओएलएस एनोवा में कारकों के बराबर हैं । दोनों मामलों में स्तर (या एनोवा के मामले में समूह ) हैं।
ओएलएस रिग्रेशन में रिग्रेसर्स में निरंतर चर भी होना सबसे सामान्य है। ये तार्किक रूप से श्रेणीबद्ध चर और निर्भर चर (DC) के बीच फिट मॉडल में संबंध को संशोधित करते हैं। लेकिन समानांतर पहचान करने की बात नहीं है।
mtcars
डेटा सेट के आधार पर हम पहले मॉडल lm(mpg ~ wt + as.factor(cyl), data = mtcars)
को निरंतर चर wt
(वजन) द्वारा निर्धारित ढलान के रूप में देख सकते हैं , और अलग-अलग इंटरप्रेटिकल वेरिएबल cylinder
(चार, छह या आठ सिलेंडर) के प्रभाव को दर्शाते हैं। यह अंतिम भाग है जो एक तरह से एनोवा के साथ समानांतर बनाता है।
आइए इसे उप-भूखंड पर दाईं ओर देखें (तुरंत बाद में चर्चा की गई एनोवा मॉडल के साथ साइड-टू-साइड तुलना के लिए बाईं ओर तीन उप-भूखंड शामिल हैं):
प्रत्येक सिलेंडर इंजन रंग कोडित है, और अलग-अलग अवधारणाओं के साथ फिट लाइनों के बीच की दूरी और डेटा बादल एक एनोवा में समूह-भिन्नता के बराबर है। ध्यान दें कि एक सतत चर (साथ OLS मॉडल में अवरोध weight
) गणितीय अलग भीतर-समूह एनोवा में अर्थ का मूल्य के रूप में ही, के प्रभाव के कारण है weight
और विभिन्न मॉडल मैट्रिक्स (देखें नीचे): मतलब mpg
के लिए 4-सिलेंडर कारें, उदाहरण के लिए, mean(mtcars$mpg[mtcars$cyl==4]) #[1] 26.66364
जबकि ओएलएस "बेसलाइन" इंटरसेप्ट (कन्वेंशन द्वारा दर्शाती है cyl==4
(आर में सबसे कम अंक देने वाले ऑर्डर)) अलग-अलग रूप से चिह्नित है summary(fit)$coef[1] #[1] 33.99079
:। लाइनों का ढलान निरंतर चर के लिए गुणांक है weight
।
यदि आप weight
मानसिक रूप से इन रेखाओं को सीधा करके और उन्हें क्षैतिज रेखा पर वापस लाकर प्रभाव को दबाने की कोशिश करते हैं , तो आप aov(mtcars$mpg ~ as.factor(mtcars$cyl))
बाईं ओर के तीन उप-भूखंडों पर मॉडल के ANOVA भूखंड के साथ समाप्त हो जाएंगे । weight
Regressor अब बाहर है, लेकिन विभिन्न अवरोध करने के लिए अंक से संबंध मोटे तौर पर संरक्षित है - हम बस वामावर्त केवल एक दृश्य डिवाइस के लिए "देख" के रूप में घूर्णन और प्रत्येक अलग स्तर (फिर पहले से ओवरलैपिंग भूखंडों बाहर फैलने कर रहे हैं, कनेक्शन, गणितीय समानता के रूप में नहीं, क्योंकि हम दो अलग-अलग मॉडलों की तुलना कर रहे हैं!)।
cylinder
20x
और यह इन ऊर्ध्वाधर खंडों के योग के माध्यम से है जो हम स्वयं अवशिष्टों की गणना कर सकते हैं:
mu_mpg <- mean(mtcars$mpg) # Mean mpg in dataset
TSS <- sum((mtcars$mpg - mu_mpg)^2) # Total sum of squares
SumSq=sum((mtcars[mtcars$cyl==4,"mpg"]-mean(mtcars[mtcars$cyl=="4","mpg"]))^2)+
sum((mtcars[mtcars$cyl==6,"mpg"] - mean(mtcars[mtcars$cyl=="6","mpg"]))^2)+
sum((mtcars[mtcars$cyl==8,"mpg"] - mean(mtcars[mtcars$cyl=="8","mpg"]))^2)
परिणाम: SumSq = 301.2626
और TSS - SumSq = 824.7846
। से तुलना:
Call:
aov(formula = mtcars$mpg ~ as.factor(mtcars$cyl))
Terms:
as.factor(mtcars$cyl) Residuals
Sum of Squares 824.7846 301.2626
Deg. of Freedom 2 29
वास्तव में एक एनोवा के साथ परीक्षण के रूप में एक ही परिणाम cylinder
regressor के रूप में केवल स्पष्ट के साथ रैखिक मॉडल :
fit <- lm(mpg ~ as.factor(cyl), data = mtcars)
summary(fit)
anova(fit)
Analysis of Variance Table
Response: mpg
Df Sum Sq Mean Sq F value Pr(>F)
as.factor(cyl) 2 824.78 412.39 39.697 4.979e-09 ***
Residuals 29 301.26 10.39
हम जो देखते हैं, वह यह है कि अवशिष्ट - कुल विचरण का वह भाग जो मॉडल द्वारा नहीं समझाया गया है - साथ ही साथ विचरण भी उसी प्रकार का है lm(DV ~ factors)
, जिसे आप टाइप का OLS या ANOVA ( aov(DV ~ factors)
) कहते हैं: जब हम पट्टी करते हैं निरंतर चर के मॉडल हम एक समान प्रणाली के साथ समाप्त होते हैं। इसी तरह, जब हम विश्व स्तर पर या एक सर्वग्राही एनोवा (स्तर से स्तर नहीं) के रूप में मॉडल का मूल्यांकन करते हैं, तो हम स्वाभाविक रूप से समान पी-मूल्य प्राप्त करते हैं F-statistic: 39.7 on 2 and 29 DF, p-value: 4.979e-09
।
इसका मतलब यह नहीं है कि व्यक्तिगत स्तरों का परीक्षण समान पी-मूल्यों को प्राप्त करने वाला है। OLS के मामले में, हम आमंत्रित कर सकते हैं summary(fit)
और प्राप्त कर सकते हैं:
lm(formula = mpg ~ as.factor(cyl), data = mtcars)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 26.6636 0.9718 27.437 < 2e-16 ***
as.factor(cyl)6 -6.9208 1.5583 -4.441 0.000119 ***
as.factor(cyl)8 -11.5636 1.2986 -8.905 8.57e-10 ***
pp adjusted
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = mtcars$mpg ~ as.factor(mtcars$cyl))
$`as.factor(mtcars$cyl)`
diff lwr upr p adj
6-4 -6.920779 -10.769350 -3.0722086 0.0003424
8-4 -11.563636 -14.770779 -8.3564942 0.0000000
8-6 -4.642857 -8.327583 -0.9581313 0.0112287
अंत में, हुड के नीचे इंजन पर एक नज़र लेने से ज्यादा आश्वस्त कुछ भी नहीं है, जो कि मॉडल मैट्रेस और कॉलम स्पेस में अनुमानों के अलावा और कोई नहीं है। ये वास्तव में एक एनोवा के मामले में काफी सरल हैं:
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢y1y2y3⋮⋮⋮.yn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢11⋮00⋮.0000⋮11⋮.0000⋮00⋮.11⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎡⎣⎢μ1μ2μ3⎤⎦⎥+⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢ε1ε2ε3⋮⋮⋮.εn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥(1)
cyl 4
cyl 6
cyl 8
yij=μi+ϵijμijiyij
दूसरी ओर, OLS प्रतिगमन के लिए मॉडल मैट्रिक्स है:
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢y1y2y3y4⋮yn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢1111⋮1x12x22x32x42⋮xn2x13x23x33x43⋮xn3⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎡⎣⎢β0β1β2⎤⎦⎥+⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢ε1ε2ε3ε4⋮εn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
yi=β0+β1xi1+β2xi2+ϵiβ0β1β2weight
displacement
lm(mpg ~ wt + as.factor(cyl), data = mtcars)
weight
β0weight
β11cyl 4
cyl 4
11(1),cyl 6
cyl 8
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢y1y2y3y4y5⋮yn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢11111⋮1x1x2x3x4x5⋮xn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥[β0β1]+⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢11100⋮000011⋮1⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥[μ~2μ~3]+⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢ε1ε2ε3ε4ε5⋮εn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
1μ~2.⋅~
fit <- lm(mpg ~ wt + as.factor(cyl), data = mtcars)
summary(fit)$coef[3] #[1] -4.255582 (difference between intercepts cyl==4 and cyl==6 in OLS)
fit <- lm(mpg ~ as.factor(cyl), data = mtcars)
summary(fit)$coef[2] #[1] -6.920779 (difference between group mean cyl==4 and cyl==6)
1μ~3yi=β0+β1xi+μ~i+ϵi