मुझे आश्चर्य है कि अगर मुझे कुछ स्पष्ट याद आ रहा है, लेकिन क्या आप इस सांख्यिकीय रूप से ANCOVA का उपयोग नहीं कर सकते हैं? एक महत्वपूर्ण मुद्दा यह है कि दो रजिस्टरों में ढलान त्रुटि के साथ अनुमानित हैं । वे बड़े पैमाने पर आबादी में ढलान के अनुमान हैं। अगर चिंता यह है कि दो प्रतिगमन रेखाएं समानांतर हैं या आबादी में नहीं हैं, तो यह तुलना करने का कोई मतलब नहीं हैa1 साथ में a2सटीक तुल्यता के लिए सीधे; वे दोनों त्रुटि / अनिश्चितता के अधीन हैं जिन्हें ध्यान में रखा जाना चाहिए।
यदि हम सांख्यिकीय दृष्टिकोण से इस बारे में सोचते हैं, और हम डेटा को जोड़ सकते हैं x तथा y दोनों डेटा के लिए कुछ सार्थक तरीके से सेट (यानी x तथा y दोनों सेटों में दो चरों के लिए समान श्रेणी के साथ दो आबादी से खींचा जाता है यह सिर्फ उन दोनों के बीच का संबंध है जो दो आबादी में भिन्न हैं), तो हम निम्नलिखित दो मॉडल फिट कर सकते हैं:
y^=b0+b1x+b2g
तथा
y^=b0+b1x+b2g+b3xg
कहाँ पे bi मॉडल गुणांक हैं, और g एक समूहीकरण चर / कारक है, जो दर्शाता है कि प्रत्येक अवलोकन किस डेटा सेट का है।
हम परीक्षण के लिए एक एनोवा या एफ-अनुपात का उपयोग कर सकते हैं यदि दूसरा, अधिक जटिल मॉडल सरल मॉडल की तुलना में डेटा को बेहतर ढंग से फिट करता है। सरल मॉडल में कहा गया है कि दो लाइनों के ढलान समान हैं (b1) लेकिन रेखाएँ एक दूसरे से एक राशि से ऑफसेट होती हैं ख2।
अधिक जटिल मॉडल में लाइन की ढलान और समूह चर के बीच एक बातचीत शामिल है। यदि इस इंटरैक्शन टर्म के लिए गुणांक शून्य से काफी अलग है या एनोवा / एफ-अनुपात इंगित करता है कि अधिक जटिल मॉडल डेटा को बेहतर तरीके से फिट करता है तो हमें नल की परिकल्पना को अस्वीकार करना होगा कि दो लाइनें समानांतर हैं।
डमी डेटा का उपयोग करते हुए आर में एक उदाहरण है। सबसे पहले, समान ढलान वाला डेटा:
set.seed(2)
samp <- factor(sample(rep(c("A","B"), each = 50)))
d1 <- data.frame(y = c(2,5)[as.numeric(samp)] + (0.5 * (1:100)) + rnorm(100),
x = 1:100,
g = samp)
m1 <- lm(y ~ x * g, data = d1)
m1.null <- lm(y ~ x + g, data = d1)
anova(m1.null, m1)
जो देता है
> anova(m1.null, m1)
Analysis of Variance Table
Model 1: y ~ x + g
Model 2: y ~ x * g
Res.Df RSS Df Sum of Sq F Pr(>F)
1 97 122.29
2 96 122.13 1 0.15918 0.1251 0.7243
यह दर्शाता है कि हम डेटा के इस नमूने में समान ढलानों की अशक्त परिकल्पना को अस्वीकार करने में विफल हैं। बेशक, हम खुद को आश्वस्त करना चाहते हैं कि हमारे पास एक अंतर का पता लगाने के लिए पर्याप्त शक्ति थी अगर वास्तव में एक था ताकि हम गलत तरीके से नल को अस्वीकार करने के लिए नेतृत्व न करें क्योंकि हमारा नमूना आकार अपेक्षित प्रभाव के लिए बहुत छोटा था।
अब अलग-अलग ढलान के साथ।
set.seed(42)
x <- seq(1, 100, by = 2)
d2 <- data.frame(y = c(2 + (0.5 * x) + rnorm(50),
5 + (1.5 * x) + rnorm(50)),
x = x,
g = rep(c("A","B"), each = 50))
m2 <- lm(y ~ x * g, data = d2)
m2.null <- lm(y ~ x + g, data = d2)
anova(m2.null, m2)
जो देता है:
> anova(m2.null, m2)
Analysis of Variance Table
Model 1: y ~ x + g
Model 2: y ~ x * g
Res.Df RSS Df Sum of Sq F Pr(>F)
1 97 21132.0
2 96 103.8 1 21028 19439 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
यहां हमारे पास अशक्त परिकल्पना के खिलाफ पर्याप्त सबूत हैं और इस प्रकार हम इसे विकल्प के पक्ष में अस्वीकार कर सकते हैं (दूसरे शब्दों में, हम इस परिकल्पना को अस्वीकार करते हैं कि दो पंक्तियों के ढलान समान हैं)।
मेरे द्वारा फिट किए गए दो मॉडलों में सहभागिता की शर्तें (ख3एक्स जी) दो समूहों के लिए ढलानों में अनुमानित अंतर दें। पहले मॉडल के लिए, ढलानों में अंतर का अनुमान छोटा है (~ 0.003)
> coef(m1)
(Intercept) x gB x:gB
2.100068977 0.500596394 2.659509181 0.002846393
और एक टी-इस पर घोंसला परिकल्पना को अस्वीकार करने में विफल होगा कि ढलानों में यह अंतर 0 है:
> summary(m1)
Call:
lm(formula = y ~ x * g, data = d1)
Residuals:
Min 1Q Median 3Q Max
-2.32886 -0.81224 -0.01569 0.93010 2.29984
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.100069 0.334669 6.275 1.01e-08 ***
x 0.500596 0.005256 95.249 < 2e-16 ***
gB 2.659509 0.461191 5.767 9.82e-08 ***
x:gB 0.002846 0.008047 0.354 0.724
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.128 on 96 degrees of freedom
Multiple R-squared: 0.9941, Adjusted R-squared: 0.9939
F-statistic: 5347 on 3 and 96 DF, p-value: < 2.2e-16
यदि हम दूसरे डेटा सेट के लिए फिट किए गए मॉडल की ओर मुड़ते हैं, जहां हमने दो समूहों के लिए ढलान बनाया है, तो हम देखते हैं कि दो लाइनों के ढलानों में अनुमानित अंतर ~ 1 इकाई है।
> coef(m2)
(Intercept) x gB x:gB
2.3627432 0.4920317 2.8931074 1.0048653
समूह "ए" के लिए ढलान ~ 0.49 है (x
उपरोक्त आउटपुट में) है, जबकि समूह "बी" के लिए ढलान प्राप्त करने के लिए हमें समूह "ए" के ढलान में अंतर ढलानों (अंतःक्रिया शब्द याद रखना) को जोड़ने की आवश्यकता है। ; ~ 0.49 + ~ 1 = ~ 1.49। यह 1.5 के समूह "बी" के लिए उल्लिखित ढलान के बहुत करीब है। एटीढलानों के इस अंतर पर-यह भी इंगित करता है कि अंतर का अनुमान 0 से दूर है:
> summary(m2)
Call:
lm(formula = y ~ x * g, data = d2)
Residuals:
Min 1Q Median 3Q Max
-3.1962 -0.5389 0.0373 0.6952 2.1072
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.362743 0.294220 8.031 2.45e-12 ***
x 0.492032 0.005096 96.547 < 2e-16 ***
gB 2.893107 0.416090 6.953 4.33e-10 ***
x:gB 1.004865 0.007207 139.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.04 on 96 degrees of freedom
Multiple R-squared: 0.9994, Adjusted R-squared: 0.9994
F-statistic: 5.362e+04 on 3 and 96 DF, p-value: < 2.2e-16