मेरे पास एक सर्वेक्षण प्रयोग का डेटा है जिसमें उत्तरदाताओं को चार समूहों में से एक को यादृच्छिक रूप से सौंपा गया था:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
जबकि तीन उपचार समूह लागू किए गए उत्तेजना में थोड़ा भिन्न होते हैं, मुख्य भेद जो मुझे परवाह है वह नियंत्रण और उपचार समूहों के बीच है। इसलिए मैंने एक डमी चर को परिभाषित किया Control
:
> summary(df$Control)
TRUE FALSE
59 191
सर्वेक्षण में, उत्तरदाताओं से (अन्य बातों के अलावा) पूछा गया था कि उन्हें कौन सी दो चीजें पसंद हैं:
> summary(df$Prefer)
A B NA's
152 93 5
फिर, उनके उपचार समूह द्वारा निर्धारित कुछ उत्तेजनाओं को प्राप्त करने के बाद (और कोई नहीं अगर वे नियंत्रण समूह में थे), उत्तरदाताओं को उसी दो चीजों के बीच चयन करने के लिए कहा गया था:
> summary(df$Choice)
A B
149 101
मैं जानना चाहता हूं कि क्या तीन उपचार समूहों में से एक में होने से इस अंतिम प्रश्न में उत्तरदाताओं की पसंद पर प्रभाव पड़ा। मेरी परिकल्पना यह है कि उपचार प्राप्त करने वाले उत्तरदाताओं की A
तुलना में चुनने की अधिक संभावना है B
।
यह देखते हुए कि मैं श्रेणीबद्ध डेटा के साथ काम कर रहा हूं, मैंने एक लॉजिट रिग्रेशन का उपयोग करने का फैसला किया है (यदि आपको लगता है कि यह गलत है तो झंकार से मुक्त महसूस करें)। चूंकि उत्तरदाताओं को यादृच्छिक रूप से सौंपा गया था, इसलिए मैं इस धारणा के तहत हूं कि मुझे अन्य चर (जैसे जनसांख्यिकी) के लिए नियंत्रण की आवश्यकता नहीं होनी चाहिए, इसलिए मैंने इस प्रश्न के लिए उन लोगों को छोड़ दिया है। मेरा पहला मॉडल बस निम्नलिखित था:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
मैं इस धारणा के तहत हूं कि अवरोधन सांख्यिकीय रूप से महत्वपूर्ण नहीं है जो व्याख्या योग्य अर्थ रखता है। मैंने सोचा कि शायद मुझे एक बातचीत शब्द शामिल करना चाहिए:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
अब उपचार समूह में उत्तरदाताओं की स्थिति अपेक्षित प्रभाव रखती है। क्या यह चरणों का एक वैध सेट था? मैं अंतःक्रिया शब्द की व्याख्या कैसे कर सकता हूं ControlFALSE:PreferA
? क्या अन्य गुणांक अभी भी लॉग ऑड हैं?