श्रेणीगत चर के साथ लॉजिट रिग्रेशन में इंटरेक्टिंग टर्म की व्याख्या करना


25

मेरे पास एक सर्वेक्षण प्रयोग का डेटा है जिसमें उत्तरदाताओं को चार समूहों में से एक को यादृच्छिक रूप से सौंपा गया था:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

जबकि तीन उपचार समूह लागू किए गए उत्तेजना में थोड़ा भिन्न होते हैं, मुख्य भेद जो मुझे परवाह है वह नियंत्रण और उपचार समूहों के बीच है। इसलिए मैंने एक डमी चर को परिभाषित किया Control:

> summary(df$Control)
     TRUE FALSE 
       59   191 

सर्वेक्षण में, उत्तरदाताओं से (अन्य बातों के अलावा) पूछा गया था कि उन्हें कौन सी दो चीजें पसंद हैं:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

फिर, उनके उपचार समूह द्वारा निर्धारित कुछ उत्तेजनाओं को प्राप्त करने के बाद (और कोई नहीं अगर वे नियंत्रण समूह में थे), उत्तरदाताओं को उसी दो चीजों के बीच चयन करने के लिए कहा गया था:

> summary(df$Choice)
  A    B 
149  101 

मैं जानना चाहता हूं कि क्या तीन उपचार समूहों में से एक में होने से इस अंतिम प्रश्न में उत्तरदाताओं की पसंद पर प्रभाव पड़ा। मेरी परिकल्पना यह है कि उपचार प्राप्त करने वाले उत्तरदाताओं की Aतुलना में चुनने की अधिक संभावना है B

यह देखते हुए कि मैं श्रेणीबद्ध डेटा के साथ काम कर रहा हूं, मैंने एक लॉजिट रिग्रेशन का उपयोग करने का फैसला किया है (यदि आपको लगता है कि यह गलत है तो झंकार से मुक्त महसूस करें)। चूंकि उत्तरदाताओं को यादृच्छिक रूप से सौंपा गया था, इसलिए मैं इस धारणा के तहत हूं कि मुझे अन्य चर (जैसे जनसांख्यिकी) के लिए नियंत्रण की आवश्यकता नहीं होनी चाहिए, इसलिए मैंने इस प्रश्न के लिए उन लोगों को छोड़ दिया है। मेरा पहला मॉडल बस निम्नलिखित था:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

मैं इस धारणा के तहत हूं कि अवरोधन सांख्यिकीय रूप से महत्वपूर्ण नहीं है जो व्याख्या योग्य अर्थ रखता है। मैंने सोचा कि शायद मुझे एक बातचीत शब्द शामिल करना चाहिए:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

अब उपचार समूह में उत्तरदाताओं की स्थिति अपेक्षित प्रभाव रखती है। क्या यह चरणों का एक वैध सेट था? मैं अंतःक्रिया शब्द की व्याख्या कैसे कर सकता हूं ControlFALSE:PreferA? क्या अन्य गुणांक अभी भी लॉग ऑड हैं?


मेरा उत्तर यहां प्रासंगिक है: आंकड़े.stackexchange.com/questions/246873/…
kjetil b halvorsen

जवाबों:


31

मेरा मानना ​​है कि PreferA = 1 जब कोई A और 0 पसंद करता है अन्यथा और ControlFALSE = 1 जब इलाज किया जाता है और 0 जब नियंत्रण होता है।

जब किसी व्यक्ति ने पहले ऐसा नहीं किया था और उसे कोई उपचार नहीं मिला था, तब प्रचलित होने की संभावना (ControlFALSE = 0 और PreferA = 0) is , यानी 23 ऐसे व्यक्ति हैं जो ऐसे हर व्यक्ति के लिए A पसंद करते हैं इसलिए बी। ए। ए बहुत लोकप्रिय है।exp(3.135)=23

ट्रेंटमिंट का प्रभाव एक व्यक्ति को संदर्भित करता है जो पहले (ए प्रेफर = 0) को पसंद नहीं करता था। उस स्थिति में आधारभूत बाधाएँ एक कारक या घट जाती है जब वह उपचार के अधीन होती है। तो जिन लोगों का इलाज किया गया था और जो पहले पसंद नहीं करते थे, उनके लिए A चुनने का अंतर , इसलिए 2.3 ऐसे व्यक्ति हैं, जो ऐसे प्रत्येक व्यक्ति के लिए A पसंद करते हैं, जो B. पसंद करते हैं, इसलिए इस समूह में A अभी भी अधिक लोकप्रिय है B की तुलना में, लेकिन अनुपचारित / बेसलाइन समूह की तुलना में कम है।( 1 - 0.099 ) × 100 % = - 90.1 % 0.099 * 23 = 2.3exp(-2.309)=0.099(1-0.099)×100%=-90.1%0.099*23=2.3

पहले पसंद करने का प्रभाव एक ऐसे व्यक्ति को संदर्भित करता है जो एक नियंत्रण है (ControlFALSE = 0)। उस स्थिति में जब किसी ने पहले पसंद किया था तो आधारभूत बाधाएं एक कारक या घट जाती हैं । (तो जो लोग पहले A की पुष्टि करते थे, अब ऐसा करने की संभावना बहुत कम है। क्या इसका कोई मतलब है?).006-99.4%

इंटरैक्शन प्रभाव उन व्यक्तियों के लिए उपचार के प्रभाव की तुलना करता है जो ए पहले पसंद करते थे और जो नहीं करते थे। यदि कोई व्यक्ति पहले (PreferA = 1) को प्राथमिकता देता है, तो एक कारक द्वारा उपचार का अनुपात बढ़ जाता है । अतः पहले पसंद किए गए लोगों के लिए उपचार का अनुपात । वैकल्पिक रूप से, यह उन लोगों के लिए इलाज का अनुपात है, जो पहले पसंद करते थे, उन्हें रूप में गणना की जा सकती है ।17.3 × .099 = 1.71 एक्सप ( 2.850 - 2.309 )exp(2.850)=17.317.3×0.099=1.71exp(2.850-2.309)

तो घातीय स्थिरांक आपको आधारभूत बाधाओं को देता है , मुख्य प्रभावों के घातांक गुणांक आपको अन्य राशियों के बराबर होने पर अंतर अनुपात देते हैं , और अंतःक्रिया का गुणांक गुणांक बताता है कि आप अनुपात अनुपात में परिवर्तन करके जो अनुपात बता रहे हैं ।


धन्यवाद मैर्टन, यह मेरे अन्य, संबंधित प्रश्न के उत्तर के रूप में बहुत उपयोगी है। मैं सिर्फ एक बिंदु पर स्पष्टीकरण की तरह चाहूंगा। जैसा कि मैंने अपने अन्य प्रश्न में कहा था, मैं इस तथ्य की सांख्यिकीय वैधता के बारे में चिंतित हूं कि मैंने इस तथ्य के कारण क्या किया है कि ControlFALSEपहले मॉडल में उच्च पी-मूल्य है और फिर दूसरे मॉडल में काफी कम है। इस विशिष्ट मामले में अपने दूसरे प्रश्न के लिए अपना जवाब देते हुए, आपने कहा कि ऐसा हो सकता है अगर Controlएक समूह पर नकारात्मक प्रभाव Preferपड़ता है और दूसरे पर सकारात्मक प्रभाव पड़ता है।
Pygmalion

(अंतरिक्ष से बाहर भाग गया) क्या यह व्याख्या यहाँ समझ में आती है? मुझे बिल्कुल यकीन नहीं है कि इसे सीधे कैसे लागू किया जाए।
Pygmalion

ControlFALSEपहले मॉडल का प्रभाव उन लोगों के लिए उपचार का प्रभाव है , जो पहले से पसंद किए गए ए और उन दोनों के लिए है , जबकि दूसरे मॉडल में प्रभाव केवल उन लोगों के लिए उपचार का प्रभाव है जो पहले पसंद नहीं करते थे। यह ठीक है या नहीं यह एक सांख्यिकीय सवाल नहीं है, लेकिन क्या यह समझ में आता है या नहीं।
Maarten Buis

@MaartenBuis महान स्पष्टीकरण। आप अनुमानों के विश्वास अंतराल के लिए समतुल्य गणना कैसे करेंगे? व्याख्या में आसानी के लिए, मैंने आमतौर पर लॉजिस्टिक मॉडल (जैसे इस उदाहरण में पूर्व वरीयता द्वारा) को स्तरीकृत किया है और बातचीत शब्द का उपयोग "या महत्वपूर्ण अंतर के लिए सांख्यिकीय परीक्षण" के रूप में किया है। क्या यह स्वीकार्य है?
bobmcpop

2

मुझे यह पत्र लॉजिस्टिक रिग्रेशन में बातचीत की व्याख्या करने में भी मददगार लगा:

चेन, जेजे (2003)। जटिल जानकारी का संचार करना: कई लॉजिस्टिक रिग्रेशन विश्लेषण में सांख्यिकीय इंटरैक्शन की व्याख्यासार्वजनिक स्वास्थ्य की अमेरिकी पत्रिका , 93 (9), 1376-1377।


4
मैंने एक पूर्ण संदर्भ (शीर्षक, लेखक, तिथि, पत्रिका आदि) प्रदान किया है जिसका अर्थ है कि लिंक पता बदलने पर भी योगदान उपयोगी होगा। लेकिन क्या आप सामग्री को संक्षेप में प्रस्तुत करने के लिए उस पर विस्तार कर सकते हैं? अन्यथा यह वास्तव में एक उत्तर की तुलना में अधिक टिप्पणी है - हम अपने जवाब को आत्म-निहित होना पसंद करते हैं, इसलिए वे "लिंक-रोट" के प्रतिरोधी हैं। वैकल्पिक रूप से हम इसे आपके लिए एक टिप्पणी में बदल सकते हैं।
सिल्वरफिश

धन्यवाद। मैं एनसीबीआई को लिंक कर रहा था इसलिए मुझे लगा कि यह ठीक रहेगा। मैं परिवर्तनों से सहमत हूं। धन्यवाद!
23

0

मेरी अपनी प्राथमिकता, जब लॉजिस्टिक प्रतिगमन में बातचीत की व्याख्या करने की कोशिश कर रहा है, श्रेणीबद्ध चर के प्रत्येक संयोजन के लिए अनुमानित संभावनाओं को देखना है। आपके मामले में, यह सिर्फ 4 संभावनाएँ होंगी:

  1. ए को प्राथमिकता दें, सच को नियंत्रित करें
  2. A को प्राथमिकता दें, असत्य को नियंत्रित करें
  3. बी को प्राथमिकता दें, सच को नियंत्रित करें
  4. बी को प्राथमिकता दें, असत्य को नियंत्रित करें

जब मेरे पास लगातार चर होते हैं, तो मैं आमतौर पर औसत दर्जे का, 1 और 3 चतुर्थांश पर अनुमानित मूल्य को देखता हूं।

हालांकि यह सीधे प्रत्येक गुणांक की व्याख्या पर नहीं मिलता है, मुझे लगता है कि यह अक्सर मुझे (और मेरे ग्राहकों) को देखने देता है कि स्पष्ट तरीके से क्या हो रहा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.