द्विपद डेटा पर एनोवा


32

मैं एक प्रयोगात्मक डेटा सेट का विश्लेषण कर रहा हूं। डेटा में उपचार प्रकार और द्विपद परिणाम के युग्मित वेक्टर होते हैं:

Treatment    Outcome
A            1
B            0
C            0
D            1
A            0
...

परिणाम कॉलम में, 1 सफलता को दर्शाता है और 0 विफलता को दर्शाता है। मैं यह पता लगाना चाहूंगा कि यदि उपचार के परिणाम भिन्न होते हैं। प्रत्येक प्रयोग के साथ 4 अलग-अलग उपचार हैं बड़ी संख्या में बार-बार (प्रत्येक उपचार के लिए 2000)।

मेरा सवाल है, क्या मैं एनोवा का उपयोग करके द्विआधारी परिणाम का विश्लेषण कर सकता हूं? या मुझे द्विपद डेटा की जांच के लिए ची-स्क्वायर परीक्षण का उपयोग करना चाहिए? ऐसा लगता है कि ची-स्क्वायर मानता है कि अनुपात समान रूप से विभाजित होगा, जो कि ऐसा नहीं है। एक अन्य विचार यह होगा कि प्रत्येक उपचार के लिए सफलताओं बनाम विफलताओं के अनुपात का उपयोग करके डेटा को संक्षेप में प्रस्तुत किया जाए और फिर एक अनुपात परीक्षण का उपयोग किया जाए।

मैं परीक्षण के लिए आपकी सिफारिशों को सुनने के लिए उत्सुक हूं जो इन प्रकार के द्विपद सफलता / विफलता प्रयोगों के लिए समझ में आता है।

जवाबों:


18

एनोवा के लिए नहीं, जो सामान्य रूप से वितरित परिणाम चर (अन्य चीजों के बीच) को मानता है। विचार करने के लिए "पुराने स्कूल" रूपांतर हैं, लेकिन मैं लॉजिस्टिक रिग्रेशन (एक ची वर्ग के बराबर है जब केवल एक स्वतंत्र चर होता है, जैसा कि आपके मामले में है) पसंद करेंगे। एक ची स्क्वायर टेस्ट पर लॉजिस्टिक रिग्रेशन का उपयोग करने का लाभ यह है कि आप उपचार के विशिष्ट स्तरों की तुलना करने के लिए आसानी से एक रैखिक विपरीत का उपयोग कर सकते हैं यदि आप समग्र परीक्षण (टाइप 3) के लिए एक महत्वपूर्ण परिणाम पाते हैं। उदाहरण के लिए ए बनाम बी, बी बनाम सी आदि।

स्पष्टता के लिए अद्यतन जोड़ा गया:

हाथ में डेटा लेना ( एलिसन से पोस्ट डॉक्टर डेटा सेट ) और चर का उपयोग इस प्रकार है, यह मेरी बात थी:

postdocData$citsBin <- ifelse(postdocData$cits>2, 3, postdocData$cits)
postdocData$citsBin <- as.factor(postdocData$citsBin)
ordered(postdocData$citsBin, levels=c("0", "1", "2", "3"))
contrasts(postdocData$citsBin) <- contr.treatment(4, base=4) # set 4th level as reference
contrasts(postdocData$citsBin)
     #   1 2 3
     # 0 1 0 0
     # 1 0 1 0
     # 2 0 0 1
     # 3 0 0 0

# fit the univariate logistic regression model
model.1 <- glm(pdoc~citsBin, data=postdocData, family=binomial(link="logit"))

library(car) # John Fox package
car::Anova(model.1, test="LR", type="III") # type 3 analysis (SAS verbiage)
     # Response: pdoc
     #          LR Chisq Df Pr(>Chisq)
     # citsBin   1.7977  3     0.6154

chisq.test(table(postdocData$citsBin, postdocData$pdoc)) 
     # X-squared = 1.7957, df = 3, p-value = 0.6159

# then can test differences in levels, such as: contrast cits=0 minus cits=1 = 0
# Ho: Beta_1 - Beta_2 = 0
cVec <- c(0,1,-1,0)
car::linearHypothesis(model.1, cVec, verbose=TRUE) 

1
@ user2040। मुझे समझ नहीं आ रहा है कि आप "टाइप 3" टेस्ट कैसे करेंगे? यह कुछ SAS संबंधित है? (क्षमा करें, मेरा एसएएस ज्ञान बहुत सीमित है)। जैसा कि आपने सुझाव दिया था, लेकिन मैंने 2 डमी चर के साथ एक लॉजिस्टिक प्रतिगमन किया होगा। इसके अलावा, यह देखते हुए कि मैं सही ढंग से समझता हूं, यदि आप लॉजिस्टिक रिग्रेशन करते हैं, परीक्षण करते हैं यदि कुछ या सभी गुणांक 0 हैं, तो विचलन (या संभावना अनुपात) द्वारा किया जाता है और यह asymptotically Chi-Sq है (जरूरी नहीं कि df = 1 के साथ)
suncoolsu

1
@suncoolsu: हां, व्यावहारिक रूप से आपको एक ही निष्कर्ष निकालना चाहिए। मुझे "समतुल्य" नहीं कहना चाहिए था (मैं बड़े डेटा के साथ काम करता हूं ताकि वे उसी को समाप्त करें)। मैंने स्पष्ट करने में सहायता के लिए उत्तर में कुछ कोड जोड़ा है।
B_Miner

8

Xkknkkkp^k=Xk/nk

g(p)=arcsinp

हालाँकि, कुछ आधुनिक लेखक आर्किसिन परिवर्तन से काफी आशंकित हैं, उदाहरण के लिए देखें http://www.mun.ca/biology/dschneider/b7932/B7932Final10Dec2010.pdf लेकिन यह लेखक भविष्यवाणी जैसी समस्याओं से चिंतित हैं, जहाँ वे दिखाते हैं आर्सेनिन से समस्याएं हो सकती हैं। यदि आप केवल परिकल्पना परीक्षण से संबंधित हैं, तो यह ठीक होना चाहिए। एक अधिक आधुनिक दृष्टिकोण लॉजिस्टिक प्रतिगमन का उपयोग कर सकता है।


4
(+1) ... यदि सभी समूहों में समान नं। टिप्पणियों।
Scortchi - को पुनः स्थापित मोनिका

1
या कोई अवलोकन की संख्या के आधार पर भार का उपयोग कर सकता है।
kjetil b halvorsen

3

मैं ची-सक परीक्षण के बारे में आपके विचार से अलग होना चाहूंगा। यह तब भी लागू होता है जब डेटा द्विपद नहीं है। यह (ज्यादातर मामलों में) mle की स्पर्शोन्मुख सामान्यता पर आधारित है।

मैं इस तरह एक लॉजिस्टिक प्रतिगमन करूंगा:

logπ^1π^=β0+β1×D1+β2×D2

कहा पे

D1D2D1=D2=0A,D1=1,D2=0B,D1=1D2=1C

Ho:β0=β1=β2=0

यदि संबंध है या नहीं तो ANOVA समतुल्य है।

Ho:β0=0

क्या परीक्षण ए का कुछ प्रभाव है।

Ho:β1β0=0

क्या परीक्षण B का कुछ प्रभाव है।

Ho:β2(β0+β12)=0

क्या परीक्षण C का कुछ प्रभाव है।

अब आप हमारी रुचि के बारे में जानने के लिए आगे विरोधाभास कर सकते हैं। यह अभी भी ची-वर्ग परीक्षण है, लेकिन स्वतंत्रता के विभिन्न डिग्री (3, 1, 1, और 1, क्रमशः) के साथ


मुझे अब भी इसके विपरीत सोचने की जरूरत है। जब भी मुझे समय मिलेगा मैं इसे ठीक करूंगा। इसके बारे में क्षमा करें
suncoolsu

-3

मुझे लगता है कि आप सही हैं कि एनोवा को द्विपद निर्भर चर का विश्लेषण करने के लिए उपयोग नहीं किया जाना चाहिए। कई लोग इसका उपयोग द्विआधारी प्रतिक्रिया चर (0 1) के साधनों की तुलना करने के लिए करते हैं, लेकिन इसका उपयोग नहीं किया जाना चाहिए क्योंकि यह गंभीरता और समानता के विचलन को गंभीरता से उल्लंघन करता है। ची-स्क्वायर परीक्षण या लॉजिस्टिक प्रतिगमन इन स्थितियों के लिए सबसे अच्छा है।


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.