2 X 3 टेबल पर कई पोस्ट-हॉक ची-स्क्वायर टेस्ट कैसे करें?


9

मेरे डेटा सेट में तीन साइट प्रकारों, इंहोर, मिडचैनल और ऑफशोर में किसी भी जीव की कुल मृत्यु या जीवित रहने से संबंधित है। नीचे दी गई तालिका में संख्याएँ साइटों की संख्या को दर्शाती हैं।

              100% Mortality            100% Survival
Inshore             30                       31 
Midchannel          10                       20 
Offshore             1                       10

मैं जानना चाहूंगा कि क्या उन साइटों का # जहां 100% मृत्यु दर हुई है, साइट प्रकार के आधार पर महत्वपूर्ण है। यदि मैं 2 x 3 ची-वर्ग चलाता हूं, तो मुझे एक महत्वपूर्ण परिणाम मिलता है। क्या एक पोस्ट-हॉक जोड़ीदार तुलना है जिसे मैं चला सकता हूं या क्या मुझे वास्तव में द्विपद वितरण के साथ एक तार्किक एनोवा या प्रतिगमन का उपयोग करना चाहिए? धन्यवाद!

जवाबों:


7

एक आकस्मिक तालिका में दोनों कुल्हाड़ियों पर सभी परस्पर अनन्य श्रेणियां होनी चाहिए। इनशोर / मिडचैनल / ऑफशोर ठीक दिखते हैं, हालाँकि जब तक "100% से कम मृत्यु दर" का अर्थ "100% जीवित" नहीं है, इस जैविक सेटिंग में आपको उन सभी मामलों के लिए तालिकाओं का निर्माण करने की आवश्यकता हो सकती है, जो यह देखते हैं कि आप अपने विश्लेषण को चरम पर क्यों सीमित करते हैं? नमूने का अंत।

जैसा कि 100% उत्तरजीविता का अर्थ है 0% मृत्यु दर, आप स्तंभों के साथ एक तालिका रख सकते हैं 100% = मृत्यु दर / 100%> मृत्यु दर> 0% / मृत्यु दर = 0%। इस मामले में आप किसी भी अधिक प्रतिशत की तुलना नहीं करेंगे, लेकिन तीन साइट प्रकार श्रेणियों में क्रमिक मृत्यु दर उपायों की तुलना करें। (श्रेणियों के बजाय मूल प्रतिशत मूल्यों का उपयोग करने के बारे में क्या?) क्रुस्कल-वालिस परीक्षण का एक संस्करण यहां उपयुक्त हो सकता है जो संबंधों को उचित रूप से ध्यान में रखता है (शायद एक क्रमचय परीक्षण)।

क्रुसकल-वालिस परीक्षण के लिए पोस्ट हॉक परीक्षण स्थापित किए गए हैं: 1 , 2, 3 । (एक resampling दृष्टिकोण संबंधों से निपटने में मदद कर सकता है।)

लॉजिस्टिक रिग्रेशन और द्विपद रिग्रेशन और भी बेहतर हो सकता है क्योंकि वे न केवल आपको पी वैल्यू देते हैं, बल्कि प्रभाव के आकार के उपयोगी अनुमान और आत्मविश्वास अंतराल भी देते हैं। हालाँकि उन मॉडलों को स्थापित करने के लिए 100%> मृत्यु दर> 0% साइटों के बारे में अधिक जानकारी की आवश्यकता होगी।


4

मैं यह मानने जा रहा हूं कि "100% उत्तरजीविता" का अर्थ है कि आपकी साइटों में केवल एक ही जीव था। तो 30 का मतलब 30 जीवों की मृत्यु हो गई, और 31 का मतलब 31 जीवों से नहीं हुआ। इसके आधार पर ची-स्क्वायर ठीक होना चाहिए, लेकिन यह केवल यह बताएगा कि कौन सी परिकल्पना डेटा द्वारा समर्थित नहीं है - यह आपको नहीं बताएगा कि दो उचित परिकल्पना बेहतर है या नहीं। मैं एक संभावना विश्लेषण प्रस्तुत करता हूं जो इस जानकारी को निकालता है - यह ची-स्क्वायर परीक्षण से सहमत है, लेकिन यह आपको ची-स्क्वायर परीक्षण की तुलना में अधिक जानकारी देता है, और परिणाम प्रस्तुत करने का एक बेहतर तरीका है।

मॉडल "मृत्यु" के संकेतक के लिए एक बरनौली मॉडल है, YijBin(1,θij) (i के सेल को दर्शाता है 2×3 टेबल, और j सेल के भीतर अलग-अलग इकाई को दर्शाता है)।

ची-वर्ग परीक्षण में अंतर्निहित दो वैश्विक धारणा हैं:

  1. तालिका के दिए गए सेल के भीतर, θij सभी समान हैं, वह है θij=θik=θi
  2. Yij सांख्यिकीय रूप से स्वतंत्र हैं, दिया गया है θi। इसका मतलब यह है कि प्रायिकता के पैरामीटर आपको सब कुछ बताते हैंYij - यदि आप जानते हैं तो अन्य सभी जानकारी अप्रासंगिक हैं θi

निरूपित Xi के योग के रूप में Yij, (इसलिए X1=30,X2=10,X3=1) और जाने Ni समूह का आकार (ऐसा हो) N1=61,N2=30,N3=11)। अब हमारे पास परीक्षण करने के लिए एक परिकल्पना है:

HA:θ1=θ2,θ1=θ3,θ2=θ3

लेकिन विकल्प क्या हैं? मैं कहूंगा कि समान या नहीं के अन्य संभावित संयोजन।

HB1:θ1θ2,θ1θ3,θ2=θ3
HB2:θ1θ2,θ1=θ3,θ2θ3
HB3:θ1=θ2,θ1θ3,θ2θ3
HC:θ1θ2,θ1θ3,θ2θ3

इन परिकल्पनाओं में से एक सच है, ऊपर "वैश्विक" मान्यताओं को देखते हुए। लेकिन ध्यान दें कि इनमें से कोई भी दरों के लिए विशिष्ट मान निर्दिष्ट नहीं करता है - इसलिए उन्हें एकीकृत किया जाना चाहिए। अब वह दियाHA सच है, हमारे पास केवल एक पैरामीटर है (क्योंकि सभी समान हैं), और वर्दी पहले एक रूढ़िवादी विकल्प है, इसे और वैश्विक मान्यताओं को निरूपित करें I0। तो हमारे पास:

P(X1,X2,X3|N1,N2,N3,HA,I0)=01P(X1,X2,X3,θ|N1,N2,N3,HA,I0)dθ
=(N1X1)(N2X2)(N3X3)01θX1+X2+X3(1θ)N1+N2+N3X1X2X3dθ
=(N1X1)(N2X2)(N3X3)(N1+N2+N3+1)(N1+N2+N3X1+X2+X3)

जो एक स्थिरांक द्वारा विभाजित हाइपरजोमेट्रिक वितरण है। इसी तरह हमारे पास होगा: HB1

P(X1,X2,X3|N1,N2,N3,HB1,I0)=01P(X1,X2,X3,θ1θ2|N1,N2,N3,HB1,I0)dθ1dθ2
=(N2X2)(N3X3)(N1+1)(N2+N3+1)(N2+N3X2+X3)

आप दूसरों के लिए पैटर्न देख सकते हैं। हम कहने के लिए बाधाओं की गणना कर सकते हैं बस ऊपर के दो भावों को विभाजित करके। उत्तर बारे में है , जिसका अर्थ है कि डेटा समर्थन over कारक के बारे में - समान दरों के पक्ष में काफी कमजोर साक्ष्य। अन्य सम्भावनाएँ नीचे दी गई हैं।HAvsHB14HAHB14

Hypothesisprobability(HA|D)0.018982265(HB1|D)0.004790669(HB2|D)0.051620022(HB3|D)0.484155874(HC|D)0.440451171

यह समान दरों के खिलाफ मजबूत सबूत दिखा रहा है, लेकिन एक मजबूत विकल्प के पक्ष में मजबूत सबूत के पक्ष में नहीं है। ऐसा लगता है कि इस बात के पुख्ता सबूत हैं कि "ऑफशोर" दर अन्य दो दरों से भिन्न है, लेकिन यह भी अनिर्णायक सबूत है कि क्या "इनशोर" और "मिड-चैनल" दर भिन्न हैं। यह वही है जो ची-स्क्वायर परीक्षण आपको नहीं बताएगा - यह केवल आपको बताता है कि परिकल्पना "बकवास" है, लेकिन इसके स्थान पर क्या विकल्प नहीं हैA


1

यहाँ ची स्क्वायर परीक्षण करने के साथ-साथ विभिन्न प्रकार के परीक्षण आँकड़े उत्पन्न करने के लिए कोड है। हालांकि, टेबल मार्जिन के संबंध के सांख्यिकीय परीक्षण यहां बेकार हैं; उत्तर स्पष्ट है। कोई यह देखने के लिए सांख्यिकीय परीक्षण नहीं करता है कि क्या गर्मी सर्दियों की तुलना में अधिक गर्म है।

Chompy<-matrix(c(30,10,1,31,20,10), 3, 2)
Chompy
chisq.test(Chompy)
chisq.test(Chompy, simulate.p.value = TRUE, B = 10000)
chompy2<-data.frame(matrix(c(30,10,1,31,20,10,1,2,1,2,1,2,1,2,3,1,2,3), 6,3))
chompy2
chompy2$X2<-factor(chompy2$X2) 
chompy2$X3<-factor(chompy2$X3)
summary(fit1<-glm(X1~X2+X3, data=chompy2, family=poisson))
summary(fit2<-glm(X1~X2*X3, data=chompy2, family=poisson)) #oversaturated
summary(fit3<-glm(X1~1, data=chompy2, family=poisson)) #null
anova(fit3,fit1)
library(lmtest)
waldtest(fit1)
waldtest(fit2) #oversaturated
kruskal.test(X1~X2+X3, data=chompy2)
kruskal.test(X1~X2*X3, data=chompy2)

3
यह पाठक (और ओपी) के लिए दिलचस्प होगा यदि आप अलग-अलग आर सिंटैक्स (और अंतर्निहित परीक्षण) के बारे में विवरण प्रदान कर सकते हैं, और विशेष रूप से क्रुस्कल-वालिस परीक्षण लॉग-लीनियर मॉडल की तुलना कैसे करता है।
CHL

आप इसे कोड को R कंसोल में पेस्ट करके देख सकते हैं।
पैट्रिक मैककॉन

1
ज़रूर। कोड को चलाकर प्रतिक्रियाएँ स्वयं से आती हैं।
CHL

0

मेरा मानना ​​है कि आप कई तुलना करने के लिए "एक साथ विश्वास अंतराल" का उपयोग कर सकते हैं। संदर्भ एगेस्टी एट अल है। 2008 द्विपद मापदंडों की तुलना के लिए एक साथ विश्वास अंतराल। बायोमेट्रिक्स 64 1270-1275।

आप http://www.stat.ufl.edu/~aa/cda/software.html में संबंधित R कोड पा सकते हैं

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.