Nxm आकस्मिक तालिकाओं के लिए सांख्यिकीय परीक्षण


12

मेरे पास तीन समूहों के तत्वों से बना एक डेटासेट है, चलो उन्हें G1, G2 और G3 कहते हैं। मैंने इन तत्वों की कुछ विशेषताओं का विश्लेषण किया और उन्हें 3 प्रकार के "व्यवहार" T1, T2 और T3 में विभाजित किया (मैंने ऐसा करने के लिए क्लस्टर विश्लेषण का उपयोग किया)।

तो, अब मेरे पास एक 3 x 3 आकस्मिक तालिका है जैसे कि प्रकारों में विभाजित तीन समूहों में तत्वों की गिनती के साथ:

      |    T1   |    T2   |    T3   |
------+---------+---------+---------+---
  G1  |   18    |   15    |   65    | 
------+---------+---------+---------+---
  G2  |   20    |   10    |   70    |
------+---------+---------+---------+---
  G3  |   15    |   55    |   30    |

अब, मैं आर में इन आंकड़ों पर फिशर टेस्ट चला सकता हूं

data <- matrix(c(18, 20, 15, 15, 10, 55, 65, 70, 30), nrow=3)
fisher.test(data)

और मुझे मिलता है

   Fisher's Exact Test for Count Data

data:  data 
p-value = 9.028e-13
alternative hypothesis: two.sided     

तो मेरे सवाल हैं:

  • क्या इस तरह से फिशर परीक्षण का उपयोग करना सही है?

  • मुझे कैसे पता चलेगा कि कौन किससे अलग है? क्या मैं पश्चात परीक्षण का उपयोग कर सकता हूं? डेटा को देखकर मैं कहूंगा कि 3 rd समूह का पहले दो से अलग व्यवहार है, मैं उस सांख्यिकीय को कैसे दिखा सकता हूं?

  • किसी ने मुझे मॉडल में प्रवेश करने के लिए कहा: क्या वे इस प्रकार के विश्लेषण के लिए एक व्यवहार्य विकल्प हैं?

  • इस प्रकार के डेटा का विश्लेषण करने के लिए कोई अन्य विकल्प?

आपका बहुत बहुत धन्यवाद

निको

जवाबों:


13

सबसे पहले मुझे लगता है कि फिशर टेस्ट का सही उपयोग किया जाता है।

गणना डेटा लॉग-लीनियर मॉडल का उपयोग करके बेहतर तरीके से संभाला जाता है (लॉगिट नहीं, यह सुनिश्चित करने के लिए कि फिट किए गए मान नीचे से बंधे हैं)। आर में आप निर्दिष्ट कर सकते हैं family=poisson(जो त्रुटियों = पॉइसन और लिंक = लॉग सेट करता है)। लॉग लिंक यह सुनिश्चित करता है कि सभी फिट किए गए मान सकारात्मक हैं, जबकि पॉइसन त्रुटियां इस तथ्य को ध्यान में रखती हैं कि डेटा पूर्णांक हैं और उनके रूप में भिन्न भिन्न हैं। उदाहरण के लिए glm(y~x,poisson)और मॉडल एक लॉग लिंक और पॉइसन त्रुटियों (गैर-सामान्यता के लिए खाते में) के साथ फिट है।

ऐसे मामलों में जहां अतिप्रवाह होता है (अवशिष्ट अवतरण स्वतंत्रता के अवशिष्ट डिग्री के बराबर होना चाहिए, यदि पॉइसन त्रुटि धारणा उपयुक्त है), quasipoissonत्रुटि परिवार के रूप में उपयोग करने के बजाय , आप एक नकारात्मक द्विपद मॉडल फिट कर सकते हैं। (इसमें glm.nbपैकेज से फ़ंक्शन शामिल है MASS)

आपके मामले में आप निम्नलिखित की तरह कमांड का उपयोग करके मॉडल को फिट और तुलना कर सकते हैं:

observed <- as.vector(data)
Ts<-factor(rep(c("T1","T2","T3"),each=3))
Gs<-factor(rep(c("G1","G2","G3"),3))

model1<-glm(observed~Ts*Gs,poisson)

#or and a model without the interaction terms
model2<-glm(observed~Ts+Gs,poisson)


#you can compare the two models using anova with a chi-squared test
anova(model1,model2,test="Chi")
summary(model1)

हमेशा सुनिश्चित करें कि आपके न्यूनतम मॉडल में सभी उपद्रव चर हैं।

जैसा कि हम जानते हैं कि कौन किससे अलग है, कुछ ऐसे प्लॉट हैं जो आपकी मदद कर सकते हैं। आर फंक्शन assocplotदो आयामी आकस्मिक तालिका में पंक्तियों और स्तंभों की स्वतंत्रता से विचलन का संकेत देते हुए एक एसोसिएशन प्लॉट का निर्माण करता है।

यहाँ एक ही डेटा को मोज़ेक प्लॉट के रूप में प्लॉट किया गया है

mosaicplot(data, shade = TRUE)

धन्यवाद, ठीक यही मुझे चाहिए था। जब आप ओवरडिप्रेशन के बारे में बात करते हैं, तो मुझे पूरी तरह से यकीन नहीं होता है (क्षमा करें, मैं सांख्यिकीविद् नहीं हूं, शायद यह बहुत बुनियादी है) ... आप कहते हैं कि अवशिष्ट अवतरण स्वतंत्रता के अवशिष्ट डिग्री के बराबर होना चाहिए ... मैं कैसे जांच करूंगा?
निको

यदि आप देते हैं summary(model1)तो आपको कुछ दिखाई देगाResidual deviance: -2.7768e-28 on 0 degrees of freedom
जॉर्ज डोंटास

4

आप उपयोग कर सकते हैं multinom बहुपद प्रतिगमन के लिए nnet पैकेज से। पोस्ट-हॉक टेस्ट आप कार पैकेज से रैखिक हाइपोथिसिस का उपयोग कर सकते हैं । आप लीनियरहाइपोथिसिस ( वल्ड टेस्ट) या एनोवा (एलआर टेस्ट) का उपयोग करके स्वतंत्रता का परीक्षण कर सकते हैं ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.