3-स्तरीय आकस्मिक तालिका से निपटने का उपयुक्त तरीका


12

मेरे पास एक तीन स्तरीय आकस्मिक तालिका है, जिसमें कई प्रजातियों के डेटा की गणना की जाती है, मेजबान संयंत्र जिसमें से वे एकत्र किए गए थे और क्या यह संग्रह एक बरसात के दिन हुआ था (यह वास्तव में मायने रखता है!)। R का उपयोग करते हुए, नकली डेटा कुछ इस तरह हो सकता है:

count    <- rpois(8, 10)
species  <- rep(c("a", "b"), 4)
host     <- rep(c("c","c", "d", "d"), 2)
rain     <- c(rep(0,4), rep(1,4))
my.table <- xtabs(count ~ host + species + rain)


, , rain = 0

    species
host  a  b
   c 12 15
   d 10 13

, , rain = 1

    species
host  a  b
   c 11 12
   d 12  7

अब, मैं दो बातें जानना चाहता हूं: क्या प्रजातियां मेजबान पौधों से जुड़ी हैं? इस एसोसिएशन पर "बारिश होती है या नहीं" असर करती है? मैंने इसके लिए उपयोग किया loglm()है MASS:

 # Are species independent to host plants, given the effect of rain?
loglm(~species + host + rain + species*rain + host*rain, data=my.table)

 # Given any relationship between host plants and species, does rain change it?
loglm(~species + host + rain + species*host)

यह मेरे आराम स्तर से थोड़ा बाहर है, और मैं यह जांचना चाहता था कि मैं मॉडल को सही तरीके से सेट करूंगा और इन सवालों के लिए यह सबसे अच्छा तरीका है।

जवाबों:


10

आपके पहले प्रश्न की व्याख्या करने के दो तरीके हैं, जो आपके द्वारा पूछे गए दो तरीकों से परिलक्षित होते हैं: "क्या प्रजातियां मेजबान पौधों से जुड़ी हैं?" और, "क्या प्रजातियां पौधों की मेजबानी के लिए स्वतंत्र हैं, जो बारिश का प्रभाव देखते हैं?"

पहली व्याख्या संयुक्त स्वतंत्रता के एक मॉडल से मेल खाती है , जिसमें कहा गया है कि प्रजातियां और मेजबान निर्भर हैं, लेकिन संयुक्त रूप से स्वतंत्र है कि क्या बारिश हुई:

pshr=pshpr

जहाँ संभावना है कि एक अवलोकन सेल में आता है जहाँ अनुक्रमित प्रजातियाँ, होस्ट प्रकार, और वर्षा मूल्य, the की सीमान्त संभावना है सेल जहां हम वर्षा चर पर , और बारिश की सीमांत संभावना है।pshr(s,h,r)shrpsh(s,h,)pr

दूसरी व्याख्या सशर्त स्वतंत्रता के एक मॉडल से मेल खाती है , जिसमें कहा गया है कि प्रजातियां और मेजबान स्वतंत्र हैं चाहे बारिश हो:

psh|r=ps|rph|r याpshr=psrphr/pr

जहाँ सेल की सशर्त संभावना है , जिसे मान दिया गया है । ( एस , एच , आर ) आरpsh|r(s,h,r)r

आप आर में इन मॉडलों का परीक्षण कर सकते हैं ( loglinठीक काम भी करेगा लेकिन मैं इससे अधिक परिचित हूं glm):

count <- c(12,15,10,13,11,12,12,7)
species <- rep(c("a", "b"), 4)
host <- rep(c("c","c", "d", "d"), 2)
rain <- c(rep(0,4), rep(1,4))
my.table <- xtabs(count ~ host + species + rain)
my.data <- as.data.frame.table(my.table)
mod0 <- glm(Freq ~ species + host + rain, data=my.data, family=poisson())
mod1 <- glm(Freq ~ species * host + rain, data=my.data, family=poisson())
mod2 <- glm(Freq ~ (species + host) * rain, data=my.data, family=poisson())
anova(mod0, mod1, test="Chi") #Test of joint independence
anova(mod0, mod2, test="Chi") #Test of conditional independence

ऊपर, mod1संयुक्त स्वतंत्रता से mod2मेल खाती है और सशर्त स्वतंत्रता से mod0मेल खाती है , जबकि एक पारस्परिक स्वतंत्रता मॉडल । आप पैरामीटर अनुमानों का उपयोग करते हुए देख सकते हैं , आदि हमेशा की तरह, आपको यह देखने के लिए जांचना चाहिए कि क्या मॉडल मान्यताओं को पूरा किया गया है। आपके द्वारा प्रदान किए गए डेटा में, नल मॉडल वास्तव में पर्याप्त रूप से फिट बैठता है।pshr=psphprsummary(mod2)

अपने पहले प्रश्न के करीब पहुंचने का एक अलग तरीका है , 2-स्तरीकृत 2x2 तालिकाओं के लिए फिशर की सटीक परीक्षा ( fisher.test(xtabs(count ~ host + species))) की व्याख्या की गई 2x2 तालिका (पहली व्याख्या) या मेंटल-हैन्सेल परीक्षण ( mantelhaen.test(xtabs(count ~ host + species + rain))) करना, जो स्तरीकरण का सम्मान करता है। (दूसरी व्याख्या)।

अपने दूसरे प्रश्न को स्पष्ट करने के लिए, क्या प्रजातियों और मेजबान के बीच संबंध निर्भर करता है कि क्या बारिश हुई?

mod3 <- glm(Freq ~ species*host*rain - species:host:rain, data=my.data, family=poisson())
mod4 <- glm(Freq ~ species*host*rain, data=my.data, family=poisson())
anova(mod3, mod4, test=”Chi”)
pchisq(deviance(mod3), df.residual(mod3), lower=F)

पूरा मॉडल mod4संतृप्त है, लेकिन mod3जैसा कि मैंने ऊपर किया है , आप उसके प्रभाव को देखकर प्रश्न में प्रभाव का परीक्षण कर सकते हैं ।


धन्यवाद लॉकडॉफ, विशेष रूप से मेरी मदद करने के लिए मेरी अपनी सोच को सशर्त और संयुक्त स्वतंत्रता मॉडल के बीच का अंतर बताते हैं
david w

1

लॉजिस्टिक रिग्रेशन आपकी समस्या के लिए उचित लगता है। आप जिस चर की भविष्यवाणी करने की कोशिश कर रहे हैं वह संभावना है कि एक अवलोकन (जो या तो प्रजाति A या प्रजाति B है) प्रजाति A है। कोवरिएट्स , और वैकल्पिक रूप से ।आर एक मैं एन एच एस टी * r एक मैं nhostrainhostrain

R कमांड होगी:

glm (सूत्र = प्रजाति ~ मेज़बान + बारिश, परिवार = द्विपद (लॉगिट), वज़न = मायने रखता है)

और आप में रुचि होगी ढलानों के -values। ध्यान रखें कि आप कई परिकल्पनाओं का परीक्षण कर रहे हैं, हालांकि।p


1
लॉजिस्टिक रिग्रेशन ठीक लगता है, लेकिन इसमें पंक्ति और स्तंभ का अतिरिक्त अवरोध तय किया गया है। यह पॉइज़न डेटा के मामले में नहीं हो सकता है। मेरा मानना ​​है कि उत्तर बहुत अलग नहीं होंगे।
सनकूलू

1

शुरू में मैंने veganपैकेज से विवश समन्वय तकनीकों में से एक का प्रयास करने का सुझाव दिया , लेकिन एक दूसरे विचार पर मुझे संदेह है कि यह उपयोगी होगा, क्योंकि आपके पास वास्तव में 2 आकस्मिक तालियाँ हैं। मुझे उम्मीद है कि इस उदाहरण का दूसरा भाग [पीडीएफ: आर ​​डेमोंस्ट्रेशन - श्रेणीबद्ध विश्लेषण] मददगार होगा।


लगता है कि लिंक टूट गया है, क्या आपका मतलब यह श्रेणीबद्ध है ? यह मददगार था, धन्यवाद!
डेविड डब्ल्यू

हां, ऐसा लगता है कि URL में स्पेस इसे तोड़ता है।
इल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.