सतह के कई संपर्कों के बाद अंगुलियों पर बैक्टीरिया उठाया गया: गैर-सामान्य डेटा, दोहराए गए उपाय, प्रतिभागियों को पार करना


9

पहचान

मेरे पास प्रतिभागी हैं जो दो स्थितियों में ई कोलाई के साथ बार-बार दूषित सतहों को छू रहे हैं ( = दस्ताने पहने हुए, बी = कोई दस्ताने नहीं)। मैं जानना चाहता हूं कि क्या दस्ताने के साथ और बिना संपर्कों की संख्या के बीच बैक्टीरिया की मात्रा में अंतर है। दोनों कारक प्रतिभागी के भीतर हैं।

प्रयोगात्मक विधि:

प्रतिभागियों (एन = 35) अधिकतम 8 संपर्कों के लिए एक ही उंगली से एक बार एक वर्ग को छूते हैं (आंकड़ा देखें)। ए) प्रत्येक सतह संपर्क के बाद उंगलियों पर 8 सतहों, बी) सीएफयू के साथ उंगली के संपर्क

मैं तब प्रतिभागी की उंगली को सूजता हूं और प्रत्येक संपर्क के बाद उंगलियों पर बैक्टीरिया को मापता हूं। वे तब एक नई उंगली का उपयोग करके विभिन्न प्रकार की सतहों और इतने पर 1 से 8 संपर्कों (आंकड़ा बी देखें) को छूने के लिए करते हैं।

यहाँ वास्तविक डेटा है: वास्तविक डेटा

डेटा गैर-सामान्य है इसलिए बैक्टीरिया के सीमांत वितरण देखें। नीचे दिए गए नंबर। एक्स = बैक्टीरिया। प्रत्येक पहलू संपर्कों की एक अलग संख्या है।

यहाँ छवि विवरण दर्ज करें

नमूना

Lme4 से कोशिश करना :: गामा (लिंक = "लॉग") और नंबरकंटैक्ट के लिए बहुपद का उपयोग करते हुए अमीबा के सुझावों पर आधारित है:

cfug<-glmer(CFU ~ Gloves + poly(NumberContacts,2) + (-1+NumberContacts|Participant),
            data=(K,CFU<4E5),
           family=Gamma(link="log")
            )
plot(cfug)

एनबी। गामा (लिंक = "उलटा") यह कहते हुए नहीं चलेगा कि पीआईआरएलएस स्टेप-हॉल्टिंग भटकाव को कम करने में विफल रहा।

परिणाम:

Cfug के लिए सज्जित बनाम अवशिष्ट यहाँ छवि विवरण दर्ज करें

qqp (resid (cfug))

यहाँ छवि विवरण दर्ज करें

सवाल:

क्या मेरे ग्लैमर मॉडल को प्रत्येक प्रतिभागी के यादृच्छिक प्रभावों और इस तथ्य को शामिल करने के लिए ठीक से परिभाषित किया गया है कि हर कोई ए का प्रयोग करता है और उसके बाद प्रयोग बी ?

इसके अलावा:

प्रतिभागियों के बीच स्वतःसंबंध का अस्तित्व है। यह संभवतः इसलिए है क्योंकि वे एक ही दिन पर परीक्षण नहीं किए गए थे और बैक्टीरिया का फ्लास्क बढ़ता है और समय के साथ गिरावट आती है। फर्क पड़ता है क्या?

acf (CFU, lag = 35) एक प्रतिभागी और अगले के बीच एक महत्वपूर्ण संबंध दर्शाता है।

यहाँ छवि विवरण दर्ज करें


1
आप NumberContactsएक संख्यात्मक कारक के रूप में उपयोग कर सकते हैं और एक द्विघात / घन बहुपद शब्द शामिल कर सकते हैं। या सामान्यीकृत योजक मिश्रित मॉडल देखें।
अमीबा

1
@amoeba आपकी मदद के लिए धन्यवाद। सभी प्रतिभागियों ने ए (ग्लव्ड) के बाद बी (अनलग्वेटेड) किया। क्या आपको लगता है कि विश्लेषण के साथ अन्य मूलभूत समस्याएं हैं? यदि हां, तो मैं किसी भी उत्तर के लिए खुला हूं।
HCAI

1
यदि ऐसा है, तो आप दस्ताने के यादृच्छिक प्रभाव को शामिल कर सकते हैं। इसके अलावा, मुझे समझ में नहीं आता है कि आप यादृच्छिक अवरोधन क्यों हटाते हैं और यादृच्छिक भाग में पूरे 2 डिग्री बहुपद को शामिल क्यों नहीं करते हैं। और आप दस्ताने * संख्या बातचीत कर सकते हैं। तो क्यों CFU ~ Gloves * poly(NumberContacts,2) + (Gloves * poly(NumberContacts,2) | Participant)या ऐसा कुछ नहीं है।
अमीबा

1
ओह, मैं इंटरसेप्ट के बारे में समझता हूं, लेकिन फिर आपको निश्चित इंटरसेप्ट को भी दबाने की जरूरत होगी। इसके अलावा, शून्य संपर्कों के लिए आपके पास शून्य सीएफयू होना चाहिए, लेकिन लॉग-लिंक के साथ इसका कोई मतलब नहीं है। और आपके पास 1 संपर्क पर शून्य CFU के पास कहीं नहीं है। इसलिए मैं इंटरसेप्ट को नहीं दबाऊंगा। अभिसरण अच्छा नहीं है, यादृच्छिक भाग से इंटरैक्शन को निकालने का प्रयास करें: CFU ~ Gloves * poly(NumberContacts,2) + (Gloves + poly(NumberContacts,2) | Participant)या हो सकता है कि दस्ताने वहां से हटा दें CFU ~ Gloves * poly(NumberContacts,2) + (poly(NumberContacts,2) | Participant)...
अमीबा

1
मुझे लगता Gloves * poly(NumberContacts,2) + (poly(NumberContacts,2) | Participant)है कि एक बहुत अच्छा मॉडल है।
अमीबा

जवाबों:


6

कुछ प्लॉट डेटा का पता लगाने के लिए

नीचे आठ, सतह संपर्कों की प्रत्येक संख्या के लिए एक, दस्ताने दिखाने वाले प्लॉट्स हैं जो कोई दस्ताने नहीं हैं।

प्रत्येक व्यक्ति को एक डॉट के साथ प्लॉट किया जाता है। माध्य और विचरण और सहसंयोजक एक लाल बिंदु और दीर्घवृत्त (महालनोबिस दूरी 97.5% जनसंख्या के अनुरूप) के साथ इंगित किए जाते हैं।

आप देख सकते हैं कि जनसंख्या के प्रसार की तुलना में प्रभाव केवल छोटे हैं। माध्य 'नो ग्लव्स' के लिए अधिक होता है और अधिक सतही संपर्कों के लिए इसका मतलब थोड़ा अधिक बदल जाता है (जिसे महत्वपूर्ण दिखाया जा सकता है)। लेकिन प्रभाव केवल आकार में कम है (कुल मिलाकर ए14लॉग कमी), और ऐसे कई व्यक्ति हैं जिनके लिए वास्तव में दस्ताने के साथ एक उच्च बैक्टीरिया की गिनती है ।

छोटे सहसंबंध से पता चलता है कि वास्तव में व्यक्तियों से एक यादृच्छिक प्रभाव है (यदि व्यक्ति से कोई प्रभाव नहीं था, तो युग्मित दस्ताने और दस्ताने के बीच कोई संबंध नहीं होना चाहिए)। लेकिन यह केवल एक छोटा सा प्रभाव है और एक व्यक्ति के पास 'दस्ताने' और 'कोई दस्ताने' के लिए अलग-अलग यादृच्छिक प्रभाव हो सकते हैं (उदाहरण के लिए सभी अलग-अलग संपर्क बिंदुओं के लिए व्यक्ति के पास 'दस्ताने' की तुलना में 'दस्ताने' के लिए लगातार उच्च / निम्न गणना हो सकती है) ।

दस्ताने के साथ और उसके बिना xy भूखंड

नीचे दिए गए भूखंड 35 व्यक्तियों में से प्रत्येक के लिए अलग भूखंड हैं। इस साजिश का विचार यह देखना है कि व्यवहार सजातीय है और यह भी देखने के लिए कि किस प्रकार का कार्य उपयुक्त लगता है।

ध्यान दें कि 'दस्ताने के बिना' लाल रंग में है। ज्यादातर मामलों में लाल रेखा अधिक होती है, 'दस्ताने के बिना' मामलों के लिए अधिक बैक्टीरिया।

मेरा मानना ​​है कि यहां के रुझानों को पकड़ने के लिए एक रैखिक भूखंड पर्याप्त होना चाहिए। द्विघात कथानक का नुकसान यह है कि गुणांक की व्याख्या करना अधिक कठिन होने वाला है (आप सीधे यह देखने वाले नहीं हैं कि ढलान सकारात्मक है या नकारात्मक क्योंकि दोनों रैखिक शब्द और द्विघात शब्द का इस पर प्रभाव है)।

लेकिन इससे भी महत्वपूर्ण बात यह है कि विभिन्न व्यक्तियों के बीच रुझान बहुत भिन्न होते हैं और इसलिए यह न केवल अवरोधन, बल्कि व्यक्ति के ढलान के लिए एक यादृच्छिक प्रभाव जोड़ने के लिए उपयोगी हो सकता है।

प्रत्येक व्यक्ति के लिए भूखंड

नमूना

नीचे दिए गए मॉडल के साथ

  • प्रत्येक व्यक्ति को यह अपने आप फिट (रैखिक गुणांक के लिए यादृच्छिक प्रभाव) मिलेगा।
  • मॉडल लॉग-ट्रांसफ़ॉर्म किए गए डेटा का उपयोग करता है और एक नियमित (गाऊसी) रैखिक मॉडल के साथ फिट बैठता है। टिप्पणियों में अमीबा ने उल्लेख किया है कि एक लॉग लिंक एक असामान्य वितरण से संबंधित नहीं है। लेकिन यह अलग है।yN(log(μ),σ2) से अलग है log(y)N(μ,σ2)
  • वेट लगाया जाता है क्योंकि डेटा हेटेरोसेडस्टिक है। विभिन्न संख्याओं के प्रति भिन्नता अधिक संकीर्ण है। यह शायद इसलिए है क्योंकि बैक्टीरिया की गिनती में कुछ सीलिंग है और भिन्नता ज्यादातर सतह से उंगली तक संचरण में असफलता के कारण है (= निचले मामलों से संबंधित)। 35 भूखंडों में भी देखें। मुख्य रूप से कुछ व्यक्ति हैं जिनके लिए भिन्नता दूसरों की तुलना में बहुत अधिक है। (हम qq- भूखंडों में भी बड़े पूंछ, अतिविशिष्टता देखते हैं)
  • कोई अवरोधन शब्द का उपयोग नहीं किया जाता है और एक 'विपरीत' शब्द जोड़ा जाता है। यह गुणांक को व्याख्या करने के लिए आसान बनाने के लिए किया जाता है।

K    <- read.csv("~/Downloads/K.txt", sep="")
data <- K[K$Surface == 'P',]
Contactsnumber   <- data$NumberContacts
Contactscontrast <- data$NumberContacts * (1-2*(data$Gloves == 'U'))
data <- cbind(data, Contactsnumber, Contactscontrast)
m    <- lmer(log10CFU ~ 0 + Gloves + Contactsnumber + Contactscontrast + 
                        (0 + Gloves + Contactsnumber + Contactscontrast|Participant) ,
             data=data, weights = data$log10CFU)

यह देता है

> summary(m)
Linear mixed model fit by REML ['lmerMod']
Formula: log10CFU ~ 0 + Gloves + Contactsnumber + Contactscontrast + (0 +  
    Gloves + Contactsnumber + Contactscontrast | Participant)
   Data: data
Weights: data$log10CFU

REML criterion at convergence: 180.8

Scaled residuals: 
    Min      1Q  Median      3Q     Max 
-3.0972 -0.5141  0.0500  0.5448  5.1193 

Random effects:
 Groups      Name             Variance  Std.Dev. Corr             
 Participant GlovesG          0.1242953 0.35256                   
             GlovesU          0.0542441 0.23290   0.03            
             Contactsnumber   0.0007191 0.02682  -0.60 -0.13      
             Contactscontrast 0.0009701 0.03115  -0.70  0.49  0.51
 Residual                     0.2496486 0.49965                   
Number of obs: 560, groups:  Participant, 35

Fixed effects:
                  Estimate Std. Error t value
GlovesG           4.203829   0.067646   62.14
GlovesU           4.363972   0.050226   86.89
Contactsnumber    0.043916   0.006308    6.96
Contactscontrast -0.007464   0.006854   -1.09

qqplot

बच गया

कोड भूखंड प्राप्त करने के लिए

chemometrics :: drawMahal फ़ंक्शन

# editted from chemometrics::drawMahal
drawelipse <- function (x, center, covariance, quantile = c(0.975, 0.75, 0.5, 
                                              0.25), m = 1000, lwdcrit = 1, ...) 
{
  me <- center
  covm <- covariance
  cov.svd <- svd(covm, nv = 0)
  r <- cov.svd[["u"]] %*% diag(sqrt(cov.svd[["d"]]))
  alphamd <- sqrt(qchisq(quantile, 2))
  lalpha <- length(alphamd)
  for (j in 1:lalpha) {
    e1md <- cos(c(0:m)/m * 2 * pi) * alphamd[j]
    e2md <- sin(c(0:m)/m * 2 * pi) * alphamd[j]
    emd <- cbind(e1md, e2md)
    ttmd <- t(r %*% t(emd)) + rep(1, m + 1) %o% me
#    if (j == 1) {
#      xmax <- max(c(x[, 1], ttmd[, 1]))
#      xmin <- min(c(x[, 1], ttmd[, 1]))
#      ymax <- max(c(x[, 2], ttmd[, 2]))
#      ymin <- min(c(x[, 2], ttmd[, 2]))
#      plot(x, xlim = c(xmin, xmax), ylim = c(ymin, ymax), 
#           ...)
#    }
  }
  sdx <- sd(x[, 1])
  sdy <- sd(x[, 2])
  for (j in 2:lalpha) {
    e1md <- cos(c(0:m)/m * 2 * pi) * alphamd[j]
    e2md <- sin(c(0:m)/m * 2 * pi) * alphamd[j]
    emd <- cbind(e1md, e2md)
    ttmd <- t(r %*% t(emd)) + rep(1, m + 1) %o% me
#    lines(ttmd[, 1], ttmd[, 2], type = "l", col = 2)
    lines(ttmd[, 1], ttmd[, 2], type = "l", col = 1, lty=2)  #
  }
  j <- 1
  e1md <- cos(c(0:m)/m * 2 * pi) * alphamd[j]
  e2md <- sin(c(0:m)/m * 2 * pi) * alphamd[j]
  emd <- cbind(e1md, e2md)
  ttmd <- t(r %*% t(emd)) + rep(1, m + 1) %o% me
#  lines(ttmd[, 1], ttmd[, 2], type = "l", col = 1, lwd = lwdcrit)
  invisible()
}

५ x 7 कथानक

#### getting data
K <- read.csv("~/Downloads/K.txt", sep="")

### plotting 35 individuals

par(mar=c(2.6,2.6,2.1,1.1))
layout(matrix(1:35,5))

for (i in 1:35) {
  # selecting data with gloves for i-th participant
  sel <- c(1:624)[(K$Participant==i) & (K$Surface == 'P') & (K$Gloves == 'G')]
      # plot data
  plot(K$NumberContacts[sel],log(K$CFU,10)[sel], col=1,
       xlab="",ylab="",ylim=c(3,6))
      # model and plot fit
  m <- lm(log(K$CFU[sel],10) ~ K$NumberContacts[sel])
  lines(K$NumberContacts[sel],predict(m), col=1)

  # selecting data without gloves for i-th participant 
  sel <- c(1:624)[(K$Participant==i) & (K$Surface == 'P') & (K$Gloves == 'U')]
     # plot data 
  points(K$NumberContacts[sel],log(K$CFU,10)[sel], col=2)
     # model and plot fit
  m <- lm(log(K$CFU[sel],10) ~ K$NumberContacts[sel])
  lines(K$NumberContacts[sel],predict(m), col=2)
  title(paste0("participant ",i))
}

2 एक्स 4 प्लॉट

#### plotting 8 treatments (number of contacts)

par(mar=c(5.1,4.1,4.1,2.1))
layout(matrix(1:8,2,byrow=1))

for (i in c(1:8)) {
  # plot canvas
  plot(c(3,6),c(3,6), xlim = c(3,6), ylim = c(3,6), type="l", lty=2, xlab='gloves', ylab='no gloves')

  # select points and plot
  sel1 <- c(1:624)[(K$NumberContacts==i) & (K$Surface == 'P') & (K$Gloves == 'G')]
  sel2 <- c(1:624)[(K$NumberContacts==i) & (K$Surface == 'P') & (K$Gloves == 'U')]
  points(K$log10CFU[sel1],K$log10CFU[sel2])

  title(paste0("contact ",i))

  # plot mean
  points(mean(K$log10CFU[sel1]),mean(K$log10CFU[sel2]),pch=21,col=1,bg=2)

  # plot elipse for mahalanobis distance
  dd <- cbind(K$log10CFU[sel1],K$log10CFU[sel2])
  drawelipse(dd,center=apply(dd,2,mean),
            covariance=cov(dd),
            quantile=0.975,col="blue",
            xlim = c(3,6), ylim = c(3,6), type="l", lty=2, xlab='gloves', ylab='no gloves')
}

बहुत बहुत धन्यवाद मार्टिज़न, आपने चीजों को बहुत स्पष्ट रूप से समझाया है। गजब का! चूंकि बाउंटी मेरे काम को पूरा करने से पहले समाप्त हो गई थी, इसलिए मैं आपको एक अलग राशि प्रदान करना चाहूंगा (अब मैं इसे कैसे करना है इस पर गौर करूंगा)। हालांकि मेरे पास कुछ प्रश्न हैं: सबसे पहले, डेटा को बदलने के लिए सोचा के स्कूल हैं: कुछ सहमत हैं और कुछ असहमत असहमत हैं। यहाँ क्यों ठीक है? दूसरे, यादृच्छिक अवरोध को हटाने से गुणांकों की व्याख्या करना आसान हो जाता है?
एचसीएआई

(२) मुझे लगता है कि रूपांतरण ठीक है जब आप तर्क दे सकते हैं कि एक ऐसी प्रक्रिया है जो परिवर्तन को तार्किक बनाती है (वास्तव में अनिच्छा से रूपांतरित होने के कारण क्योंकि यह परिणाम अच्छा दिखता है तो डेटा हेरफेर और गलत परिणाम प्रस्तुत करने के साथ-साथ अंतर्निहित नहीं होने के रूप में देखा जा सकता है। मॉडल)
Sextus Empiricus

मैं देखता हूं @Martijn, कम से कम बायोलॉजी में लॉग 10 द्वारा परिवर्तित करना बैक्टीरिया के लिए आम है। मैं इनाम देने के लिए खुश हूं, आप इसके हकदार हैं। क्या आप इस "विपरीत शब्द" का उपयोग करने के लिए कृपया थोड़ा विस्तार करने का मन करेंगे?
HCAI

1
कंट्रास्ट के बारे में यहां देखें आंकड़े ।stackexchange.com/a/308644/164061 आपको इंटरसेप्ट टर्म को इधर-उधर करने की आजादी है। एक संभावित रूप से उपयोगी तरीका दो श्रेणियों के बीच अवरोधन को निर्धारित करना है और उस प्रभाव अवरोधक शब्द के सापेक्ष दो प्रभावों के बीच अंतर करना (एक नकारात्मक अन्य सकारात्मक होगा)। (ऐसा नहीं है कि मुझे इसके लिए एक चर जोड़ना पड़ा)
सेक्स्टस एम्पिरिकस

1
आदर्श रूप से आपके पास समय के साथ बेतरतीब ढंग से वितरित उपचार होंगे ताकि समय में बदलाव के कारण होने वाले किसी भी संभावित प्रभाव का स्तर समाप्त हो जाए। लेकिन मैं वास्तव में इतना निरंकुशता नहीं देखता हूं। क्या आपका मतलब है कि 5 और 6 नंबर के बीच प्रतिभागी 5 में ऐसे कूदता है जिसके बाद लाइन फिर से स्थिर होती है? मुझे लगता है कि ये इतने बुरे नहीं हैं और ज़्यादातर शोर में हैं, लेकिन आपकी पद्धति में हस्तक्षेप नहीं करते (सिवाय सिग्नल / शोर कम करने के)। जब आप समय के साथ व्यवस्थित परिवर्तन नहीं देखते हैं तो आप अधिक निश्चित हो सकते हैं। यदि आपने प्रतिभागियों को क्रम में संसाधित किया है, तो आप समय के साथ उनके औसत CFU की साजिश कर सकते हैं।
सेक्स्टस एम्पिरिकस

2

सबसे पहले, आपके ग्राफ पर अच्छा काम; यह डेटा का एक स्पष्ट प्रतिनिधित्व देता है, इसलिए आप पहले से ही संपर्कों की संख्या और दस्ताने के उपयोग या अनुपस्थिति के आधार पर डेटा में किस तरह का पैटर्न देख सकते हैं। इस ग्राफ को देखते हुए, मुझे लगता है कि आप प्रतिभागियों के लिए यादृच्छिक प्रभावों के साथ एक मूल लॉग-बहुपद मॉडल के साथ अच्छे परिणाम प्राप्त करेंगे। आपके द्वारा चुना गया मॉडल उचित लगता है, लेकिन आप संपर्कों की संख्या के लिए एक द्विघात शब्द जोड़ने पर भी विचार कर सकते हैं।

जैसे कि आपके मॉडल का उपयोग करना है MASS:glmmPQLया lme4:glmerआपके लिए, मेरी समझ यह है कि ये दोनों फ़ंक्शन एक ही मॉडल (इसलिए जब तक आप मॉडल समीकरण, वितरण और लिंक फ़ंक्शन को एक ही सेट करते हैं) फिट होंगे, लेकिन वे फिट का पता लगाने के लिए विभिन्न अनुमान विधियों का उपयोग करते हैं। मुझे गलत किया जा सकता है, लेकिन प्रलेखन से मेरी समझ यह है कि वोल्फिंजर और ओ'कोनेल (1993)glmmPQL में वर्णित दंडित अर्ध-संभावना का उपयोग करता है , जबकि गॉस-हरमिट क्वाड्रेट का उपयोग करता है। यदि आप इसके बारे में चिंतित हैं, तो आप अपने मॉडल को दोनों तरीकों से फिट कर सकते हैं और जांच सकते हैं कि वे समान गुणांक अनुमान देते हैं और इस तरह से आपको अधिक विश्वास होगा कि फिटिंग एल्गोरिथ्म गुणांक के सच्चे MLE में परिवर्तित हो गया है।glmer


NumberContactsएक स्पष्ट कारक होना चाहिए?

इस चर का एक प्राकृतिक क्रम है जो आपके भूखंडों से प्रतिक्रिया चर के साथ एक सहज संबंध रखता है, इसलिए आप इसे एक संख्यात्मक चर के रूप में उचित रूप से मान सकते हैं। यदि आपको शामिल करना था factor(NumberContacts)तो आप इसके रूप को नहीं रोकेंगे और आप कई डिग्री की स्वतंत्रता नहीं खोएंगे। आप Gloves*factor(NumberContacts)बहुत अधिक डिग्री-स्वतंत्रता खोए बिना भी बातचीत का उपयोग कर सकते हैं । हालांकि, यह विचार करने योग्य है कि क्या कारक चर का उपयोग करने से डेटा ओवर-फिटिंग होगा। यह देखते हुए कि आपके प्लॉट में काफी सहज संबंध हैं, एक सरल रैखिक कार्य या द्विघात बिना ओवर-फिटिंग के अच्छे परिणाम प्राप्त करेंगे।


आप Participantएक यादृच्छिक ढलान कैसे बनाते हैं लेकिन अवरोधन चर नहीं?

आपने पहले से ही एक लघुगणकीय लिंक फ़ंक्शन का उपयोग करके अपने प्रतिक्रिया चर को लॉग-स्केल पर रखा है, इसलिए Participantप्रतिक्रिया के लिए एक अवरोधन प्रभाव प्रतिक्रिया पर कई गुना प्रभाव दे रहा है। यदि आप इसे एक यादृच्छिक ढलान देने के लिए बातचीत कर रहे थे NumberContactsतो यह प्रतिक्रिया पर एक शक्ति-आधारित प्रभाव होगा। यदि आप ऐसा चाहते हैं तो आप इसे प्राप्त कर सकते हैं जिसके साथ (~ -1 + NumberContacts|Participant)इंटरसेप्ट को हटा देगा लेकिन संपर्कों की संख्या के आधार पर एक ढलान जोड़ देगा।


क्या मुझे अपना डेटा बदलने के लिए बॉक्स-कॉक्स का उपयोग करना चाहिए? (उदाहरण lambda = 0.779)

यदि संदेह है, तो इस परिवर्तन के साथ एक मॉडल फिटिंग का प्रयास करें और देखें कि यह उपयुक्त अच्छाई-के-फिट आंकड़ों का उपयोग करके अन्य मॉडलों की तुलना कैसे करता है। यदि आप इस परिवर्तन का उपयोग करने जा रहे हैं तो पैरामीटर को छोड़ना बेहतर होगाλ एक मुक्त पैरामीटर के रूप में और मान को पूर्व-निर्दिष्ट करने के बजाय इसे अपने मॉडल के भाग के रूप में अनुमानित किया जाए।


क्या मुझे विचरण के लिए वज़न शामिल करना चाहिए?

अपने अवशिष्ट भूखंड को देखकर यह देखना शुरू करें कि क्या विषमलैंगिकता का प्रमाण है। आपके द्वारा पहले ही शामिल किए गए भूखंडों के आधार पर यह मुझे दिखता है जैसे कि यह कोई समस्या नहीं है, इसलिए आपको विचरण के लिए किसी भी भार को जोड़ने की आवश्यकता नहीं है। यदि संदेह है, तो आप एक सरल रैखिक फ़ंक्शन का उपयोग करके वज़न जोड़ सकते हैं और फिर यह देखने के लिए एक सांख्यिकीय परीक्षण कर सकते हैं कि क्या भार का ढलान सपाट है। यह एक विषम परीक्षा की औपचारिक परीक्षा होगी, जो आपको आपकी पसंद के लिए कुछ बैकअप देगी।


क्या मुझे इसमें ऑटोक्रेलेशन शामिल करना चाहिए NumberContacts?

यदि आपने पहले ही प्रतिभागी के लिए एक यादृच्छिक प्रभाव शब्द शामिल कर लिया है, तो संपर्कों की संख्या पर ऑटो-सहसंबंध शब्द जोड़ना बुरा होगा। आपका प्रयोग विभिन्न नंबरों के संपर्कों के लिए एक अलग उंगली का उपयोग करता है ताकि आप उस मामले के लिए स्वत :संबंध की उम्मीद न करें जहां आपने पहले से ही प्रतिभागी के लिए जिम्मेदार है। प्रतिभागी प्रभाव के अलावा एक ऑटोकॉरेलेशन शब्द जोड़ने का मतलब होगा कि आपको लगता है कि किसी दिए गए प्रतिभागी के लिए भी, संपर्कों की संख्या के आधार पर, विभिन्न उंगलियों के परिणाम के बीच एक सशर्त निर्भरता है।


रिश्तों को दिखाने में आपका ग्राफ अच्छा है, लेकिन आप एक शीर्षक और उपशीर्षक जानकारी जोड़कर और इसे बेहतर अक्ष लेबल देकर सौंदर्यशास्त्र में सुधार कर सकते हैं। आप इसके शीर्षक को हटाकर 'यस' को 'ग्लव्स' और 'नो' से 'नो ग्लव्स' में बदलकर अपनी किंवदंती को सरल बना सकते हैं।


धन्यवाद, यह एक अद्भुत जवाब है! अंत में मैंने गामा (लिंक = "लॉग") की कोशिश की और ग्लैमर बिना किसी शिकायत के, हुर्रे में परिवर्तित हो गया! glmer (CFU ~ दस्ताने + पाली (नंबरकंटैक्ट्स, 2) + (-1 + नंबरकंटैक्ट्स। प्रतिभागी), डेटा = na.omit (सबसेट (K, CFU <4.5e5 और सरफेस == "P")), परिवार = गामा ( लिंक = "लॉग"))। QQplot मुझे लगता है कि ठीक है (CI के बाहर कुछ भी नहीं है) लेकिन फिट किए गए बनाम रीडिड्यूअल फ़नलिंग हैं (इस टिप्पणी के बाद जोड़ा गया चित्र जोड़ा गया है क्योंकि यह मेल नहीं खाता है)। क्या मुझे इसके बारे में बहुत ज्यादा परेशान होना चाहिए?
HCAI

1
क्यूक्यू की साजिश मुझे ठीक लगती है। यह भी याद रखें कि एक GLM में पियर्सन अवशिष्ट अनिवार्य रूप से एक सामान्य वितरण का पालन नहीं करते हैं। लगता है कि आपके पास एक अच्छा विश्लेषण है।
बेन -

1

वास्तव में, यह तर्क देना उचित है कि एक प्रतिभागी से लिया गया माप दूसरे प्रतिभागी से लिए गए से स्वतंत्र नहीं है। उदाहरण के लिए, कुछ लोग अपनी उंगली को अधिक (या कम) बल के साथ दबा सकते हैं, जो प्रत्येक संख्या के संपर्कों के पार उनके सभी मापों को प्रभावित करेगा।

तो 2-तरफ़ा दोहराया जाने वाला उपाय एनोवा इस मामले में आवेदन करने के लिए एक स्वीकार्य मॉडल होगा।

वैकल्पिक रूप से, एक मिश्रित-प्रभाव मॉडल को participantयादृच्छिक कारक के रूप में भी लागू किया जा सकता है। यह अधिक उन्नत और अधिक परिष्कृत समाधान है।


धन्यवाद, मिहेल, आप दबाव के बारे में बिल्कुल सही हैं। हम्म मैं मिश्रित प्रभाव मॉडल के बारे में यहाँ rcompanion.org/handbook/I_09.html पढ़ रहा था, लेकिन बातचीत और नेस्टेड कारकों के बारे में निश्चित नहीं था। क्या मेरे कारक नेस्टेड हैं?
एचसीएआई

मुझे यह भी इंगित करना चाहिए कि डेटा आमतौर पर प्रत्येक संपर्क के लिए वितरित नहीं किया जाता है, इसलिए दंडित क्वैसी -संभावना ( पीक्यूएल ) मॉडलिंग को देखा है: ase.tufts.edu/gsc/gradresources/guidetomixedododinin/… । क्या आपको लगता है कि यह एक अच्छा विकल्प है?
एचसीएआई
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.