Lme4 glmer और glmer.nb का उपयोग करके गिनती डेटा GLMM की व्याख्या करने में मदद करें - नकारात्मक द्विपद बनाम पॉसन


9

मेरे पास GLMM के विनिर्देश और व्याख्या के बारे में कुछ प्रश्न हैं। 3 प्रश्न निश्चित रूप से सांख्यिकीय हैं और 2 अधिक विशेष रूप से आर के बारे में हैं। मैं यहां पोस्ट कर रहा हूं क्योंकि अंततः मुझे लगता है कि मुद्दा GLMM परिणामों की व्याख्या है।

मैं वर्तमान में एक GLMM फिट करने की कोशिश कर रहा हूं। मैं अनुदैर्ध्य ट्रैक्ट डेटाबेस से यूएस जनगणना डेटा का उपयोग कर रहा हूं । मेरी टिप्पणियों में जनगणना मार्ग हैं। मेरा आश्रित चर रिक्त आवास इकाइयों की संख्या है और मैं रिक्ति और सामाजिक-आर्थिक चर के बीच संबंधों में दिलचस्पी रखता हूं। यहां उदाहरण सरल है, बस दो निश्चित प्रभावों का उपयोग करते हुए: प्रतिशत गैर-श्वेत जनसंख्या (दौड़) और औसत घरेलू आय (वर्ग), साथ ही साथ उनकी बातचीत। मैं दो नेस्टेड यादृच्छिक प्रभावों को शामिल करना चाहूंगा: दशकों और दशकों के भीतर, अर्थात (दशक / पथ)। मैं स्थानिक (यानी ट्रैक्स के बीच) और टेम्पोरल (यानी दशकों के बीच) स्वसंबंध के नियंत्रण के प्रयास में इन यादृच्छिक पर विचार कर रहा हूं। हालांकि, मुझे एक निश्चित प्रभाव के रूप में दशक में दिलचस्पी है, इसलिए मैं इसे एक निश्चित कारक के रूप में भी शामिल कर रहा हूं।

चूंकि मेरा स्वतंत्र चर एक गैर-नकारात्मक पूर्णांक गणना चर है, इसलिए मैं पॉइसन और नकारात्मक द्विपद GLMMs को फिट करने की कोशिश कर रहा हूं। मैं ऑफसेट के रूप में कुल आवास इकाइयों के लॉग का उपयोग कर रहा हूं। इसका मतलब यह है कि गुणांक की व्याख्या रिक्ति दर पर प्रभाव के रूप में की जाती है, कुल खाली घरों की संख्या नहीं।

मेरे पास वर्तमान में एक पॉइज़न के लिए परिणाम हैं और एक नकारात्मक द्विपद GLMM का अनुमान है जो lme4 से glmer और glmer.nb का उपयोग करता है । गुणांक की व्याख्या डेटा और अध्ययन क्षेत्र के मेरे ज्ञान के आधार पर मेरे लिए समझ में आता है।

यदि आप डेटा और स्क्रिप्ट चाहते हैं तो वे मेरे जीथूब पर हैं । स्क्रिप्ट में मॉडल बनाने से पहले मेरे द्वारा की गई वर्णनात्मक जांच शामिल है।

यहाँ मेरे परिणाम हैं:

पोइसन मॉडल

Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
 Family: poisson  ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) +      (1 | decade/TRTID10)
   Data: scaled.mydata

     AIC      BIC   logLik deviance df.resid 
 34520.1  34580.6 -17250.1  34500.1     3132 

Scaled residuals: 
     Min       1Q   Median       3Q      Max 
-2.24211 -0.10799 -0.00722  0.06898  0.68129 

Random effects:
 Groups         Name        Variance Std.Dev.
 TRTID10:decade (Intercept) 0.4635   0.6808  
 decade         (Intercept) 0.0000   0.0000  
Number of obs: 3142, groups:  TRTID10:decade, 3142; decade, 5

Fixed effects:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)     -3.612242   0.028904 -124.98  < 2e-16 ***
decade1980       0.302868   0.040351    7.51  6.1e-14 ***
decade1990       1.088176   0.039931   27.25  < 2e-16 ***
decade2000       1.036382   0.039846   26.01  < 2e-16 ***
decade2010       1.345184   0.039485   34.07  < 2e-16 ***
P_NONWHT         0.175207   0.012982   13.50  < 2e-16 ***
a_hinc          -0.235266   0.013291  -17.70  < 2e-16 ***
P_NONWHT:a_hinc  0.093417   0.009876    9.46  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Fixed Effects:
            (Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980  -0.693                                            
decade1990  -0.727  0.501                                     
decade2000  -0.728  0.502  0.530                              
decade2010  -0.714  0.511  0.517  0.518                       
P_NONWHT     0.016  0.007 -0.016 -0.015  0.006                
a_hinc      -0.023 -0.011  0.023  0.022 -0.009  0.221         
P_NONWHT:_h  0.155  0.035 -0.134 -0.129  0.003  0.155   -0.233
convergence code: 0
Model failed to converge with max|grad| = 0.00181132 (tol = 0.001, component 1)

नकारात्मक द्विपद मॉडल

Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
 Family: Negative Binomial(25181.5)  ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) +      (1 | decade/TRTID10)
   Data: scaled.mydata

     AIC      BIC   logLik deviance df.resid 
 34522.1  34588.7 -17250.1  34500.1     3131 

Scaled residuals: 
     Min       1Q   Median       3Q      Max 
-2.24213 -0.10816 -0.00724  0.06928  0.68145 

Random effects:
 Groups         Name        Variance  Std.Dev. 
 TRTID10:decade (Intercept) 4.635e-01 6.808e-01
 decade         (Intercept) 1.532e-11 3.914e-06
Number of obs: 3142, groups:  TRTID10:decade, 3142; decade, 5

Fixed effects:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)     -3.612279   0.028946 -124.79  < 2e-16 ***
decade1980       0.302897   0.040392    7.50 6.43e-14 ***
decade1990       1.088211   0.039963   27.23  < 2e-16 ***
decade2000       1.036437   0.039884   25.99  < 2e-16 ***
decade2010       1.345227   0.039518   34.04  < 2e-16 ***
P_NONWHT         0.175216   0.012985   13.49  < 2e-16 ***
a_hinc          -0.235274   0.013298  -17.69  < 2e-16 ***
P_NONWHT:a_hinc  0.093417   0.009879    9.46  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Fixed Effects:
            (Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980  -0.693                                            
decade1990  -0.728  0.501                                     
decade2000  -0.728  0.502  0.530                              
decade2010  -0.715  0.512  0.517  0.518                       
P_NONWHT     0.016  0.007 -0.016 -0.015  0.006                
a_hinc      -0.023 -0.011  0.023  0.022 -0.009  0.221         
P_NONWHT:_h  0.154  0.035 -0.134 -0.129  0.003  0.155   -0.233

पॉसों DHARMA परीक्षण

    One-sample Kolmogorov-Smirnov test

data:  simulationOutput$scaledResiduals
D = 0.044451, p-value = 8.104e-06
alternative hypothesis: two-sided

    DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model

data:  simulationOutput
ratioObsExp = 1.3666, p-value = 0.159
alternative hypothesis: more

नकारात्मक द्विपद DHARMa परीक्षण

    One-sample Kolmogorov-Smirnov test

data:  simulationOutput$scaledResiduals
D = 0.04263, p-value = 2.195e-05
alternative hypothesis: two-sided

    DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model

data:  simulationOutput2
ratioObsExp = 1.376, p-value = 0.174
alternative hypothesis: more

DHARMA भूखंड

प्वासों

पॉइसन मॉडल DHARMa प्लॉट

नकारात्मक द्विपद

नकारात्मक द्विपद मॉडल DHARMa साजिश

सांख्यिकी प्रश्न

चूंकि मैं अभी भी GLMM का पता लगा रहा हूं, इसलिए मैं विनिर्देश और व्याख्या के बारे में असुरक्षित महसूस कर रहा हूं। मेरे कुछ सवाल है:

  1. ऐसा प्रतीत होता है कि मेरा डेटा पोइसन मॉडल का उपयोग करने का समर्थन नहीं करता है और इसलिए मैं नकारात्मक द्विपद के साथ बेहतर हूं। हालाँकि, मुझे लगातार चेतावनी मिलती है कि मेरे नकारात्मक द्विपद मॉडल अपनी सीमा तक पहुँचते हैं, तब भी जब मैं अधिकतम सीमा बढ़ाता हूं। "Inta.ml (Y, mu, weights = object @ resp $ weights, limit = limit,:], वातन की सीमा तक पहुँच गया।" यह काफी अलग-अलग विशिष्टताओं (यानी फिक्स्ड और रैंडम इफ़ेक्ट दोनों के लिए न्यूनतम और अधिकतम मॉडल) का उपयोग करके होता है। मैंने अपने आश्रितों (सकल, मुझे पता है!) में आउटलेर्स को हटाने की कोशिश की है, क्योंकि शीर्ष 1% मान बहुत अधिक आउटलेयर हैं (0-1012 से नीचे 99% रेंज, 1013-5213 से शीर्ष 1%)। टी का पुनरावृत्तियों पर कोई प्रभाव नहीं है और गुणांक पर बहुत कम प्रभाव भी है। मैं उन विवरणों को यहां शामिल नहीं करता हूं। पॉसन और नकारात्मक द्विपद के बीच गुणांक भी काफी समान हैं। क्या यह अभिसरण की कमी एक समस्या है? क्या नकारात्मक द्विपद मॉडल एक अच्छा फिट है? मैंने नकारात्मक द्विपद मॉडल का उपयोग करके भी चलाया हैAllFit और सभी ऑप्टिमाइज़र इस चेतावनी को नहीं फेंकते (bobyqa, Nelder Mead, और nlminbw ने नहीं किया)।

  2. मेरे दशक के निश्चित प्रभाव के लिए विचरण लगातार बहुत कम है या 0. मुझे लगता है कि इसका मतलब यह हो सकता है कि मॉडल ओवरफिट है। निश्चित प्रभाव से दशक लेने से दशक के यादृच्छिक प्रभाव विचरण में 0.2620 की वृद्धि होती है और निश्चित प्रभाव गुणांक पर अधिक प्रभाव नहीं पड़ता है। क्या इसे छोड़ने में कुछ गलत है? मैं इसे अच्छी तरह से व्याख्या कर रहा हूं क्योंकि अवलोकन विचलन के बीच समझाने की जरूरत नहीं है।

  3. क्या ये परिणाम इंगित करते हैं कि मुझे शून्य-फुलाया गया मॉडल आज़माना चाहिए? DHARMA सुझाव है कि शून्य-मुद्रास्फीति मुद्दा नहीं हो सकता है। अगर आपको लगता है कि मुझे किसी भी तरह की कोशिश करनी चाहिए, तो नीचे देखें।

आर सवाल

  1. मैं शून्य-फुलाया गया मॉडल का प्रयास करने के लिए तैयार होऊंगा, लेकिन मुझे यकीन नहीं है कि जो पैकेज निहितार्थ शून्य-फुलाया हुआ पॉइज़न और नकारात्मक द्विपद GLMMs के लिए यादृच्छिक प्रभावों को निहित करता है। मैं एआईएम की तुलना शून्य-फुलाए हुए मॉडल के साथ करने के लिए glmmADMB का उपयोग करूंगा, लेकिन यह एकल यादृच्छिक प्रभाव तक सीमित है इसलिए इस मॉडल के लिए काम नहीं करता है। मैं MCMCglmm की कोशिश कर सकता था, लेकिन मुझे बायेसियन आँकड़े नहीं पता हैं, इसलिए यह भी आकर्षक नहीं है। कोई अन्य विकल्प?

  2. क्या मैं सारांश (मॉडल) के भीतर घातांक गुणांक प्रदर्शित कर सकता हूं, या क्या मुझे इसे सारांश के बाहर करना होगा जैसा कि मैंने यहां किया है?


1
(2) आसान है: decadeफिक्स्ड और रैंडम दोनों का मतलब नहीं है। या तो इसे तय किया गया है और केवल (1 | decade:TRTID10)यादृच्छिक के रूप में शामिल करें (जो यह (1 | TRTID10)मानने के बराबर है कि आपके TRTID10पास अलग-अलग दशकों के समान स्तर नहीं हैं), या इसे निर्धारित प्रभावों से हटा दें। केवल 4 स्तरों के साथ आप इसे ठीक करने के लिए बेहतर हो सकते हैं: सामान्य सिफारिश यादृच्छिक प्रभाव फिट करने के लिए है यदि किसी के पास 5 स्तर या अधिक है।
अमीबा

1
इसके अलावा, आपके दो भूखंड समान दिखाई देते हैं।
अमीबा

1
अभिसरण चेतावनी के बारे में - आपने (1) कहा कि आपने आशावादी प्रयास bobyqaकिया और इसने कोई चेतावनी नहीं दी। फिर क्या दिक्कत है? बस उपयोग करें bobyqa
अमीबा '’

1
वैसे, मुझे समझ में नहीं आता है कि आप क्यों कहते हैं कि "ऐसा प्रतीत होता है कि मेरा डेटा पॉसों मॉडल का उपयोग करने का समर्थन नहीं करता है"।
अमीबा '’

1
मेरे अनुभव bobyqaमें डिफ़ॉल्ट ऑप्टिमाइज़र से बेहतर रूपांतरित होता है (और मुझे लगता है कि मैंने कहीं पढ़ा है कि यह भविष्य के संस्करणों में डिफ़ॉल्ट बनने जा रहा है lme4)। मुझे नहीं लगता कि आपको डिफ़ॉल्ट ऑप्टिमाइज़र के साथ गैर-अभिसरण के बारे में चिंता करने की आवश्यकता है अगर यह साथ में करता है bobyqa
अमीबा

जवाबों:


10

मेरा मानना ​​है कि आपके अनुमान के साथ कुछ महत्वपूर्ण समस्याएं हैं।

आपके डेटा की जांच करके मैंने जो कुछ भी इकट्ठा किया है, उससे आपकी इकाइयां भौगोलिक रूप से समूहीकृत नहीं हैं, यानी काउंटियों के भीतर जनगणना पथ। इस प्रकार, एक समूहीकरण कारक के रूप में ट्रैक्स का उपयोग करना स्थानिक विषमता को पकड़ने के लिए उपयुक्त नहीं है क्योंकि इसका मतलब है कि आपके पास समूहों के समान व्यक्तियों की संख्या है (या किसी अन्य तरीके से डालने के लिए, आपके सभी समूहों में केवल एक ही अवलोकन है)। एक बहुस्तरीय मॉडलिंग रणनीति का उपयोग करने से हम व्यक्तिगत स्तर के विचरण का अनुमान लगा सकते हैं, जबकि बीच-बीच के विचरण के लिए नियंत्रित करते हैं। चूंकि आपके समूहों में केवल एक ही व्यक्ति है, इसलिए आपके बीच-समूह का विचरण आपके व्यक्तिगत-स्तर के विचरण के समान है, इस प्रकार यह बहुस्तरीय दृष्टिकोण के उद्देश्य को हरा देता है।

दूसरी ओर, समूहीकरण कारक समय के साथ दोहराया माप का प्रतिनिधित्व कर सकता है। उदाहरण के लिए, एक अनुदैर्ध्य अध्ययन के मामले में, किसी व्यक्ति के "गणित" अंक को वार्षिक रूप से पुन: प्राप्त किया जा सकता है, इस प्रकार हमारे पास n वर्षों के लिए प्रत्येक छात्र के लिए वार्षिक मूल्य होगा (इस मामले में, समूह कारक वह छात्र है जैसा कि हम n हैं। छात्रों के भीतर "नेस्टेड" टिप्पणियों की संख्या)। आपके मामले में, आपने प्रत्येक जनगणना पथ के उपायों को दोहराया है decade। इस प्रकार, आप TRTID10"चर संस्करण के बीच" पर कब्जा करने के लिए एक समूह कारक के रूप में अपने चर का उपयोग कर सकते हैं । यह 635 ट्रैकों में नेस्टेड 3142 अवलोकनों की ओर जाता है, जिसमें प्रति जनगणना पथ लगभग 4 और 5 प्रेक्षण हैं।

जैसा कि एक टिप्पणी में उल्लेख किया गया है, decadeएक समूहीकरण कारक के रूप में उपयोग करना बहुत उपयुक्त नहीं है, क्योंकि आपके पास प्रत्येक जनगणना पथ के लिए केवल 5 दशक हैं, और उनके प्रभाव को decadeकोवरिएट के रूप में पेश करके बेहतर कब्जा किया जा सकता है ।

दूसरा, यह निर्धारित करने के लिए कि आपके डेटा को एक पॉइसन या नकारात्मक द्विपद मॉडल (या एक शून्य फुलाया दृष्टिकोण) का उपयोग करके मॉडलिंग करना चाहिए। अपने डेटा में अधिक मात्रा की मात्रा पर विचार करें। एक पॉइसन वितरण की मौलिक विशेषता समरूपता है, जिसका अर्थ है कि वितरण का विचरण बराबर है। आपके डेटा को देखते हुए, यह बहुत स्पष्ट है कि बहुत अधिक अतिशोषण है। साधन की तुलना में भिन्नता बहुत अधिक है।

library(dplyr)    
 dispersionstats <- scaled.mydata %>%
 + group_by(decade) %>%
 + summarise(
 + means = mean(R_VAC),
 + variances = var(R_VAC),
 + ratio = variances/means)

##   dispersionstats
##   # A tibble: 5 x 5
##   decade     means variances     ratio 
##    <int>     <dbl>     <dbl>     <dbl> 
## 1   1970  45.43513   4110.89  90.47822 
## 2   1980 103.52365  17323.34 167.33707 
## 3   1990 177.68038  62129.65 349.67087 
## 4   2000 190.23150  91059.60 478.67784 
## 5   2010 247.68246 126265.60 509.78821 

बहरहाल, यह निर्धारित करने के लिए कि क्या नकारात्मक द्विपद सांख्यिकीय रूप से अधिक उपयुक्त है, एक मानक विधि एक पॉइसन और एक नकारात्मक द्विपद मॉडल के बीच एक संभावना अनुपात परीक्षण करना है, जो बताता है कि नेगबिन एक बेहतर फिट है।

library(MASS)
library(lmtest)

modelformula <- formula(R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln))

poismodel <- glm(modelformula, data = scaled.mydata, family = "poisson")   
nbmodel <- glm.nb(modelformula, data = scaled.mydata)

lrtest(poismodel, nbmodel)

## Likelihood ratio test

##  Model 1: R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln)  
## Model 2: R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln)
##   #Df  LogLik Df  Chisq Pr(>Chisq)
## 1   8 -154269
## 2   9  -17452  1 273634  < 2.2e-16 ***
##  ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

इसे स्थापित करने के बाद, एक अगला परीक्षण इस पर विचार कर सकता है कि क्या बहुस्तरीय (मिश्रित मॉडल) दृष्टिकोण को समान दृष्टिकोण का उपयोग करके वारंट किया जाता है, जो बताता है कि बहुस्तरीय संस्करण एक बेहतर फिट प्रदान करता है। (इसी तरह के परीक्षण का उपयोग ग्लेमर फिट की तुलना करने के लिए किया जा सकता है, जो ग्लैमर के लिए एक पॉज़िशन वितरण मान रहा है। एनबी ऑब्जेक्ट, जब तक मॉडल अन्यथा समान हैं।)

library(lme4)

glmmformula <- update(modelformula, . ~ . + (1|TRTID10))

nbglmm <- glmer.nb(glmmformula, data = scaled.mydata)

lrtest(nbmodel, nbglmm)

## Model 1: R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln)
## Model 2: R_VAC ~ factor(decade) + P_NONWHT + a_hinc + (1 | TRTID10) +
##     P_NONWHT:a_hinc + offset(HU_ln)
##   #Df LogLik Df Chisq Pr(>Chisq)
## 1   9 -17452
## 2  10 -17332  1 239.3  < 2.2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

पॉइसन और नायब मॉडल के अनुमानों के बारे में, वे वास्तव में एक दूसरे के समान होने की उम्मीद करते हैं, मुख्य अंतर मानक त्रुटियों के होने के साथ, यानी यदि अतिविशिष्टता मौजूद है, तो पॉइसन मॉडल पक्षपाती मानक त्रुटियों को प्रदान करता है। उदाहरण के रूप में अपना डेटा लेना:

poissonglmm <- glmer(glmmformula, data = scaled.mydata)
summary(poissonglmm)

## Random effects:
##  Groups  Name        Variance Std.Dev.
## TRTID10 (Intercept) 0.2001   0.4473
## Number of obs: 3142, groups:  TRTID10, 635

## Fixed effects:
##                     Estimate Std. Error z value Pr(>|z|)
## (Intercept)        -2.876013   0.020602 -139.60   <2e-16 ***
## factor(decade)1980  0.092597   0.007602   12.18   <2e-16 ***
## factor(decade)1990  0.903543   0.007045  128.26   <2e-16 ***
## factor(decade)2000  0.854821   0.006913  123.65   <2e-16 ***
## factor(decade)2010  0.986126   0.006723  146.67   <2e-16 ***
## P_NONWHT           -0.125500   0.014007   -8.96   <2e-16 ***
## a_hinc             -0.107335   0.001480  -72.52   <2e-16 ***
## P_NONWHT:a_hinc     0.160937   0.003117   51.64   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

summary(nbglmm)
## Random effects:
##  Groups  Name        Variance Std.Dev.
##  TRTID10 (Intercept) 0.09073  0.3012
## Number of obs: 3142, groups:  TRTID10, 635

## Fixed effects:
##                     Estimate Std. Error z value Pr(>|z|)
## (Intercept)        -2.797861   0.056214  -49.77  < 2e-16 ***
## factor(decade)1980  0.118588   0.039589    3.00  0.00274 **
## factor(decade)1990  0.903440   0.038255   23.62  < 2e-16 ***
## factor(decade)2000  0.843949   0.038172   22.11  < 2e-16 ***
## factor(decade)2010  1.068025   0.037376   28.58  < 2e-16 ***
## P_NONWHT            0.020012   0.089224    0.22  0.82253
## a_hinc             -0.129094   0.008109  -15.92  < 2e-16 ***
## P_NONWHT:a_hinc     0.149223   0.018967    7.87 3.61e-15 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

ध्यान दें कि कैसे गुणांक अनुमान सभी समान हैं, मुख्य अंतर केवल आपके सहसंयोजकों में से एक के महत्व के साथ-साथ यादृच्छिक प्रभावों के विचरण में अंतर है, जो बताता है कि इकाई-स्तरीय भिन्नता nb में अतिविशिष्टता पैरामीटर द्वारा कब्जा कर लिया गया है। मॉडल ( thetaglmer.nb ऑब्जेक्ट में मान) यादृच्छिक प्रभावों द्वारा कैप्चर किए गए ट्रैक्ट विचरण के बीच के कुछ को कैप्चर करता है।

घातांक गुणांक (और संबद्ध आत्मविश्वास अंतराल) के बारे में, आप निम्नलिखित का उपयोग कर सकते हैं:

fixed <- fixef(nbglmm)
confnitfixed <- confint(nbglmm, parm = "beta_", method = "Wald") # Beware: The Wald method is less accurate but much, much faster.

# The exponentiated coefficients are also known as Incidence Rate Ratios (IRR)
IRR <- exp(cbind(fixed, confintfixed)
IRR
##                         fixed      2.5 %     97.5 %
## (Intercept)        0.06094028 0.05458271 0.06803835
## factor(decade)1980 1.12590641 1.04184825 1.21674652
## factor(decade)1990 2.46807856 2.28979339 2.66024515
## factor(decade)2000 2.32553168 2.15789585 2.50619029
## factor(decade)2010 2.90962703 2.70410073 3.13077444
## P_NONWHT           1.02021383 0.85653208 1.21517487
## a_hinc             0.87889172 0.86503341 0.89297205
## P_NONWHT:a_hinc    1.16093170 1.11856742 1.20490048

अंतिम विचार, शून्य मुद्रास्फीति के बारे में। शून्य फुलाया हुआ पॉइज़न या नेगबिन मॉडल का कोई बहुस्तरीय कार्यान्वयन नहीं है (कम से कम मुझे पता है) कि आप मिश्रण के शून्य फुलाया घटक के लिए एक समीकरण निर्दिष्ट करने की अनुमति देता है। glmmADMBमॉडल आप एक निरंतर शून्य मुद्रास्फीति पैरामीटर का अनुमान कर सकते हैं। पैकेज zeroinflमें फ़ंक्शन का उपयोग करने के लिए एक वैकल्पिक दृष्टिकोण होगा pscl, हालांकि यह बहुस्तरीय मॉडल का समर्थन नहीं करता है। इस प्रकार, आप एकल स्तर नकारात्मक द्विपद के फिट की तुलना कर सकते हैं, एकल स्तर शून्य को नकारात्मक द्विपद फुलाया जा सकता है। संभावना है कि यदि एकल स्तर के मॉडल के लिए शून्य मुद्रास्फीति महत्वपूर्ण नहीं है, तो संभावना है कि यह बहुस्तरीय विनिर्देश के लिए महत्वपूर्ण नहीं होगा।

परिशिष्ट

यदि आप स्थानिक स्वायत्तता के बारे में चिंतित हैं, तो आप इसके लिए भौगोलिक भारित प्रतिगमन के कुछ रूप का उपयोग करके नियंत्रित कर सकते हैं (हालांकि मेरा मानना ​​है कि यह बिंदु डेटा का उपयोग करता है, क्षेत्रों का नहीं)। वैकल्पिक रूप से, आप एक अतिरिक्त समूहीकरण कारक (राज्यों, काउंटी) द्वारा अपनी जनगणना ट्रैकों को समूहीकृत कर सकते हैं और इसे एक यादृच्छिक प्रभाव के रूप में शामिल कर सकते हैं। अंत में, और मुझे यकीन नहीं है कि अगर यह पूरी तरह से संभव है, तो संभव है कि इसका उपयोग करके स्थानिक निर्भरता को शामिल किया जाए, उदाहरण के लिए, R_VACपहले क्रम के पड़ोसियों की औसत गिनती एक कोवरिएट के रूप में। किसी भी मामले में, इस तरह के दृष्टिकोणों से पहले, यह निर्धारित करना समझदारी होगी कि क्या स्थानिक निरंकुशता वास्तव में मौजूद है (ग्लोबल मोरन I, LISA परीक्षण और इसी तरह के दृष्टिकोण का उपयोग करके)।


1
brmsयादृच्छिक प्रभावों के साथ शून्य-फुलाए गए नकारात्मक द्विपद मॉडल फिट कर सकते हैं।
एंड्रयू एम

@prestevez और @Andrew, यह सुपर उपयोगी है! इसने बहुत सारे मुद्दों को स्पष्ट किया है जो मैं कर रहा था। मुझे इसके माध्यम से चलने के लिए समय निकालने के लिए धन्यवाद। मैं एक ज़िनब मिश्रित मॉडल से फिटिंग की कोशिश करने जा रहा हूं brmsऔर ऊपर उल्लिखित के रूप में glmer.nb मॉडल से तुलना कर सकता हूं। मैं जनगणना-परिभाषित स्थान (मूल रूप से नगरपालिका, ~ 170 समूह) को यादृच्छिक प्रभावों के लिए एक समूह कारक के रूप में शामिल करने का प्रयास करूँगा (डेटा में केवल 5 काउंटियों, इसलिए मैं इसका उपयोग नहीं करूँगा)। मैं ग्लोबल मोरन के I. का उपयोग करते हुए अवशिष्टों के स्थानिक निरंकुशता के लिए भी परीक्षण करूँगा। जब मैंने ऐसा किया तो मैं रिपोर्ट करूँगा।
सैमुअल वॉकर

@AndrewM, जानकारी के लिए धन्यवाद! मुझे ब्रम्स के बारे में पता नहीं था और सामान्य रूप से बायेसियन आंकड़ों से परिचित नहीं था, हालांकि अब मैं इसे देखने के लिए काफी इच्छुक हूं।

1
@SamuelWalker खुशी है कि यह उपयोगी था! नगरपालिका एक अच्छे विकल्प की तरह लगती है (मैं अमेरिकी जनगणना के आंकड़ों से परिचित नहीं हूं इसलिए मैंने सुझाव दिया कि वास्तव में यह जाने बिना कि क्या वे उचित होंगे)। हालांकि glmer.nb की तुलना एक ब्रम्स ऑब्जेक्ट से की जाती है, लेकिन मुझे यकीन नहीं है कि व्हाय उनकी तुलना करने का सबसे अच्छा तरीका होगा, क्योंकि मैं बायेसियन आँकड़ों से परिचित नहीं हूँ। सौभाग्य!

1
@SamuelWalker एक संभावित विकल्प हो सकता है कि वे मानक और शून्य फुलाए हुए नकारात्मक मॉडल का उपयोग करके brmsऔर उनकी तुलना करके दोनों को फिट कर सकें।
प्रीवेज़
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.