R में glm - कौन सा pvalue पूरे मॉडल के फिट होने का अच्छा प्रतिनिधित्व करता है?


10

मैं आर (सामान्यीकृत रैखिक मॉडल) में चमक चल रहा हूं। मैंने सोचा था कि मैं pvalues ​​जानता था - जब तक मैंने देखा कि एक glm के लिए एक सारांश कॉल करने से आपको एक पूरे के रूप में मॉडल का एक ओवरराइडिंग pvalue प्रतिनिधि नहीं मिलता है - कम से कम उस जगह पर नहीं जहां रैखिक मॉडल करते हैं।

मुझे आश्चर्य हो रहा है कि क्या यह गुणांक की तालिका के शीर्ष पर इंटरसेप्ट के लिए व्याप्त के रूप में दिया गया है। तो निम्नलिखित उदाहरण में, जबकि Wind.speed..knots और canopy_density मॉडल के लिए महत्वपूर्ण हो सकता है, हम कैसे जानते हैं कि क्या मॉडल ही महत्वपूर्ण है? मुझे कैसे पता चलेगा कि इन मूल्यों पर भरोसा करना है या नहीं। क्या मुझे आश्चर्य है कि Pr (> z |) के लिए (अवरोधन) मॉडल के महत्व को दर्शाता है? क्या यह मॉडल महत्वपूर्ण लोग है ??? धन्यवाद!

मुझे ध्यान देना चाहिए कि एफ-परीक्षण चलाने से कोई नुकसान नहीं होगा क्योंकि मुझे यह कहते हुए एक त्रुटि संदेश मिलता है कि द्विपद परिवार पर एफ-परीक्षण चलाना अनुचित है।

Call:
glm(formula = Empetrum_bin ~ Wind.speed..knots. + canopy_density, 
    family = binomial, data = CAIRNGORM)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.2327  -0.7167  -0.4302  -0.1855   2.3194  

Coefficients:
                   Estimate Std. Error z value Pr(>|z|)  
(Intercept)          1.8226     1.2030   1.515   0.1298  
Wind.speed..knots.  -0.5791     0.2628  -2.203   0.0276 *
canopy_density      -2.5733     1.1346  -2.268   0.0233 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 59.598  on 58  degrees of freedom
Residual deviance: 50.611  on 56  degrees of freedom
  (1 observation deleted due to missingness)
AIC: 56.611

1
अगर मुझे एक द्विपद प्रतिगमन में सही ढंग से याद है, तो आपको विचलन की एक परीक्षा का उपयोग करना चाहिए, उर्फ ​​एक लॉग संभावना परीक्षण - जो एक रैखिक प्रतिगमन में प्रयुक्त एफ-परीक्षण के अनुरूप है। यह -2 * (नल एलएल - संतृप्त एलएल) है जो एक ची-चुकता वितरण फिट बैठता है। हालाँकि मैं आपके सारांश आउटपुट में एक मॉडल लॉग संभावना नहीं देख सकता। क्या यह मॉडल ऑब्जेक्ट में है लेकिन सारांश आउटपुट में नहीं है?
सैमपासमोर

जवाबों:


10

आप (59.598-50.611) का एक असममित चि-वर्ग परीक्षण (58-56) df के साथ कर सकते हैं, या anova()अपनी glm ऑब्जेक्ट पर उपयोग कर सकते हैं (जो सीधे परीक्षण नहीं करता है, लेकिन कम से कम 59.598-50.611) और (58-56) आपके लिए।

यह प्रभावी रूप से विचलन का विश्लेषण है

यहां आप एक अलग डेटा सेट (जो R के साथ आता है) पर गणना कर सकते हैं:

spray1=glm(count~spray,family=poisson,data=InsectSprays)  # full model
spray0=glm(count~1,family=poisson,data=InsectSprays)      # null model
with(anova(spray0,spray1),pchisq(Deviance,Df,lower.tail=FALSE)[2]) 

जो कि भक्ति के आधार पर एक असममित ची वर्ग प्रतिमा के लिए पी-मान देता है ।

या आप ऐसा करने के लिए devianceऔर df.residualकार्यों का उपयोग कर सकते हैं :

 pchisq(deviance(spray0)-deviance(spray1),
     df.residual(spray0)-df.residual(spray1),
    lower.tail=FALSE)

-

बहुत से लोग पूर्ण और अशक्त-मॉडल AIC (या कुछ मामलों में, शायद रुचि के मॉडल और संतृप्त मॉडल के बीच की तुलना) के बीच तुलना करने के लिए उपयोग करेंगे कि क्या मॉडल उस अर्थ में शून्य से बेहतर था।

-

क्या मुझे आश्चर्य है कि Pr (> z |) के लिए (अवरोधन) मॉडल के महत्व को दर्शाता है?

यह नहीं है दरअसल, इंटरसेप्ट पी-वैल्यू आमतौर पर प्रत्यक्ष ब्याज का नहीं होता है।

यदि आप एक फैलाव पैरामीटर के साथ एक मॉडल पर विचार कर रहे हैं, तो मैंने देखा है कि कुछ लोगों ने एक स्पर्शोन्मुख ची-वर्ग के बजाय एफ-टेस्ट करने के लिए बहस की है; यह अलग-अलग गुणांक पर एज़ के बजाय टी-टेस्ट का उपयोग करने वाले लोगों से मेल खाती है। यह छोटे नमूनों में एक उचित अनुमान होने की संभावना नहीं है। मैंने एक व्युत्पत्ति या सिमुलेशन नहीं देखा है जो सुझाएगा कि सामान्य रूप से GLM के मामले में F एक उपयुक्त सन्निकटन है (यानी asymptotic परिणाम से बेहतर)। एक अच्छी तरह से मौजूद हो सकता है, लेकिन मैंने इसे नहीं देखा है।


2
आप लाइब्रेरी Anova(fit, type = 2)से भी चल सकते हैंcar
अल्गोरिथमेटिक

3

मान लें कि आप मॉडल ऑब्जेक्ट 'फिट' में हैं, तो आप इस कोड का उपयोग अपने द्विपद मॉडल पर लॉग-लाइलीहुड परीक्षण करने के लिए कर सकते हैं जैसा कि आपने उल्लेख किया है कि एफ-परीक्षण उचित नहीं है, लेकिन यदि आपका मॉडल बेहतर होने की भविष्यवाणी करता है तो यह परीक्षण परीक्षण करेगा यादृच्छिक से।

LLR = -2 * (fit$null.deviance - fit$deviance)

यह लॉग-संभावना अनुपात परीक्षण के लिए सूत्र है।

pchisq(LLR, 2, lower.tail = FALSE)

और यह आपको पी-वैल्यू देगा। सोचा कि मैं 100% आश्वस्त नहीं हूं कि सही df है। मुझे पूरा यकीन है कि यह मापदंडों की संख्या में अंतर है, जिनमें से आपके संतृप्त मॉडल में 2 है और नल मॉडल में कोई भी नहीं है, एर्गो डीएफ = 3 - 1 = 2. लेकिन इसका पालन करने के लिए कुछ हो सकता है।


1

एफχ2

वैकल्पिक रूप से, आप एआईसी या बीआईसी जैसे संबंधित उपायों को देख सकते हैं।

आर2

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.