GLM आउटपुट में फैलाव पैरामीटर


11

मैं आर में एक चमक भागा है, और summary()आउटपुट के नीचे के पास , यह बताता है

(Dispersion parameter for gaussian family taken to be 28.35031)

मैंने Google पर कुछ अफवाह किया है और सीखा है कि फैलाव पैरामीटर का उपयोग मानक त्रुटियों को फिट करने के लिए किया जाता है। मुझे उम्मीद है कि किसी को फैलाव पैरामीटर क्या है और इसकी व्याख्या कैसे की जानी चाहिए, इस पर अधिक विवरण प्रदान कर सकता है?

जवाबों:


9

इसका पता लगाने का एक तरीका विभिन्न उपकरणों का उपयोग करके एक ही मॉडल को फिट करने की कोशिश करना है, यहाँ एक उदाहरण है:

> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673,     Adjusted R-squared: 0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16 

> summary(fit2)

Call:
glm(formula = Sepal.Length ~ ., data = iris)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79424  -0.21874   0.00899   0.20255   0.73103  

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

(Dispersion parameter for gaussian family taken to be 0.09414226)

    Null deviance: 102.168  on 149  degrees of freedom
Residual deviance:  13.556  on 144  degrees of freedom
AIC: 79.116

Number of Fisher Scoring iterations: 2

> sqrt( 0.09414226 )
[1] 0.3068261

तो आप देख सकते हैं कि लीनियर मॉडल की अवशिष्ट मानक त्रुटि केवल glm से फैलाव का वर्गमूल है, दूसरे शब्दों में फैलाव (गाऊसी मॉडल के लिए) माध्य वर्ग त्रुटि के समान है।


4

आइए हम सरल स्थिति का अनुमान लगाते हैं जहां आपके डेटा में कोई कोवरिएट जानकारी नहीं है। यह कहें कि, आपके पास अभी केवल ।Y1,Y2,,YnR

यदि आप अपने डेटा को मॉडल करने के लिए सामान्य वितरण का उपयोग कर रहे हैं, तो आप शायद यह लिखेंगे

YiN(μ,σ2) ,

और फिर अधिकतम संभावना अनुमान के माध्यम से और का अनुमान लगाने का प्रयास करें ।μσ

लेकिन मान लें कि आपका डेटा गणना डेटा है और इस प्रकार सामान्य रूप से वितरित नहीं किया गया है। यह इस मामले में भी निरंतर नहीं है, इसलिए आप इसके बजाय पॉइसन वितरण का उपयोग कर सकते हैं:

YiPoisson(λ)

हालाँकि, आपके पास यहाँ केवल एक ही पैरामीटर है! एकल पैरामीटर और द्वारा माध्य और विचरण दोनों को निर्धारित करता है । यह तब भी होता है जब आप बर्नौली या द्विपद वितरण का उपयोग करते हैं। लेकिन आपके डेटा में आपके बड़े या छोटे संस्करण हो सकते हैं, संभवतः क्योंकि अवलोकन वास्तव में आईआईडी नहीं हैं या आपके द्वारा चुना गया वितरण पर्याप्त यथार्थवादी नहीं था।λE[Yi]=λVar[Yi]=λ

इसलिए लोग मॉडलिंग माध्य और विचरण में एक साथ स्वतंत्रता की अतिरिक्त डिग्री प्राप्त करने के लिए फैलाव पैरामीटर जोड़ते हैं। मुझे लगता है कि जीएलएम पर कोई भी पाठ्यपुस्तक आपको इस बारे में अधिक विस्तृत और गणितीय स्पष्टीकरण देगी कि यह क्या है, लेकिन मेरा मानना ​​है कि प्रेरणा इस तरह से बहुत सरल है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.