लॉजिस्टिक रिग्रेशन: एक संतृप्त मॉडल कैसे प्राप्त करें


17

मैं सिर्फ लॉजिस्टिक रिग्रेशन के लिए डिवोर्स उपाय के बारे में पढ़ता हूं। हालाँकि, वह भाग जिसे संतृप्त मॉडल कहा जाता है, मेरे लिए स्पष्ट नहीं है।

मैंने एक व्यापक Google खोज की, लेकिन किसी भी परिणाम ने मेरे प्रश्न का उत्तर नहीं दिया। अब तक मुझे पता चला है कि एक संतृप्त मॉडल में प्रत्येक अवलोकन के लिए एक पैरामीटर होता है जिसके परिणामस्वरूप एक परिपूर्ण फिट होता है। यह मुझे स्पष्ट है। लेकिन: आगे फिट किए गए मूल्य (एक संतृप्त मॉडल के) मनाया मूल्यों के बराबर हैं।

के बाद से मेरी जानकारी से, रसद प्रतिगमन वर्गीकरण के लिए प्रयोग किया जाता है को देखते हुए मनाया डेटा अतिरिक्त लेबल के साथ covariates हैं । हालाँकि, विचलन मापक संभावनाओं को नियोजित करता है लेकिन वास्तविक लेबल नहीं। एक लॉजिस्टिक प्रतिगमन बनाम मनाया संभावनाओं की गणना की गई अनुमानित संभावना पर लागू होता है। हालाँकि, चूंकि किसी ने केवल संभावनाओं के बजाय लेबल दिए हैं, इसलिए मैं भ्रमित हूं कि इन लेबल से संतृप्त मॉडल कैसे बनाया जाए?y{0,1}

जवाबों:


17

प्रत्येक , संतृप्त मॉडल से फिट होने की संभावना y i के समान होगी , या तो शून्य या एक। जैसा कि यहां बताया गया है, संतृप्त मॉडल की संभावना 1 है । इसलिए, इस तरह के मॉडल का विचलन हो जाएगा - 2 लॉग ( 1 / 1 ) = 0 , पर 0 df। यहाँ R से एक उदाहरण दिया गया है:yमैंyमैं1-2लॉग(1/1)=00

y = c(1,1,1,0,0,0)
a <- factor(1:length(y)) 
fit <- glm(y~a,family=binomial) 
summary(fit)

Deviance Residuals: 
 0  0  0  0  0  0

Null deviance: 8.3178e+00  on 5  degrees of freedom

Residual deviance: 2.5720e-10  on 0  degrees of freedom

nn(n-1)

> k2
 [1] 1 2 3 4 5 6 1 2 3 4 5 6
Levels: 1 2 3 4 5 6
> y2
 [1] 1 1 1 0 0 0 1 1 1 0 0 0
> fit3 = glm(y2 ~ k2, family = binomial)
> summary(fit3)    

    Null deviance: 1.6636e+01  on 11  degrees of freedom
    Residual deviance: 5.1440e-10  on  6  degrees of freedom

दरअसल, यह पता चला है कि आर में संतृप्त मॉडल इनपुट के रूप पर निर्भर करता है, भले ही डेटा बिल्कुल समान हो, जो बहुत अच्छा नहीं है। विशेष रूप से, ऊपर के उदाहरण में 12 अवलोकन और 6 कारक स्तर हैं, इसलिए संतृप्त मॉडल में 6 पैरामीटर होने चाहिए, न कि 12. सामान्य रूप से, एक संतृप्त मॉडल को एक के रूप में परिभाषित किया जाता है, जहां मापदंडों की संख्या संख्या के बराबर होती है। अलग कोवरिएट पैटर्न। मुझे पता नहीं क्यों आर कोड "स्वीकार" कि कारक k2 में 6 अलग-अलग स्तर हैं, और फिर भी संतृप्त मॉडल को 12 मापदंडों के साथ फिट किया गया था।

अब, यदि हम "द्विपद" रूप में समान डेटा का उपयोग करते हैं, तो हमें एक सही उत्तर मिलेगा:

y_yes = 2 * c(1,1,1,0,0,0)
y_no = 2 * c(0,0,0,1,1,1)
x = factor(c(1:6))

> x
[1] 1 2 3 4 5 6
Levels: 1 2 3 4 5 6
> y_yes
[1] 2 2 2 0 0 0
> y_no
[1] 0 0 0 2 2 2

modelBinomialForm = glm(cbind(y_yes, y_no) ~ x, family=binomial)

Deviance Residuals: 
[1]  0  0  0  0  0  0

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)  2.490e+01  1.096e+05       0        1
x2           1.375e-08  1.550e+05       0        1
x3           1.355e-08  1.550e+05       0        1
x4          -4.980e+01  1.550e+05       0        1
x5          -4.980e+01  1.550e+05       0        1
x6          -4.980e+01  1.550e+05       0        1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1.6636e+01  on 5  degrees of freedom
Residual deviance: 3.6749e-10  on 0  degrees of freedom

अब हम देखते हैं कि संतृप्त मॉडल में 6 पैरामीटर हैं और यह फिट किए गए मॉडल के साथ मेल खाता है। इसलिए, शून्य विचलन (6 - 1) = 5 df है, और अवशिष्ट अवमूल्यन (6-6) = 0 df है।


yमैं00
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.