लॉजिस्टिक और लॉगिट-लीनियर रिग्रेशन द्वारा अनुमानित गुणांक कब भिन्न होते हैं?


11

जब निरंतर अनुपात मॉडलिंग करते हैं (उदाहरण के लिए सर्वे क्वाड्रेट्स पर आनुपातिक वनस्पति कवर, या एक गतिविधि में लगे समय का अनुपात), तो लॉजिस्टिक रिग्रेशन को अनुचित माना जाता है (जैसे कि वार्टन एंड हुई (2011) आर्क्सिन असिन है: पारिस्थितिकी में अनुपात का विश्लेषण )। बल्कि, अनुपात बदलने के बाद ओएलएस प्रतिगमन, या शायद बीटा प्रतिगमन, अधिक उपयुक्त हैं।

क्या तहत की स्थिति logit रेखीय प्रतिगमन और रसद प्रतिगमन के गुणांक अनुमान अलग-अलग हो जब R का उपयोग करते हैं lmऔर glm?

निम्नलिखित सिम्युलेटेड डेटासेट लें, जहां हम यह मान सकते हैं कि pहमारे कच्चे डेटा (यानी ) का प्रतिनिधित्व करने के बजाय निरंतर अनुपातnरोंयूसीसीरोंरोंरोंnटीआरमैंएलरों

set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)

plot(p ~ x, ylim=c(0, 1))

यहाँ छवि विवरण दर्ज करें

एक लोजिट-लीनियर मॉडल की फिटिंग, हम प्राप्त करते हैं:

summary(lm(logit.p ~ x))
## 
## Call:
## lm(formula = logit.p ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.64702 -0.13747 -0.00345  0.15077  0.73148 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.868148   0.006579   131.9   <2e-16 ***
## x           0.967129   0.006360   152.1   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared:  0.9586, Adjusted R-squared:  0.9586 
## F-statistic: 2.312e+04 on 1 and 998 DF,  p-value: < 2.2e-16

तार्किक प्रतिगमन पैदावार:

summary(glm(p ~ x, family=binomial))
## 
## Call:
## glm(formula = p ~ x, family = binomial)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.32099  -0.05475   0.00066   0.05948   0.36307  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.86242    0.07684   11.22   <2e-16 ***
## x            0.96128    0.08395   11.45   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 176.1082  on 999  degrees of freedom
## Residual deviance:   7.9899  on 998  degrees of freedom
## AIC: 701.71
## 
## Number of Fisher Scoring iterations: 5
## 
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!

क्या लॉजिस्टिक रिग्रेशन गुणांक अनुमान हमेशा लॉग-लीनियर मॉडल के अनुमानों के संबंध में निष्पक्ष होंगे?


1
एक सैद्धांतिक अंतर पर ध्यान दें: एक द्विपद मॉडल के साथ लागू अनुपातों में आप मानते हैं कि प्रत्येक अनुपात के पीछे परीक्षण स्वतंत्र हैं, अर्थात, अनुपात के पीछे 0.1"थे", कहते हैं, 10 स्वतंत्र परीक्षण एक सफलता अर्जित करते हैं। रैखिक मॉडल के लिए, 0.1बस एक मूल्य है, कुछ मनमाना उपाय।
ttnphns

1
मुझे कुछ संदेह है कि ओपी द्वारा किए गए तरीके के अनुपात में एक द्विपद मॉडल को लागू करने के लिए यह कितना दूर है। आखिरकार, family=binomialइसका अर्थ है कि आश्रित चर द्विपद गणना का प्रतिनिधित्व करता है - अनुपात नहीं। और कैसे glmपता चलेगा कि 0.1"दस में से एक" जैसा है न कि "सौ में से दस"? जबकि अनुपात स्वयं भिन्न नहीं होता है, इसका प्रमुख प्रभाव यह है कि मानक त्रुटि की गणना कैसे की जाती है।
वोल्फगैंग

1
@Wolfgang - मुझे एहसास है (और अपनी पोस्ट में उल्लेख) कि यह लॉजिस्टिक प्रतिगमन के साथ इस तरह के निरंतर अनुपात को मॉडल करने के लिए अनुचित है। मैं अधिक रुचि रखता था अगर / जब / कैसे गुणांक के बिंदु अनुमान भिन्न होते हैं।
जबाम

2
@Wolfgang, आप सही हैं, लेकिन यह कार्यान्वयन पर निर्भर करता है। कुछ प्रोग्राम बेस के स्थान पर DV और 1s के रूप में आनुपातिक इनपुट करने की अनुमति देंगे, जबकि डेटासेट वास्तविक वास्तविक द्वारा भारित होता है। तो ऐसा लगता है जैसे आप अनुपात का विश्लेषण करते हैं, मायने नहीं रखते।
ttnphns

1
@ttnphns इसी तरह, आर में एक DV के रूप में अनुपात में प्रवेश कर सकता है और एक वेक्टर की आपूर्ति कर सकता है जिसमें weightsarg के लिए परीक्षणों की संख्या होती है (हालांकि ऐसा नहीं है कि मैं अपने पोस्ट में प्रयास कर रहा था, जहां मैंने जानबूझकर डेटा का गलत तरीके से विश्लेषण किया है)।
jbaums

जवाबों:


5

शायद इसका उत्तर "रिवर्स" फैशन में दिया जा सकता है - Ie जब वे समान होते हैं?

अब लॉजिस्टिक रिग्रेशन में प्रयुक्त IRLS एल्गोरिथ्म यहाँ कुछ अंतर्दृष्टि प्रदान करता है। अभिसरण पर आप निम्न मॉडल गुणांक व्यक्त कर सकते हैं:

β^एलजीमैंरोंटीमैंसी=(एक्सटीडब्ल्यूएक्स)-1एक्सटीडब्ल्यूz

जहाँ ith शब्द साथ एक विकर्ण भार मैट्रिक्स है और एक छद्म प्रतिक्रिया है जिसमें ith तत्व । ध्यान दें कि जो रसद प्रतिगमन बनाता है बहुत के समान लग रहे हैं भारित मात्रा का एक "logit प्रकार" पर कम से कम वर्गों। ध्यान दें कि सभी रिश्तों रसद प्रतिगमन में निहित है (उदाहरण के लिए पर निर्भर करता है जो पर निर्भर करता है )।डब्ल्यूडब्ल्यूमैंमैं=nमैंपीमैं(1-पीमैं)z वीएकआर(zमैं-एक्स टी मैं β )=डब्ल्यू - 1 मैं मैं जेडβzzमैं=एक्समैंटीβ^एलजीमैंरोंटीमैंसी+yमैं-nमैंपीमैंnमैंपीमैं(1-पीमैं)vआर(zमैं-एक्समैंटीβ^)=डब्ल्यूमैंमैं-1zβz

इसलिए मैं सुझाव दूंगा कि अंतर अधिकतर भारित वर्ग (लॉजिस्टिक) बनाम अनवीटेड कम से कम वर्ग (लॉग पर ओएलएस) का उपयोग करने में है। यदि आपने कॉल में को (जहां "ईवेंट" की संख्या और "ट्रायल्स" की संख्या) से वेट किया है, तो आपको मिलेगा अधिक समान परिणाम।y ( 1 - y / n ) y nलॉग(y)-लॉग(n-y)y(1-y/n)ynlm ()


प्रभावशाली। क्या आप दिए गए सिम्युलेटेड डेटा का उपयोग करके आर कोड द्वारा अपना अंतिम वाक्य दिखा सकते हैं? धन्यवाद!
जेल्लेकैट

2

अगर मैं गलत हूं तो कृपया इसे इंगित करने में संकोच न करें।

पहले, मैंने ऐसा कहा है, दूसरे फिट में, आप glmगलत तरीके से कहते हैं! एक लॉजिस्टिक रिग्रेशन को फिट करने के लिए glm, रिस्पॉन्स (बाइनरी) श्रेणीबद्ध चर होना चाहिए, लेकिन आप उपयोग करते हैं p, एक संख्यात्मक चर! मुझे कहना warningहै कि उपयोगकर्ताओं को अपनी गलतियों को बताने के लिए अभी बहुत कोमल है ...

और, जैसा कि आप उम्मीद कर सकते हैं, आपको COINCIDENCE द्वारा दो फिट के गुणांक के समान अनुमान मिलते हैं। आप की जगह तो logit.p <- a + b*x + rnorm(1000, 0, 0.2)साथ logit.p <- a + b*x + rnorm(1000, 0, 0.7), यानी, से त्रुटि अवधि के विचरण को बदलने 0.2के लिए 0.7, तो दो फिट के परिणाम बहुत अलग है, हो जाएगा, हालांकि दूसरे फिट ( glm) सब पर कोई मतलब नहीं है ...

लॉजिस्टिक रिग्रेशन का उपयोग (बाइनरी) वर्गीकरण के लिए किया जाता है, इसलिए आपके पास स्पष्ट प्रतिक्रिया होनी चाहिए, जैसा कि ऊपर कहा गया है। उदाहरण के लिए, आपके डेटा में "संभावना" (आवृत्ति) की एक श्रृंखला के बजाय, प्रतिक्रिया की टिप्पणियों को "सफलता" या "विफलता" की एक श्रृंखला होना चाहिए। किसी दिए गए श्रेणीबद्ध डेटा सेट के लिए, आप एक श्रृंखला के बजाय "प्रतिक्रिया = सफलता" या "प्रतिक्रिया = विफलता" के लिए केवल एक समग्र आवृत्ति की गणना कर सकते हैं। आपके द्वारा जनरेट किए गए डेटा में, कोई भी वैरिएबल वैरिएबल नहीं है, इसलिए लॉजिस्टिक रिग्रेशन लागू करना असंभव है। अब आप देख सकते हैं, हालांकि उनके पास समान उपस्थिति है, लॉगिट-लीनियर रिग्रेशन (जैसा कि आप इसे कहते हैं) सिर्फ एक साधारण रेखीय क्षेत्र की समस्या है (यानी, प्रतिक्रिया एक संख्यात्मक चर है) परिवर्तित प्रतिक्रिया (बस sqr या sqrt परिवर्तन) का उपयोग करके,

आमतौर पर, रैखिक प्रतिगमन साधारण जानवर वर्गों (OLS) के माध्यम से लगाया जाता है, जो प्रतिगमन समस्या के लिए वर्ग हानि को कम करता है; लॉजिस्टिक रिग्रेशन को अधिकतम संभावना अनुमान (एमएलई) के माध्यम से लगाया जाता है, जो वर्गीकरण की समस्या के लिए लॉग-लॉस को कम करता है। यहाँ हानि कार्यों हानि फ़ंक्शन, देवा रामन पर एक संदर्भ दिया गया है पहले उदाहरण में, आप pप्रतिक्रिया के रूप में मानते हैं , और ओएलएस के माध्यम से एक साधारण रैखिक प्रतिगमन मॉडल फिट करते हैं; दूसरे उदाहरण में, आप बताते हैं Rकि आप लॉजिस्टिक रिग्रेशन मॉडल को फिट कर रहे हैं family=binomial, इसलिए Rमॉडल को MLE द्वारा फिट करें। जैसा कि आप देख सकते हैं, पहले मॉडल में, आपको टी-टेस्ट और एफ-टेस्ट मिलता है, जो रैखिक प्रतिगमन के लिए ओएलएस के शास्त्रीय आउटपुट हैं। दूसरे मॉडल में, गुणांक का महत्व परीक्षण के zबजाय पर आधारित हैt, जो कि लॉजिस्टिक रिग्रेशन के MLE फिट का क्लासिकल आउटपुट है।


अच्छा प्रश्न (+1) और अच्छा उत्तर (+1)। मैंने कुछ नया सीखा।
अलेक्सांद्र ब्लेक

1
मुझे स्वीकार होगा। हालाँकि यह इस logistic regression is a CLASSIFICATION problemअर्थ में गलत समझा जा सकता है कि जब तक यह अच्छी तरह से वर्गीकृत किया जा सकता है, तब तक इसकी कीमत है। यह सोचना गलत होगा, क्योंकि सैद्धांतिक रूप से एक मॉडल "इष्टतम" और कैसे यह मॉडल संभावनाएं कभी-कभी एक अच्छे मॉडल से भी बदतर वर्गीकृत कर सकती हैं।
ttnphns

@ttnphns आपकी टिप्पणी के लिए धन्यवाद! मुझे लगता है कि यह एक वर्गीकरण समस्या है अगर प्रतिक्रिया स्पष्ट है। मॉडल अच्छा प्रदर्शन करता है या नहीं यह महत्वपूर्ण है, लेकिन शायद नामकरण को प्रभावित नहीं करता है।
जेल्लेकैट

धन्यवाद @JellicleCat - मुझे पता है कि इस प्रकार का आनुपातिक डेटा लॉजिस्टिक रिग्रेशन के अनुकूल नहीं है, लेकिन उन परिस्थितियों के बारे में उत्सुक था जिनके तहत गुणांक अनुमान ओएलएस से लॉग-ट्रांसफ़ॉर्म किए गए अनुपात से भिन्न होंगे। अपने उदाहरण के लिए धन्यवाद - यह स्पष्ट है कि बढ़े हुए विचरण के साथ, गुणांक अनुमानों को मोड़ देता है।
10
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.