जब निरंतर अनुपात मॉडलिंग करते हैं (उदाहरण के लिए सर्वे क्वाड्रेट्स पर आनुपातिक वनस्पति कवर, या एक गतिविधि में लगे समय का अनुपात), तो लॉजिस्टिक रिग्रेशन को अनुचित माना जाता है (जैसे कि वार्टन एंड हुई (2011) आर्क्सिन असिन है: पारिस्थितिकी में अनुपात का विश्लेषण )। बल्कि, अनुपात बदलने के बाद ओएलएस प्रतिगमन, या शायद बीटा प्रतिगमन, अधिक उपयुक्त हैं।
क्या तहत की स्थिति logit रेखीय प्रतिगमन और रसद प्रतिगमन के गुणांक अनुमान अलग-अलग हो जब R का उपयोग करते हैं lm
और glm
?
निम्नलिखित सिम्युलेटेड डेटासेट लें, जहां हम यह मान सकते हैं कि p
हमारे कच्चे डेटा (यानी ) का प्रतिनिधित्व करने के बजाय निरंतर अनुपात
set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)
plot(p ~ x, ylim=c(0, 1))
एक लोजिट-लीनियर मॉडल की फिटिंग, हम प्राप्त करते हैं:
summary(lm(logit.p ~ x))
##
## Call:
## lm(formula = logit.p ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.64702 -0.13747 -0.00345 0.15077 0.73148
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.868148 0.006579 131.9 <2e-16 ***
## x 0.967129 0.006360 152.1 <2e-16 ***
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
##
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared: 0.9586, Adjusted R-squared: 0.9586
## F-statistic: 2.312e+04 on 1 and 998 DF, p-value: < 2.2e-16
तार्किक प्रतिगमन पैदावार:
summary(glm(p ~ x, family=binomial))
##
## Call:
## glm(formula = p ~ x, family = binomial)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.32099 -0.05475 0.00066 0.05948 0.36307
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.86242 0.07684 11.22 <2e-16 ***
## x 0.96128 0.08395 11.45 <2e-16 ***
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 176.1082 on 999 degrees of freedom
## Residual deviance: 7.9899 on 998 degrees of freedom
## AIC: 701.71
##
## Number of Fisher Scoring iterations: 5
##
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!
क्या लॉजिस्टिक रिग्रेशन गुणांक अनुमान हमेशा लॉग-लीनियर मॉडल के अनुमानों के संबंध में निष्पक्ष होंगे?
family=binomial
इसका अर्थ है कि आश्रित चर द्विपद गणना का प्रतिनिधित्व करता है - अनुपात नहीं। और कैसे glm
पता चलेगा कि 0.1
"दस में से एक" जैसा है न कि "सौ में से दस"? जबकि अनुपात स्वयं भिन्न नहीं होता है, इसका प्रमुख प्रभाव यह है कि मानक त्रुटि की गणना कैसे की जाती है।
weights
arg के लिए परीक्षणों की संख्या होती है (हालांकि ऐसा नहीं है कि मैं अपने पोस्ट में प्रयास कर रहा था, जहां मैंने जानबूझकर डेटा का गलत तरीके से विश्लेषण किया है)।
0.1
"थे", कहते हैं, 10 स्वतंत्र परीक्षण एक सफलता अर्जित करते हैं। रैखिक मॉडल के लिए,0.1
बस एक मूल्य है, कुछ मनमाना उपाय।