सारांश: क्या मानक सामान्य वितरण के बजाय लॉजिस्टिक रिग्रेशन गुणांक के परीक्षणों के लिए distribution (अवशिष्ट अवशिष्ट के आधार पर स्वतंत्रता की डिग्री के साथ) के उपयोग का समर्थन करने के लिए कोई सांख्यिकीय सिद्धांत है ?
कुछ समय पहले मुझे पता चला कि जब डिफ़ॉल्ट सेटिंग्स के तहत SAS PROC GLIMMIX में एक लॉजिस्टिक रिग्रेशन मॉडल फिट किया जाता है, तो लॉजिस्टिक रिग्रेशन गुणांक मानक सामान्य वितरण के बजाय एक वितरण का उपयोग करके परीक्षण किया जाता है। यानी, GLIMMIX एक कॉलम को रिपोर्ट करता है जिसका अनुपात (जिसे मैं इस प्रश्न के शेष भाग में कहूंगा ), लेकिन यह भी एक "स्वतंत्रता की डिग्री" कॉलम है, साथ ही एक रिपोर्ट -value एक संभालने के आधार पर के लिए वितरण1 β 1 / √ जेडपीटीजेड2अवशिष्ट अवशिष्ट के आधार पर स्वतंत्रता की डिग्री के साथ - अर्थात, स्वतंत्रता की डिग्री = अवलोकन की कुल संख्या मापदंडों की माइनस संख्या। इस सवाल के तल पर मैं प्रदर्शन और तुलना के लिए आर और एसएएस में कुछ कोड और आउटपुट प्रदान करता हूं।
इसने मुझे भ्रमित किया, क्योंकि मैंने सोचा था कि लॉजिस्टिक रिग्रेशन जैसे सामान्यीकृत रैखिक मॉडल के लिए, इस मामले में -distribution के उपयोग का समर्थन करने के लिए कोई सांख्यिकीय सिद्धांत नहीं था । इसके बजाय मैंने सोचा कि हम इस मामले के बारे में क्या जानते हैं
- "सामान्य रूप से वितरित" लगभग है;
- यह नमूना छोटे नमूने के आकार के लिए खराब हो सकता है;
- फिर भी यह नहीं माना जा सकता है कि का वितरण है जैसे हम सामान्य प्रतिगमन के मामले में मान सकते हैं।t
अब, एक सहज स्तर पर, यह मुझे उचित लगता है कि यदि लगभग सामान्य रूप से वितरित किया जाता है, तो वास्तव में इसका कुछ वितरण हो सकता है जो मूल रूप से " -like" है, भले ही यह बिल्कुल न । तो यहाँ वितरण का उपयोग पागल नहीं लगता है। लेकिन जो मैं जानना चाहता हूं वह निम्नलिखित है:t t t
- क्या वास्तव में सांख्यिकीय सिद्धांत दिखा रहा है कि वास्तव में लॉजिस्टिक प्रतिगमन और / या अन्य सामान्यीकृत रैखिक मॉडल के मामले में एक वितरण का पालन करता है ?t
- यदि ऐसा कोई सिद्धांत नहीं है, तो क्या कम से कम कागजात हैं जो यह दर्शाते हैं कि इस तरह से एक वितरण को एक सामान्य वितरण मानते हुए, या शायद इससे भी बेहतर काम करता है?
आम तौर पर, क्या GLIMMIX यहां अंतर्ज्ञान के अलावा जो कुछ कर रहा है, उसके लिए कोई वास्तविक समर्थन है कि यह मूल रूप से समझदार है?
आर कोड:
summary(glm(y ~ x, data=dat, family=binomial))
आर आउटपुट:
Call:
glm(formula = y ~ x, family = binomial, data = dat)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.352 -1.243 1.025 1.068 1.156
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.22800 0.06725 3.390 0.000698 ***
x -0.17966 0.10841 -1.657 0.097462 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1235.6 on 899 degrees of freedom
Residual deviance: 1232.9 on 898 degrees of freedom
AIC: 1236.9
Number of Fisher Scoring iterations: 4
SAS कोड:
proc glimmix data=logitDat;
model y(event='1') = x / dist=binomial solution;
run;
एसएएस आउटपुट (संपादित / संक्षिप्त):
The GLIMMIX Procedure
Fit Statistics
-2 Log Likelihood 1232.87
AIC (smaller is better) 1236.87
AICC (smaller is better) 1236.88
BIC (smaller is better) 1246.47
CAIC (smaller is better) 1248.47
HQIC (smaller is better) 1240.54
Pearson Chi-Square 900.08
Pearson Chi-Square / DF 1.00
Parameter Estimates
Standard
Effect Estimate Error DF t Value Pr > |t|
Intercept 0.2280 0.06725 898 3.39 0.0007
x -0.1797 0.1084 898 -1.66 0.0978
वास्तव में मैंने पहली बार PROC GLIMMIX में मिश्रित-प्रभाव लॉजिस्टिक रिग्रेशन मॉडल के बारे में देखा और बाद में पता चला कि GLIMMIX "वैनिला" लॉजिस्टिक रिग्रेशन के साथ भी ऐसा करता है।
एन मैं समझता हूं कि नीचे दिए गए उदाहरण में, 900 टिप्पणियों के साथ, यहां अंतर संभवतः कोई व्यावहारिक अंतर नहीं है। यह वास्तव में मेरी बात नहीं है। यह केवल डेटा है जिसे मैंने जल्दी से बनाया और 900 को चुना क्योंकि यह एक सुंदर संख्या है। हालांकि मैं छोटे नमूने के आकार के साथ व्यावहारिक अंतर के बारे में थोड़ा आश्चर्य करता हूं, उदाहरण के लिए <30।
PROC LOGISTIC
SAS में -score के आधार पर सामान्य वॉल्ड -टाइप परीक्षण का उत्पादन होता है। मुझे आश्चर्य है कि नए कार्य (सामान्यीकरण के अनुत्पादक?) में बदलाव के लिए क्या संकेत दिया।