मैं एक लॉजिस्टिक मॉडल पर काम कर रहा हूं और मुझे परिणामों के मूल्यांकन में कुछ कठिनाइयां आ रही हैं। मेरा मॉडल एक द्विपद लॉगिट है। मेरे व्याख्यात्मक चर हैं: 15 स्तरों, एक द्विगुणित चर और 2 निरंतर चर वाले एक श्रेणीगत चर। मेरा N बड़ा> 8000 है।
मैं निवेश करने के लिए फर्मों के निर्णय को मॉडल करने की कोशिश कर रहा हूं। आश्रित चर निवेश है (हां / नहीं), 15 स्तर के चर प्रबंधकों द्वारा बताए गए निवेश के लिए अलग-अलग बाधाएं हैं। बाकी चर बिक्री, क्रेडिट और प्रयुक्त क्षमता के लिए नियंत्रण हैं।
नीचे मेरे परिणाम हैं, rms
आर में पैकेज का उपयोग करते हुए।
Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 8035 LR chi2 399.83 R2 0.067 C 0.632
1 5306 d.f. 17 g 0.544 Dxy 0.264
2 2729 Pr(> chi2) <0.0001 gr 1.723 gamma 0.266
max |deriv| 6e-09 gp 0.119 tau-a 0.118
Brier 0.213
Coef S.E. Wald Z Pr(>|Z|)
Intercept -0.9501 0.1141 -8.33 <0.0001
x1=10 -0.4929 0.1000 -4.93 <0.0001
x1=11 -0.5735 0.1057 -5.43 <0.0001
x1=12 -0.0748 0.0806 -0.93 0.3536
x1=13 -0.3894 0.1318 -2.96 0.0031
x1=14 -0.2788 0.0953 -2.92 0.0035
x1=15 -0.7672 0.2302 -3.33 0.0009
x1=2 -0.5360 0.2668 -2.01 0.0446
x1=3 -0.3258 0.1548 -2.10 0.0353
x1=4 -0.4092 0.1319 -3.10 0.0019
x1=5 -0.5152 0.2304 -2.24 0.0254
x1=6 -0.2897 0.1538 -1.88 0.0596
x1=7 -0.6216 0.1768 -3.52 0.0004
x1=8 -0.5861 0.1202 -4.88 <0.0001
x1=9 -0.5522 0.1078 -5.13 <0.0001
d2 0.0000 0.0000 -0.64 0.5206
f1 -0.0088 0.0011 -8.19 <0.0001
k8 0.7348 0.0499 14.74 <0.0001
मूल रूप से मैं दो तरीकों से प्रतिगमन का आकलन करना चाहता हूं, क) मॉडल डेटा को कितनी अच्छी तरह फिट करता है और ख) मॉडल कितनी अच्छी तरह से परिणाम की भविष्यवाणी करता है। फिट (ए) की अच्छाई का आकलन करने के लिए, मुझे लगता है कि इस मामले में ची-वर्ग पर आधारित अवमूल्यन परीक्षण उचित नहीं हैं क्योंकि अद्वितीय कोवरिएट्स की संख्या एन अनुमान लगाती है, इसलिए हम एक्स 2 वितरण नहीं मान सकते हैं। क्या यह व्याख्या सही है?
मैं epiR
पैकेज का उपयोग करके सहसंयोजकों को देख सकता हूं ।
require(epiR)
logit.cp <- epi.cp(logit.df[-1]))
id n x1 d2 f1 k8
1 1 13 2030 56 1
2 1 14 445 51 0
3 1 12 1359 51 1
4 1 1 1163 39 0
5 1 7 547 62 0
6 1 5 3721 62 1
...
7446
मैंने यह भी पढ़ा है कि होस्मेर-लेमेशो गोएफ परीक्षण पुराना है, क्योंकि यह परीक्षण को चलाने के लिए डेटा को 10 से विभाजित करता है, जो कि मनमाना है।
इसके बजाय मैं rms
पैकेज में लागू किए गए ले केसी-वैन होउवालिंगन-कोपस-होसमेर परीक्षण का उपयोग करता हूं । मुझे यकीन नहीं है कि यह परीक्षण कैसे किया जाता है, मैंने इसके बारे में अभी तक कागजात नहीं पढ़ा है। किसी भी मामले में, परिणाम हैं:
Sum of squared errors Expected value|H0 SD Z P
1711.6449914 1712.2031888 0.5670868 -0.9843245 0.3249560
पी बड़ा है, इसलिए यह कहने के लिए पर्याप्त सबूत नहीं है कि मेरा मॉडल फिट नहीं है। महान! तथापि....
मॉडल (बी) की भविष्य कहनेवाला क्षमता की जांच करते समय, मैं एक आरओसी वक्र खींचता हूं और पाता हूं कि एयूसी है 0.6320586
। यह बहुत अच्छा नहीं लगता है।
तो, मेरे सवालों का सारांश देने के लिए:
क्या मेरे मॉडल की जांच करने के लिए परीक्षण मैं उपयुक्त हैं? मैं किस अन्य परीक्षण पर विचार कर सकता था?
क्या आप मॉडल को बिल्कुल उपयोगी पाते हैं, या क्या आप अपेक्षाकृत खराब आरओसी विश्लेषण परिणामों के आधार पर इसे खारिज कर देंगे?
x1
एक एकल श्रेणीगत चर के रूप में लिया जाना चाहिए? यही है, क्या हर मामले में निवेश करने के लिए 1, और केवल 1, 'बाधा' है? मुझे लगता है कि कुछ मामलों को 2 या अधिक बाधाओं के साथ सामना किया जा सकता है, और कुछ मामलों में कोई नहीं है।