जब बड़ा हो तो नेस्टेड बाइनरी लॉजिस्टिक रिग्रेशन मॉडल की तुलना करना


10

अपने प्रश्न को बेहतर ढंग से पूछने के लिए, मैंने 16 वेरिएबल मॉडल ( fit) और 17 वेरिएबल मॉडल ( fit2) इन दोनों मॉडलों में से कुछ आउटपुट प्रदान किए हैं (इन मॉडलों में सभी पूर्वानुमान वेरिएबल निरंतर हैं, जहां इन मॉडलों के बीच एकमात्र अंतर यह है कि fitऐसा नहीं है चर 17 (var17) शामिल करें:

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

मैंने rmsइन lrmमॉडलों के निर्माण के लिए फ्रैंक हरेल के पैकेज का उपयोग किया । जैसा कि आप देख सकते हैं, ये मॉडल बहुत अधिक भिन्न नहीं दिखाई देते हैं, यदि बिल्कुल भी, भेदभाव सूचकांक और रैंक डिस्क्रिम में। अनुक्रमित ; हालाँकि, उपयोग करते हुए lrtest(fit,fit2), मुझे निम्नलिखित परिणाम प्रदान किए गए:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

इस प्रकार, हम इस संभावना अनुपात परीक्षण की अशक्त परिकल्पना को खारिज कर देंगे; हालाँकि, मुझे लगता है कि यह बड़े नमूना आकार ( n = 102849) के कारण होने की संभावना है क्योंकि ये मॉडल इसी तरह से प्रदर्शन करते हैं। इसके अलावा, जब n बड़ा है तो मैं औपचारिक रूप से नेस्टेड बाइनरी लॉजिस्टिक रिग्रेशन मॉडल की तुलना करने का एक बेहतर तरीका खोजने में दिलचस्पी रखता हूं ।

मैं किसी भी प्रतिक्रिया, आर स्क्रिप्ट, या प्रलेखन की सराहना करता हूं जो मुझे इस प्रकार के नेस्टेड मॉडल की तुलना करने के मामले में सही दिशा में आगे बढ़ा सकता है! धन्यवाद!


चर 17 को हटाने का उद्देश्य क्या है?
माइकल एम

यह एक खिलौना उदाहरण है; हालाँकि, मुझे आमतौर पर 8-12 चर वाले मॉडल बनाने के लिए कहा जाता है, और उन चर को हटाना जो किसी मॉडल में योगदान नहीं करते हैं, मेरे लिए प्राथमिक हित है। वैरिएबल 17 सिर्फ एक पूरे के रूप में मॉडल के लिए बहुत कम प्रतीत होता है (पूर्वानुमान के संदर्भ में), फिर भी संभावना अनुपात परीक्षण हमें बताता है कि दो मॉडल के बीच एक महत्वपूर्ण अंतर है (बड़े एन के कारण इन में वास्तविक अंतर के बजाय संभावना है) दो मॉडल)। जैसे, मैं इन दो मॉडलों की तुलना करने का एक तरीका खोजने की उम्मीद कर रहा हूं (एक ऐसी विधि खोजना जो इन दो मॉडलों के बीच अंतर को इंगित नहीं करता है)
मैट रेइचेंबेक

(1) यकीन नहीं है कि मैं काफी समझ रहा हूं कि आप क्या देख रहे हैं। लेकिन चिकित्सा में सी-स्टैटिस्टिक्स जैसे भेदभाव का उपयोग करने के मुद्दे को अच्छी तरह से स्थापित किया गया है, सी-स्टेटिक्स को महत्वपूर्ण चर के अलावा भी अपरिवर्तित किया जा सकता है, और इससे पुनर्वर्गीकरण सूचकांकों का विकास हो सकता है ( circ.ahajournals.org/content/121/15/ 1768.full ) (2) AIC / BIC समान हैं? विभिन्‍न चर सूचना लाभ मानदंड भेदभाव मानदंड से अधिक उपयोगी हो सकते हैं।
चार्ट

1
मुझे लगता है कि आपके पहले पैराग्राफ में एक टाइपो है। यह कहा जाता है कि fit2एक 17 चर मॉडल है, लेकिन यह भी मॉडल है जो छोड़ देता है V17। आप इसे संपादित करना चाह सकते हैं।
tomka

1
@tomka, मैं बदल fit2करने के लिए fitअपने सुधार के अनुसार ऊपर के उदाहरण में। धन्यवाद!
मैट रेइचेनबैक

जवाबों:


6

(१) इस बात पर एक व्यापक साहित्य है कि किसी को प्रतिबंधित / पारसीमी मॉडल के लिए पूर्ण मॉडल क्यों पसंद करना चाहिए। मेरी समझ कुछ ऐसे कारण हैं जो पारसी मॉडल को पसंद करते हैं। हालाँकि, बड़े मॉडल कई नैदानिक ​​अनुप्रयोगों के लिए संभव नहीं हैं।

(२) जहां तक ​​मुझे पता है, भेदभाव / भेदभाव सूचकांक एक मॉडल / चर चयन पैरामीटर के रूप में इस्तेमाल नहीं किया जाना चाहिए ((नहीं होना चाहिए))। वे इस उपयोग के लिए अभिप्रेत नहीं हैं और परिणामस्वरूप मॉडल निर्माण के लिए उनका उपयोग क्यों नहीं किया जाना चाहिए, इस पर बहुत साहित्य नहीं हो सकता है।

(3) पारसीमी मॉडल में ऐसी सीमाएँ हो सकती हैं जो आसानी से स्पष्ट न हों। वे बड़े मॉडलों की तुलना में कम अच्छी तरह से कैलिब्रेट किए जा सकते हैं, बाहरी / आंतरिक वैधता कम हो सकती है।

(४) सी आँकड़ा भविष्य के जोखिम का अनुमान लगाने वाले या जोखिम श्रेणियों में लोगों को स्तरीकृत करने वाले मॉडल के आकलन में इष्टतम नहीं हो सकता है। इस सेटिंग में, कैलिब्रेशन जोखिम के सटीक आकलन के लिए उतना ही महत्वपूर्ण है। उदाहरण के लिए, 3 के विषम अनुपात वाले एक बायोमार्कर का अस्थिरता पर बहुत कम प्रभाव हो सकता है, फिर भी एक बढ़ा हुआ स्तर 8% से 24% तक एक व्यक्तिगत रोगी के लिए अनुमानित 10-वर्षीय हृदय जोखिम को स्थानांतरित कर सकता है।

कुक एनआर; चिकित्सा साहित्य में आरओसी वक्र का उपयोग और दुरुपयोग। सर्कुलेशन। 115 2007: 928-935।

(५) एयूसी / सी-स्टेटिस्टिक / भेदभाव महत्वपूर्ण भविष्यवक्ता चर के प्रति असंवेदनशील होने के लिए जाना जाता है। यह ऊपर कुक संदर्भ में चर्चा की गई है, और शुद्ध पुनर्वर्गीकरण सूचकांक के विकास के पीछे प्रेरक बल। ऊपर कुक में भी चर्चा की।

(6) बड़े डेटासेट तब भी वांछित मॉडल से बड़े मॉडल का नेतृत्व कर सकते हैं यदि मानक चर चयन विधियों का उपयोग किया जाता है। स्टेप वाइज चयन प्रक्रियाओं में अक्सर 0.05 का पी-वैल्यू कट-ऑफ का उपयोग किया जाता है। लेकिन इस मूल्य के बारे में कुछ भी आंतरिक नहीं है इसका मतलब है कि आपको इस मूल्य का चयन करना चाहिए। छोटे डेटासेट के साथ एक बड़ा पी-मान (0.2) अधिक उपयुक्त हो सकता है, बड़े डेटासेट में एक छोटा पी-मूल्य उपयुक्त हो सकता है (0.01 इस कारण से GUSTO I डाटासेट के लिए इस्तेमाल किया गया था)।

(7) जबकि AIC अक्सर मॉडल चयन के लिए उपयोग किया जाता है, और साहित्य द्वारा बेहतर समर्थन किया जाता है, BIC बड़े डेटासेट में एक वैध विकल्प हो सकता है। BIC मॉडल चयन के लिए chi-squared को log (n) से अधिक होना चाहिए, इस प्रकार इसका परिणाम बड़े डेटासेट में छोटे मॉडल में होगा। (मल्लो की विशेषताएं समान हो सकती हैं)

(() लेकिन अगर आप अधिकतम १० या १२ चर चाहते हैं, तो आसान समाधान कुछ ऐसा है bestglmया leapsपैकेज आप केवल उन अधिकतम संख्याओं को निर्धारित करते हैं, जिन पर आप विचार करना चाहते हैं।

(9) यदि आप केवल एक परीक्षण चाहते हैं जो दो मॉडलों को एक जैसा दिखाई देगा, और विवरणों के बारे में बहुत चिंतित नहीं हैं, तो आप संभवतः दो मॉडलों के AUC की तुलना कर सकते हैं। कुछ पैकेज आपको तुलना के लिए एक पी-वैल्यू भी देंगे। उचित नहीं लगता।

अम्बलर जी (2002) एक रोगनिरोधी मॉडल को सरल बनाना: नैदानिक ​​डेटा
कुक एनआर पर आधारित एक सिमुलेशन अध्ययन ; चिकित्सा साहित्य में आरओसी वक्र का उपयोग और दुरुपयोग। सर्कुलेशन। 115 2007: 928-935।
गेल एमएच, फैफीफर आरएम; पूर्ण जोखिम के मॉडल के मूल्यांकन के लिए मापदंड पर। Biostat। 6 2005: 227-239।

(10) एक बार मॉडल का निर्माण हो जाने के बाद, सी-स्टैटिस्टिक्स / डिसीमेनेशन इंडेक्स, मॉडल की तुलना करने के लिए सबसे अच्छा तरीका नहीं हो सकता है और अच्छी तरह से प्रलेखित सीमाएं हो सकती हैं। तुलना की संभावना न्यूनतम अंशांकन, पुनर्वर्गीकरण सूचकांक में भी होनी चाहिए।

Steyerber (2010) भविष्यवाणी मॉडल के प्रदर्शन का आकलन: कुछ पारंपरिक और उपन्यास उपायों के लिए एक रूपरेखा

(११) ऊपर जाना और निर्णय विश्लेषणात्मक उपायों का उपयोग करना एक अच्छा विचार हो सकता है।

विकर्स ए जे, एल्किन ईबी। निर्णय वक्र विश्लेषण: भविष्यवाणी मॉडल के मूल्यांकन के लिए एक उपन्यास विधि। मेड डेकिस मेकिंग। 2006; 26: 565-74।
बेकर एसजी, कुक एनआर, विकर्स ए, क्रेमर बी.एस. जोखिम उपयोगिता का मूल्यांकन करने के लिए सापेक्ष उपयोगिता घटता है। जेआर स्टेट सोसाइट ए। 2009; 172: 729-48।
वैन कैलस्टर बी, विकर्स ए जे, पेन्किना एमजे, बेकर एसजी, टिम्मरमैन डी, स्टेयरबर्ग ईडब्ल्यू। मार्करों और जोखिम की भविष्यवाणी मॉडल का मूल्यांकन: एनआरआई और निर्णय-विश्लेषणात्मक उपायों के बीच संबंधों का अवलोकन। मेड डेकिस मेकिंग। 2013; 33: 490-501

--- अपडेट --- मुझे विकर्स लेख सबसे दिलचस्प लगता है। लेकिन यह अभी भी कई संपादकीय के बावजूद व्यापक रूप से स्वीकार नहीं किया गया है। तो ज्यादा व्यावहारिक उपयोग नहीं हो सकता है। कुक और स्टेयरबर्ग लेख अधिक व्यावहारिक हैं।

किसी को भी स्टेप वाइज चयन पसंद नहीं है। मैं निश्चित रूप से इसके लिए पैरवी नहीं करने जा रहा हूं। मैं इस बात पर जोर दे सकता हूं कि स्टेप वाइज की अधिकांश आलोचनाएं ईपीवी <50 मानती हैं और एक पूर्ण या पूर्व-निर्दिष्ट मॉडल और एक कम मॉडल के बीच एक विकल्प। अगर ईपीवी> 50 है और कम मॉडल के लिए प्रतिबद्धता है तो लागत-लाभ विश्लेषण अलग हो सकता है।

सी-स्टैटिस्टिक्स की तुलना करने के पीछे कमजोर सोच यह है कि वे अलग नहीं हो सकते हैं और मुझे लगता है कि यह परीक्षण काफी कम आंका जा रहा है। लेकिन अब मुझे संदर्भ नहीं मिल रहा है, इसलिए उस आधार पर रास्ता बंद हो सकता है।


(1) मुझे पता है कि पूर्ण मॉडल पसंद किए जाते हैं, लेकिन मेरे पास चुनने के लिए 1k से अधिक संस्करण हैं और मुझे उद्योग-विशिष्ट आवश्यकताओं के कारण इन छोटे मॉडल बनाने की आवश्यकता है। (२) जो समझ में आता है! (३) सहमत! (४) सच्चा (५) दिलचस्प
मैट रीचेंबाक

(६) सहमत; हालाँकि, चरणबद्ध प्रक्रियाएँ बहुत ही संदिग्ध होती हैं, और पी वैल्यू कटऑफ जितना कम होता है , उतने अधिक पक्षपाती इस प्रकार के मॉडल बन जाते हैं, चाहे नमूना आकार कुछ भी हो। (() "BIC मॉडल चयन के लिए chi-squared को log (n) से अधिक होना चाहिए", यह बहुत उपयोगी लगता है। धन्यवाद! (8) bestglmऔर leapsपैकेज बहुत कम्प्यूटेशनल रूप से महंगे हैं और उन दिनों की तरह डेटासेट के साथ चलने में लगते हैं, जिनके साथ मैं काम करता हूं, लेकिन संभावित विचारों के लिए धन्यवाद।
मैट रीचेनबैक

(९) यदि बड़े नमूना आकार के अकेले होने के कारण मॉडल लगभग समान थे, तो भी ये पी- वैल्यू महत्वपूर्ण होंगे। (१०) मुझे अंशांकन और पुनर्वर्गीकरण सूचकांक पर अधिक शोध करने की आवश्यकता है, धन्यवाद! (११) मुझे इन लेखों को पढ़ने में बहुत दिलचस्पी है, क्या आप यह सलाह देंगे कि मैं विकर्स से शुरुआत करूं? धन्यवाद!
मैट रेइचेनबैक

5

एक विकल्प दोनों मॉडलों के लिए छद्म आर-वर्ग उपायों का उपयोग करना है। छद्म आर-स्क्वायर में एक मजबूत अंतर यह सुझाव देगा कि मॉडल फिट V17 को छोड़ने से दृढ़ता से कम हो जाता है।

विभिन्न प्रकार के छद्म आर-वर्ग उपलब्ध हैं। एक अवलोकन यहाँ पाया जा सकता है, उदाहरण के लिए:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

एक लोकप्रिय उपाय नागेलकेके आर-स्क्वायर है। यह 0 और 1 के बीच भिन्न होता है और देखभाल के साथ, एक सरल रेखीय प्रतिगमन मॉडल से आर-स्क्वेर की तरह व्याख्या की जा सकती है। यह इंटरसेप्ट-ओनली मॉडल के पूर्ण मॉडल की अनुमानित संभावनाओं के एक परिवर्तित अनुपात पर आधारित है।

आप क्रमशः इसके लिए fitऔर अनुमान लगा सकते fit2हैं, और आपकी समस्या पर संकेत प्राप्त करने के लिए सापेक्ष आकार की तुलना कर सकते हैं। इसके लिए एक उच्चतर नागेलकेके आर-स्क्वायर fitसुझाव देगा कि fit2वी 17 की चूक से बहुत अधिक भविष्य कहनेवाला शक्ति खो देता है।

में मूल्य Nagelkerke के आर-चुकता प्रदान करता है। इसलिए आपको एक अनुमान प्रदान करना चाहिए। यह भी देखें ।lrmstatsfit$stats?lrm


मैं नागेलकेके के आर-स्क्वायर से परिचित हूं; हालाँकि, मेरा सवाल यह है कि "बहुत अधिक नागेलकेके आर-स्क्वायर के लिए fit" क्या है? उपरोक्त उदाहरण में, वहाँ 0,001 के अंतर के रूप में हम 0.173 और 0.174 के लिए की Nagelkerke के आर-वर्ग है fitऔर fit2क्रमश:। क्या आपके पास कोई संदर्भ है कि "काफी अधिक नागेलकेर आर-स्क्वायर" क्या है? धन्यवाद!
मैट रीचेनबैक

@ मैट: मुझे लगता है कि नागेलकेके के R: या अन्य छद्म R² उपायों की व्याख्या करने पर कोई सामान्यीकृत दिशानिर्देश नहीं हैं। हालांकि, ध्यान दें कि यह कोवरिएट्स को केवल मॉडल के अवरोधन में शामिल करके 'संभावना में कमी' का एक रूपांतरित उपाय है, जो इसे रेखीय प्रतिगमन में मानक आर² द्वारा दर्शाए गए 'समझाया विचरण' के समान बनाता है। उस अर्थ में, मैं .173 / .174 अंतर की व्याख्या बहुत छोटे रूप में करूंगा। एक मजबूत अंतर sth होगा। ब्रिजिंग डिकाइल्स। हालांकि, मैं इस निष्कर्ष की मजबूती की जांच करने के लिए अन्य छद्म आर I उपायों, जैसे मैकफेडन या कॉक्स / स्नेल का अनुमान लगाने का सुझाव देता हूं।
टॉमका

मैं मानता हूं कि अंतर बहुत छोटा है, लेकिन मैं चाहता हूं कि मुझे एक संदर्भ मिल सके जो बताता है कि "छोटा" अंतर क्या है ... मैं आपके विचारों की सराहना करता हूं। एक बार फिर धन्यवाद!
मैट रेइचेंबाक

1
कोई दिक्कत नहीं है! आप जल्दी नहीं upvoting के लिए खेद है! मैं फिर से पोस्ट करूँगा, अगर मुझे एक उत्तर मिल जाए कि Pseduo R-squared के संदर्भ में "छोटा" अंतर क्या है! धन्यवाद!
मैट रीचेनबैक

-1

मैं सिर्फ इस बारे में पढ़ता हूं। ऐसा करने का उचित तरीका है R के glm के अंतिम उत्पादन का उपयोग करना और "अवशिष्ट अवमूल्यन:" की खोज करना और दो मॉडलों के बीच के डेल्टा को प्राप्त करना और इस मान का प्रयोग एक chi-squared परीक्षण में df के # पूर्वसूचक शब्दों की संख्या के बराबर का उपयोग करके किया जाता है। और वह आपका p मान है।

एप्लाइड रिग्रेशन मॉडलिंग Iian Pardoe द्वितीय संस्करण 2012 पृष्ठ 270

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.