मॉडल चयन: लॉजिस्टिक प्रतिगमन


13

मान लीजिए कि हमारे पास covariates x 1 , , x n और एक द्विआधारी परिणाम चर y है । इनमें से कुछ सहसंयोजक कई स्तरों के साथ श्रेणीबद्ध हैं। अन्य निरंतर हैं। आप "सर्वश्रेष्ठ" मॉडल का चयन कैसे करेंगे? दूसरे शब्दों में, आप मॉडल में शामिल करने के लिए किस कोवरिएट्स का चयन करते हैं?nx1,,xny

क्या आप व्यक्तिगत रूप से सरल लॉजिस्टिक प्रतिगमन का उपयोग करते हुए प्रत्येक कोवरिएट्स के साथ मॉडल करेंगे और एक महत्वपूर्ण संघ के साथ चयन करेंगे?y


1
नीचे मेरे जवाब के अलावा (या अन्य, यदि वे उभरते हैं), तो निम्नलिखित में मॉडल चयन की कुछ अच्छी चर्चा है (यद्यपि प्रति से अधिक लॉजिस्टिक प्रतिगमन पर ध्यान केंद्रित नहीं किया गया है) आँकड़े.स्टैकएक्सचेंज.com
गंग - मोनिका बहाल करें

2
मैं इस साइट पर हाल ही में एक टिप्पणी से @jthetzel उद्धृत करूंगा: "एक अच्छा सवाल है, लेकिन एक जो यहां सेमेस्टर-लंबी यूनिवर्सिटी पाठ्यक्रमों में अध्ययन करता है, और कुछ ने करियर का अध्ययन करने में खर्च किया है।" यह एक व्यक्ति के साथ बैठना पसंद है और कह रहा है, "क्या आप मुझे आज दोपहर को स्वाहिली सिखा सकते हैं?" ऐसा नहीं है कि गंग अपने उत्तर में अच्छे अंक नहीं बनाता है। यह सिर्फ एक विशाल क्षेत्र है।
रोलांडो 2

2
यह भी एक थ्रेड है, जबकि एक बहुत ही विशिष्ट प्रश्न के लिए, आम तौर पर मुझसे कुछ सलाह शामिल हैं: आंकड़े.स्टैकएक्सचेंज / पूछताछ / १est०६…/ मैं भी नीचे अपने विचार दूंगा।
23

ठीक है, इसलिए मुझे लगता है कि मैं सिर्फ एक कसौटी के रूप में एआईसी का उपयोग करूंगा। पूर्ण मॉडल में सबसे कम एआईसी है। इसके अलावा AIC एक दूसरे से बहुत अलग हैं।
थॉमस

जवाबों:


10

यह शायद कोई अच्छी बात नहीं है। पहले सभी व्यक्तिगत कोवरिएट्स को देखते हुए, और फिर उन लोगों के साथ एक मॉडल का निर्माण करना जो महत्वपूर्ण हैं तार्किक रूप से एक स्वचालित खोज प्रक्रिया के बराबर हैं। हालांकि यह दृष्टिकोण सहज है, इस प्रक्रिया से किए गए इंफ़ॉर्मेशन वैध नहीं हैं (उदाहरण के लिए, सॉफ्टवेयर द्वारा रिपोर्ट किए गए सही पी-मान अलग-अलग हैं)। समस्या को बड़ा किया जाता है कि कोवरिअट्स के प्रारंभिक सेट का आकार बड़ा होता है। यदि आप इसे वैसे भी करते हैं (और, दुर्भाग्य से, बहुत से लोग करते हैं), तो आप परिणामी मॉडल को गंभीरता से नहीं ले सकते। इसके बजाय, आपको इसका परीक्षण करने के लिए, एक स्वतंत्र नमूने को इकट्ठा करने और पिछले मॉडल को फिट करने के लिए एक पूरी तरह से नया अध्ययन चलाना होगा। हालाँकि, इसके लिए बहुत सारे संसाधनों की आवश्यकता होती है, और इसके अलावा, क्योंकि प्रक्रिया त्रुटिपूर्ण है और पिछले मॉडल की संभावना खराब है,बहुत सारे संसाधन बर्बाद

AIC=2×ln(likelihood)+2k

k

मैं यहां एआईसी के लिए पूर्ण सूत्र शामिल करता हूं, क्योंकि अलग-अलग सॉफ्टवेयर अलग-अलग जानकारी का उत्पादन करते हैं। आपको इसकी गणना सिर्फ संभावना से करनी पड़ सकती है, या आपको अंतिम AIC, या बीच में कुछ भी मिल सकता है।


6
मुझे एआईसी पसंद है लेकिन खबरदार है कि 2 से अधिक पूर्व-निर्दिष्ट मॉडल पर एआईसी की गणना करने से कई गुना समस्या होती है।
फ्रैंक हरेल

1
@FrankHarrell अच्छी टिप!
गूँग - मोनिका

9

यह चुनने के कई तरीके हैं कि चर प्रतिगमन मॉडल में क्या जाते हैं, कुछ सभ्य, कुछ बुरे और कुछ भयानक। एक बस सैंडर ग्रीनलैंड के प्रकाशनों को ब्राउज़ कर सकता है, जिनमें से कई चिंता चर चयन हैं।

आम तौर पर बोलते हुए, मेरे पास कुछ सामान्य "नियम" हैं:

  • स्वचालित एल्गोरिदम, जैसे कि सॉफ्टवेयर पैकेज में आते हैं, शायद एक बुरा विचार है।
  • मॉडल नैदानिक ​​तकनीकों का उपयोग करना, जैसे कि गूँग का सुझाव है, आपके चर चयन विकल्पों के मूल्यांकन का एक अच्छा साधन है
  • आपको अपने चर चयन विकल्पों को सूचित करने के लिए विषय-वस्तु विशेषज्ञता, साहित्य खोजकर्ताओं, निर्देशित चक्रीय रेखांकन आदि के संयोजन का उपयोग करना चाहिए।

3
अच्छी तरह से, विशेष रूप से अंक 1 और 3. मॉडल नैदानिक ​​तकनीकों के परिणामस्वरूप टाइप I त्रुटि को संरक्षित करने में विफलता हो सकती है।
फ्रैंक हरेल

3
खैर @ Epigrad डाल दिया। मैं हालांकि एक बिंदु जोड़ूंगा। जब आपकी समस्या बड़ी हो जाती है तो स्वचालित एल्गोरिदम बहुत आकर्षक हो जाते हैं। वे कुछ मामलों में मॉडल चयन करने का एकमात्र संभव तरीका हो सकते हैं। लोग अब विभिन्न प्रकार के संभावित चर और लाखों टिप्पणियों के साथ विशाल डेटा सेट का विश्लेषण कर रहे हैं। 1000-आयामी अंतर्ज्ञान पर विषय वस्तु की विशेषज्ञता कैसी है? और जो आप पाएंगे वह यह है कि भले ही आप इसे मैन्युअल रूप से करते हैं (यानी विश्लेषक के साथ), वे संभवतः चरों को चुनने के लिए कुछ शॉर्ट-कट नियम बनाएंगे। कठिन हिस्सा वास्तव में उन विकल्पों को कूट रहा है।
probabilityislogic

1
@probabilityislogic मैं इससे सहमत हूँ। ईमानदारी से, मुझे लगता है कि पारंपरिक तकनीकें बहुत बड़े डेटा सेटों के लिए खराब रूप से अनुकूल हैं, लेकिन अधिक एमनेबल तकनीकों पर वापस जाने की प्रवृत्ति मुझे सचेत करती है। यदि एक स्वचालित एल्गोरिथ्म 10 चर के साथ एक डेटा सेट को पूर्वाग्रह कर सकता है, तो कोई कारण नहीं है कि यह 10,000 के साथ एक पूर्वाग्रह नहीं कर सकता है। कुछ हिस्सों में इसके विश्लेषण पर बड़े डेटा के अधिग्रहण पर वर्तमान जोर मुझे कुछ हद तक संक्षिप्त बनाता है।
Fomite

2
@probabilityislogic एक गहरे विडंबनापूर्ण मोड़ में, अब मैं अपने आप को एक डेटासेट के साथ 10 से अधिक संभावित चर के साथ काम कर रहा हूं। <
Fomite

2

आप "सर्वश्रेष्ठ" मॉडल का चयन कैसे करेंगे?

इस प्रश्न का उत्तर देने के लिए पर्याप्त जानकारी उपलब्ध नहीं है; यदि आप y पर कारण प्रभावों को प्राप्त करना चाहते हैं, तो आपको उन विनियमों को लागू करने की आवश्यकता होगी जो प्रतिबिंबित करते हैं कि भ्रम के बारे में क्या ज्ञात है। यदि आप भविष्यवाणी करना चाहते हैं, तो एआईसी एक उचित दृष्टिकोण होगा।

ये दृष्टिकोण समान नहीं हैं; संदर्भ निर्धारित करेगा कि चर चुनने के (कई) तरीकों में से कौन सा अधिक / कम उपयुक्त होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.