लॉजिस्टिक प्रतिगमन के लिए निदान?


74

रैखिक प्रतिगमन के लिए, हम नैदानिक ​​भूखंडों (अवशिष्ट भूखंडों, सामान्य QQ भूखंडों, आदि) की जांच कर सकते हैं कि क्या रैखिक प्रतिगमन की धारणाओं का उल्लंघन किया गया है।

लॉजिस्टिक रिग्रेशन के लिए, मुझे उन संसाधनों को खोजने में परेशानी हो रही है जो बताते हैं कि लॉजिस्टिक रिग्रेशन मॉडल को कैसे ठीक किया जाए। GLM के लिए कुछ कोर्स नोट्स खोदना, यह केवल बताता है कि अवशेषों की जाँच करना लॉजिस्टिक रिग्रेशन फिट के लिए निदान करने के लिए सहायक नहीं है।

इंटरनेट के चारों ओर देखने पर, विभिन्न "निदान" प्रक्रियाएं भी प्रतीत होती हैं, जैसे कि मॉडल की अवहेलना करना और ची-स्क्वेर्ड परीक्षण करना, लेकिन अन्य स्रोत बताते हैं कि यह अनुचित है, और आपको फिट का होस्मेर-लेमेशो अच्छा प्रदर्शन करना चाहिए परीक्षा। फिर मुझे अन्य स्रोत मिले जो बताते हैं कि यह परीक्षण वास्तविक समूह और कट-ऑफ वैल्यू पर निर्भर हो सकता है (विश्वसनीय नहीं हो सकता है)।

तो कैसे एक लॉजिस्टिक प्रतिगमन फिट का निदान करना चाहिए?


1
आँकड़ों का संभावित डुप्लिकेट (या विशेष मामला) ।stackexchange.com / questions / 29271 / या या आँकड़े ।stackexchange.com / questions / 44643 / , हालांकि, उनमें से किसी के भी जवाब नहीं हैं जो वास्तव में आपके लिए इसे हल करेंगे।
पीटर एलिस

1
मैं आपको स्कॉट मेनार्ड के मोनोग्राफ को पढ़ने की सलाह देता हूं, जो बहुत समय पहले वेब पर मुफ्त में उपलब्ध नहीं था।
rolando2

2
लॉजिस्टिक रिग्रेशन के लिए फिट उपायों की अच्छाई पर यह सवाल मददगार हो सकता है (हालांकि फिट की अच्छाई मॉडल डायग्नोस्टिक्स का केवल एक छोटा सा हिस्सा है): आंकड़े.stackexchange.com/questions/3559/logistic-regression-which-pseudo-r- स्क्वेर्ड-माप-

जवाबों:


39

लॉजिस्टिक रिग्रेशन मॉडल के फिट का आकलन करने के लिए आई कुछ नई तकनीकें राजनीतिक विज्ञान पत्रिकाओं से आई हैं:

  • ग्रीनहिल, ब्रायन, माइकल डी। वार्ड और ऑड्रे सैक्स। 2011. जुदाई की साजिश: बाइनरी मॉडल के फिट का मूल्यांकन करने के लिए एक नया दृश्य तरीका। अमेरिकन जर्नल ऑफ पॉलिटिकल साइंस 55 (4): 991-1002
  • एसेरी, जस्टिन एंड एंड्रयू पियर्स। 2012. बाइनरी-निर्भर चर मॉडल में प्रक्षेपीकरण के लिए फिट गुणवत्ता और परीक्षण का आकलन करना। राजनीतिक विश्लेषण 20 (4): 480-500यहाँ पीडीएफ को प्रिफर करें

ये दोनों तकनीक गुडनेस-ऑफ-फिट टेस्ट (जैसे होसमर और लेमेशो) को बदलने और संभावित गलत विनिर्देश (विशेष रूप से गैर-रेखीय समीकरण में समीकरण में शामिल चर) की पहचान करने के लिए शुद्ध करते हैं। ये विशेष रूप से उपयोगी हैं क्योंकि फिट के विशिष्ट आर-स्क्वायर उपायों की अक्सर आलोचना की जाती है

उपर्युक्त कागजात के ऊपर दोनों अनुमानित संभावनाओं का उपयोग करते हैं। बनाम भूखंडों में देखे गए परिणाम - कुछ हद तक इस तरह के मॉडल में अवशिष्ट के अस्पष्ट मुद्दे से बचते हैं। अवशिष्ट के उदाहरण लॉग-लाइबिलिटी या पियर्सन अवशिष्ट में योगदान दे सकते हैं (मेरा मानना ​​है कि हालांकि कई और भी हैं)। एक अन्य उपाय जो अक्सर दिलचस्पी का होता है (हालांकि एक अवशिष्ट नहीं) DFBeta's (एक गुणांक अनुमान राशि बदलता है जब एक अवलोकन मॉडल से बाहर रखा जाता है)। अन्य संभावित नैदानिक ​​प्रक्रियाओं के साथ लॉजिस्टिक रिग्रेशन डायग्नोस्टिक्स पर इस यूसीएलए पृष्ठ के लिए स्टैटा में उदाहरण देखें ।

मेरे पास यह काम नहीं है, लेकिन मेरा मानना ​​है कि श्रेणीबद्ध और सीमित निर्भरता के लिए जे स्कॉट लॉन्ग के रिग्रेशन मॉडल सरल तरीके से इन विभिन्न नैदानिक ​​उपायों के सभी पर पर्याप्त विस्तार से जाते हैं।


2
लॉजिस्टिक रिग्रेशन के लिए अन्य किताबों के बकेटलोड हैं (कम से कम भागों में तो संपूर्ण नहीं)। एगेस्टी के विभिन्न श्रेणीबद्ध डेटा विश्लेषण पाठ्य पुस्तकें, स्कॉट मेनार्ड, होस्मर और लेमेशो, और फ्रैंक हैरेल की आरएमएस पुस्तक वे सभी हैं जिन्हें मैंने इस मंच पर विभिन्न योगदानकर्ताओं द्वारा अनुशंसित देखा है।
एंडी डब्ल्यू

आपके उत्तर के लिए धन्यवाद। मुझे लगता है कि मेरे प्रश्न का कोई सरल उत्तर नहीं है। मैं आपकी सिफारिशों पर एक नज़र डालूंगा। चीयर्स।
इलियम

23

यह प्रश्न पर्याप्त रूप से प्रेरित नहीं था। मॉडल डायग्नोस्टिक्स को चलाने का एक कारण होना चाहिए, जैसे कि

  • बेहतर बनाने के लिए मॉडल को बदलने की क्षमता
  • यह जानने के लिए कि कौन से परीक्षण का उपयोग करने का निर्देश दिया गया है (अर्थात, गैर-रैखिकता या सहभागिता के परीक्षण)
  • समझ में न आना कि मॉडल को बदलना सांख्यिकीय अनुमान (मानक त्रुटियों, आत्मविश्वास अंतराल, अंतराल ) को आसानी से विकृत कर सकता हैP

बीजगणितीय प्रतिगमन विनिर्देश (जैसे, साधारण रैखिक मॉडल में अवशिष्टों के वितरण की जांच) के लिए ऑर्थोगोनल हैं चीजों की जांच के अलावा, मॉडल डायग्नॉस्टिक्स मेरी राय में हल करने के साथ ही कई समस्याएं पैदा कर सकते हैं। यह बाइनरी लॉजिस्टिक मॉडल का विशेष रूप से सच है क्योंकि इसकी कोई वितरण धारणा नहीं है।

इसलिए आमतौर पर मॉडल को निर्दिष्ट करने में समय व्यतीत करना बेहतर होता है, विशेष रूप से चर के लिए रैखिकता को नहीं मानने के लिए मजबूत माना जाता है जिसके लिए कोई पूर्व प्रमाण रैखिकता का सुझाव नहीं देता है। कुछ अवसरों में आप एक मॉडल को पूर्व-निर्दिष्ट कर सकते हैं जो फिट होना चाहिए , उदाहरण के लिए, यदि भविष्यवाणियों की संख्या छोटी है या आप सभी भविष्यवक्ताओं को ग़ैर-अनुमानी होने की अनुमति देते हैं और (सही ढंग से) कोई बातचीत नहीं करते हैं।

कोई भी महसूस कर रहा है कि मॉडल को बदलने के लिए मॉडल डायग्नोस्टिक्स का इस्तेमाल किया जा सकता है, उस प्रक्रिया को एक बूटस्ट्रैप लूप के भीतर चलाना चाहिए ताकि प्रेरित मॉडल अनिश्चितताओं का सही अनुमान लगाया जा सके।


4
मैं सहमत हूं कि मॉडलिंग के उद्देश्य से मॉडल डायग्नोस्टिक्स को स्टेम करना चाहिए। हालाँकि, मुझे आपके शुरुआती पैराग्राफ से यह आभास हुआ कि आपको लगता है कि हमें उन मॉडलों की जाँच नहीं करनी चाहिए जिन्हें हम डेटा में फिट करते हैं। मुझे पूरा यकीन है कि आपके मन में ऐसा नहीं है। साथ ही, द्विआधारी रसद मॉडल सबसे निश्चित रूप से करता है वितरणात्मक मान्यताओं है! (सबसे स्पष्ट है कि प्रतिक्रिया के लिए केवल दो मूल्य मौजूद हैं)
प्रायिकतालोगिक

3
यह मानने के अलावा कि वाई के लिए केवल 2 विशिष्ट संभावित मूल्य हैं, बाइनरी लॉजिस्टिक मॉडल में कोई गड़बड़ी नहीं है। मान्यताओं। मैं व्यक्तिगत रूप से बहुत बार लॉजिस्टिक रिग्रेशन वाले नैदानिक ​​भूखंडों का उपयोग नहीं करता, इसके बजाय उन मॉडलों को निर्दिष्ट करने के लिए जो किसी भी तरह से डेटा को फिट करने के लिए पर्याप्त रूप से लचीले हैं, नमूना आकार हमें जांचने के लिए लक्जरी देता है। OLS में मुख्य नैदानिक ​​प्लॉट जो मैं उपयोग करता हूं, अवशिष्ट की सामान्यता के लिए qq प्लॉट है।
फ्रैंक हरेल

सामान्यीकृत रैखिक मॉडल परिप्रेक्ष्य से, लॉजिस्टिक मॉडल द्विपद वितरण (बर्नौली वितरण) से उत्पन्न होता है। लेकिन फिर भी, यह अवशिष्टों की व्याख्या करने के लिए हानिकारक है।
New_to_this

वितरण के बारे में बात करना जब यादृच्छिक चर केवल दो मूल्यों (यानी बर्नौली वितरण) पर ले जा सकता है, क्योंकि यह कोई रास्ता नहीं है कि वितरण धारणा गलत हो सकती है जब तक कि अवलोकन स्वतंत्र नहीं हैं।
फ्रैंक हरेल

1
@FrankHarrell मुझे एहसास है कि आप जानते हैं कि आप यहाँ किस बारे में बात कर रहे हैं, लेकिन मुझे नहीं लगता कि यह आपके पोस्ट / टिप्पणियों से पूरे समुदाय को स्पष्ट होगा कि रैखिक भविष्यवक्ता (या यहां तक ​​कि एडिटिव भविष्यवक्ता की गलत-विनिर्देशन में) GAM फ्रेमवर्क) लॉजिस्टिक रिग्रेशन के लिए समस्या पैदा कर सकता है। कई लोग इस बात की सराहना नहीं कर सकते हैं कि यह डेटा में गैर-स्वतंत्रता बनाता है, जैसा कि आप कहते हैं। जब छात्र पहली बार रैखिक प्रतिगमन का सामना करते हैं, तो वे रेखीय भविष्यवक्ता के गलत निर्धारण और त्रुटि वितरण के गलत निर्धारण के बीच के अवशेषों का निरीक्षण करना सीखते हैं।
जैकब सोल्जर

5

यह धागा काफी पुराना है, लेकिन मुझे लगा कि इसे जोड़ना उपयोगी होगा, हाल ही में, आप किसी भी GL (M) M के अवशिष्ट को एक मानकीकृत स्थान में बदलने के लिए DHARMa R पैकेज का उपयोग कर सकते हैं । एक बार जब यह हो जाता है, तो आप सामान्य रूप से वितरण से विचलन, एक भविष्यवक्ता पर अवशिष्ट निर्भरता, सामान्य तरीके से स्वैच्छिकता या आटोक्लेररेशन जैसी अवशिष्ट समस्याओं का आकलन / परीक्षण कर सकते हैं। काम के माध्यम से उदाहरण के लिए पैकेज विगनेट देखें , यहाँ और यहाँ सीवी पर अन्य प्रश्न भी ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.