बाइनरी परिणामों के लिए सापेक्ष जोखिम का अनुमान लगाने के लिए पॉइसन प्रतिगमन


42

संक्षिप्त सारांश

पॉइज़न रिग्रेशन (सापेक्ष जोखिमों के साथ) के विपरीत बाइनरी परिणामों के साथ लॉजिस्टिक रिग्रेशन (ऑड्स रेशियो के साथ) का उपयोग करना अधिक आम क्यों है?

पृष्ठभूमि

स्नातक और स्नातक सांख्यिकी और महामारी विज्ञान पाठ्यक्रम, मेरे अनुभव में, आम तौर पर सिखाते हैं कि द्विआधारी परिणामों के साथ मॉडलिंग डेटा के लिए लॉजिस्टिक प्रतिगमन का उपयोग किया जाना चाहिए, जोखिम अनुमानों के साथ बाधाओं के अनुपात के रूप में रिपोर्ट किया जाता है।

हालांकि, पॉइसन रिग्रेशन (और संबंधित: अर्ध-पॉइसन, नकारात्मक द्विपद, आदि) का उपयोग द्विआधारी परिणामों के साथ मॉडल डेटा के लिए भी किया जा सकता है और, उपयुक्त विधियों (जैसे मजबूत सैंडविच विचरण अनुमानक) के साथ, यह वैध जोखिम अनुमान और विश्वास स्तर प्रदान करता है। उदाहरण के लिए,

पॉसों के प्रतिगमन से, सापेक्ष जोखिमों को सूचित किया जा सकता है, जो कुछ तर्क देते हैं, यह व्याख्या करने के लिए आसान है कि अंतर अनुपातों की तुलना में, विशेष रूप से लगातार परिणामों के लिए, और विशेष रूप से आंकड़ों में मजबूत पृष्ठभूमि के बिना व्यक्तियों द्वारा। झांग जे और यू केएफ देखें, सापेक्ष जोखिम क्या है? सामान्य परिणामों , JAMA के कॉहोर्ट अध्ययन में बाधाओं के अनुपात को सही करने की एक विधि । 1998 नवंबर 18; 280 (19): 1690-1।

चिकित्सा साहित्य को पढ़ने से, बाइनरी परिणामों के साथ सहवर्ती अध्ययनों के बीच ऐसा लगता है कि यह अभी भी पॉइज़न के प्रतिगमन से सापेक्ष जोखिमों के बजाय लॉजिस्टिक रजिस्टरों से बाधाओं की रिपोर्ट करना अधिक सामान्य है।

प्रशन

बाइनरी परिणामों के साथ अध्ययन के लिए:

  1. क्या पॉइज़न रिग्रेशन के सापेक्ष जोखिमों के बजाय लॉजिस्टिक रिग्रेशन से होने वाली बाधाओं की रिपोर्ट करने का अच्छा कारण है?
  2. यदि नहीं, तो क्या मेडिकल साहित्य में रिश्तेदार जोखिमों के साथ पॉइसन रेजिस्ट्रेशन की असंगति को ज्यादातर वैज्ञानिक सिद्धांत, चिकित्सकों, सांख्यिकीविदों और महामारी विज्ञानियों के बीच पद्धति सिद्धांत और व्यवहार के बीच अंतराल के लिए जिम्मेदार ठहराया जा सकता है।
  3. क्या मध्यवर्ती आंकड़ों और महामारी विज्ञान पाठ्यक्रमों में बाइनरी परिणामों के लिए पॉइसन प्रतिगमन की अधिक चर्चा शामिल होनी चाहिए?
  4. क्या मुझे उपयुक्त होने पर छात्रों और सहकर्मियों को लॉजिस्टिक रिग्रेशन पर पोइसन रिग्रेशन पर विचार करने के लिए प्रोत्साहित करना चाहिए?

यदि आप एक सापेक्ष जोखिम चाहते हैं, तो आप लॉग (बजाय लॉजिस्टिक) लिंक के साथ द्विपद प्रतिगमन का उपयोग क्यों नहीं करेंगे? यदि आप प्रति अवलोकन संभव घटनाओं की संख्या पर वातानुकूलित हैं, तो पोइसन परिवार का माध्य-विचरण संबंध बहुत मायने नहीं रखता है।
एंड्रयू एम

@AndrewM आप लॉग लिंक के साथ एक द्विपद प्रतिगमन कैसे लागू करेंगे? प्रतिगामी के सकारात्मक मूल्य संभावना मानों से बड़ा होगा 1.
रूफो

@ रूफो: यदि मैं आपको समझता हूं, तो मैं इसे रेगुलर भविष्यवक्ता कहूंगा, बजाय प्रतिगामी। और हाँ, पैरामीटर स्थान अब विवश है ताकि लोजिक लिंक के लिए अनर्गल मामले के विपरीत रैखिक भविष्यवक्ता नकारात्मक हो। आपकी भविष्यवाणी की गई प्रतिक्रिया (नए डेटा पर) बाहर हो सकती है , हालांकि मेरा मानना ​​है कि एक MLE हमेशा मौजूद रहेगा (शायद पैरामीटर स्पेस की सीमा पर)। ये मॉडल कभी-कभी फिट होने के लिए बारीक होते हैं। [0,1]
एंड्रयू एम

@AndrewM हां, मैं रैखिक भविष्यवक्ता का उल्लेख करता हूं, धन्यवाद :)। लेकिन जब आप मॉडल को लागू करने का प्रबंधन करते हैं, तब भी मुझे यकीन नहीं है कि यह पर्याप्त है। जैसा कि मैंने पहले उत्तर में एक टिप्पणी में संकेत दिया है, यदि आप 1s के लिए 0s स्वैप करते हैं और प्रतिक्रिया चर के लिए इसके विपरीत, क्योंकि लॉग लिंक 0.5 के आसपास सममित नहीं है, सापेक्ष जोखिमों के अनुमान अलग हैं ( exp(beta_M1) =/= 1/exp(beta_M2))। वह मुझे काफी परेशान करता है।
रूफो

1
पी(Y|एक्स)/पी(Y|एक्ससी)पी(Y|एक्स)/पी(Y|एक्ससी)पी(Yसी|एक्स)/पी(Yसी|एक्ससी)

जवाबों:


28

आपके सभी चार सवालों का जवाब, एक नोट से पहले:

यह वास्तव में यह सब नहीं है कि आधुनिक महामारी विज्ञान के अध्ययन के लिए एक कॉहोर्ट अध्ययन के लिए लॉजिस्टिक प्रतिगमन से बाधाओं के अनुपात की रिपोर्ट करना आम है । यह मामला नियंत्रण के अध्ययन के लिए पसंद की प्रतिगमन तकनीक रहता है, लेकिन और अधिक परिष्कृत तकनीक अब जैसे प्रमुख महामारी विज्ञान पत्रिकाओं में विश्लेषण के लिए वास्तविक मानक हैं महामारी विज्ञान , AJE या Ije। अवलोकन संबंधी अध्ययनों के परिणामों की रिपोर्ट करने वाले नैदानिक ​​पत्रिकाओं में दिखाने के लिए उनके लिए अधिक प्रवृत्ति होगी। कुछ समस्याएं भी होने वाली हैं क्योंकि पॉइसन रिग्रेशन का इस्तेमाल दो संदर्भों में किया जा सकता है: आप जिस चीज का जिक्र कर रहे हैं, जिसमें यह एक द्विपद रिग्रेशन मॉडल के लिए एक विकल्प है, और एक समय-से-घटना के संदर्भ में, जो सहवास के लिए बेहद आम है। अध्ययन करते हैं। विशेष सवाल जवाब में अधिक जानकारी:

  1. एक पलटन अध्ययन के लिए, वास्तव में नहीं। कुछ अत्यंत विशिष्ट मामले हैं जहां कहते हैं, एक टुकड़े-टुकड़े लॉजिस्टिक मॉडल का उपयोग किया जा सकता है, लेकिन ये आउटलेर हैं। एक पलटन अध्ययन का पूरा बिंदु यह है कि आप सीधे सापेक्ष जोखिम, या कई संबंधित उपायों को माप सकते हैं, और बाधाओं के अनुपात पर निर्भर नहीं होना चाहिए। मैं हालांकि दो नोट बनाऊंगा: एक पॉइसन प्रतिगमन अक्सर एक दर का अनुमान लगा रहा है, एक जोखिम नहीं है, और इस प्रकार इससे होने वाले प्रभाव का अनुमान अक्सर एक दर अनुपात (मुख्य रूप से, मेरे दिमाग में, इसलिए आप इसे अभी भी संक्षिप्त कर सकते हैं) या एक घटना घनत्व अनुपात (आईआरआर या आईडीआर) के रूप में नोट किया जाएगा। इसलिए अपनी खोज में सुनिश्चित करें कि आप वास्तव में सही शब्दों की तलाश में हैं: उत्तरजीविता विश्लेषण विधियों का उपयोग करके कई कॉहोर्ट अध्ययन हैं। इन अध्ययनों के लिए, पॉइसन प्रतिगमन कुछ धारणाएं बनाता है जो समस्याग्रस्त हैं, विशेष रूप से यह है कि खतरा निरंतर है। जैसे कि यह पॉसन मॉडल के बजाय कॉक्स आनुपातिक खतरों के मॉडल का उपयोग करते हुए एक कॉहोर्ट अध्ययन का विश्लेषण करने के लिए बहुत अधिक सामान्य है, और आगामी खतरे के अनुपात (एचआर) की रिपोर्ट करता है। यदि एक "डिफ़ॉल्ट" विधि को नाम देने के लिए दबाया जाता है जिसके साथ एक सहवास का विश्लेषण करना है, तो मैं कहूंगा कि महामारी विज्ञान वास्तव में कॉक्स मॉडल का प्रभुत्व है। इसकी अपनी समस्याएं हैं, और कुछ बहुत अच्छे महामारी विज्ञानी इसे बदलना चाहेंगे,

  2. वहाँ दो चीजें हैं, जो मैं उल्लंघन का श्रेय दे सकता हूं - एक ऐसा अपराध जो मुझे नहीं लगता कि आपके सुझाव के अनुसार मौजूद है। एक यह है कि हाँ - एक क्षेत्र के रूप में "महामारी विज्ञान" बिल्कुल बंद नहीं है, और आपको चिकित्सकों, सामाजिक वैज्ञानिकों, आदि के साथ-साथ अलग-अलग सांख्यिकीय पृष्ठभूमि के महामारी विज्ञानियों से बड़ी संख्या में पेपर मिलते हैं। लॉजिस्टिक मॉडल आमतौर पर पढ़ाया जाता है, और मेरे अनुभव में कई शोधकर्ता बेहतर टूल से परिचित उपकरण की ओर मुड़ेंगे।

    दूसरा वास्तव में "कोहोर्ट" अध्ययन से आपका मतलब है। कॉक्स मॉडल, या पॉसों मॉडल जैसा कुछ, व्यक्ति-समय के वास्तविक अनुमान की आवश्यकता है। यह संभव है कि एक कॉहोर्ट अध्ययन प्राप्त किया जाए जो किसी विशेष अवधि के लिए कुछ हद तक बंद आबादी का अनुसरण करता है - विशेष रूप से शुरुआती "इंट्रो टू एपी" उदाहरणों में, जहां पॉइसन या कॉक्स मॉडल जैसे जीवित रहने के तरीके इतने उपयोगी नहीं हैं। लॉजिस्टिक मॉडल कर सकते हैंएक विषम अनुपात का अनुमान लगाने के लिए उपयोग किया जाता है, जो पर्याप्त रूप से कम बीमारी के प्रसार के साथ, एक रिश्तेदार जोखिम का अनुमान लगाता है। अन्य प्रतिगमन तकनीकें जो सीधे अनुमान लगाती हैं, जैसे कि द्विपद प्रतिगमन, अभिसरण मुद्दे हैं जो एक नए छात्र को आसानी से पटरी से उतार सकते हैं। इस बात का ध्यान रखें कि आप जिन कागजों का हवाला देते हैं, वे दोनों बिनोमेन रिग्रेशन के अभिसरण मुद्दों के आसपास पाने के लिए एक पॉइसन रिग्रेशन तकनीक का उपयोग कर रहे हैं। लेकिन द्विपद-उपयुक्त कोहोर्ट अध्ययन वास्तव में "कोहोर्ट अध्ययन पाई" का एक छोटा टुकड़ा है।

  3. हाँ। सच कहूं, तो जीवित रहने के विश्लेषण के तरीके पहले की तुलना में आने चाहिए। मेरा पालतू सिद्धांत यह है कि इसका कारण यह नहीं है कि लॉजिस्टिक प्रतिगमन जैसी विधियाँ कोड करना आसान है । तकनीकें जिन्हें कोड करना आसान है, लेकिन उनके प्रभाव के अनुमानों की वैधता के बारे में अधिक बड़े विवरणों के साथ आते हैं, उन्हें "मूल" मानक के रूप में पढ़ाया जाता है, जो एक समस्या है।

  4. आपको उपयुक्त उपकरण का उपयोग करने के लिए छात्रों और सहकर्मियों को प्रोत्साहित करना चाहिए। आमतौर पर क्षेत्र के लिए, मुझे लगता है कि आप शायद पॉसों प्रतिगमन पर कॉक्स मॉडल के बारे में विचार करना बेहतर समझेंगे, क्योंकि अधिकांश समीक्षकों को एक निरंतर खतरे की धारणा के बारे में चिंताएं पैदा करनी चाहिए (और चाहिए)। लेकिन हां, जितनी जल्दी आप उन्हें "मैं एक लॉजिस्टिक रिग्रेशन मॉडल में अपने सवाल का जूता कैसे निकालूं?" बेहतर हम सब हो जाएगा। लेकिन हां, यदि आप बिना समय के अध्ययन को देख रहे हैं, तो छात्रों को बायोमियल रिग्रेशन और पॉइसन रिग्रेशन जैसे वैकल्पिक दृष्टिकोणों से परिचित कराया जाना चाहिए, जिनका उपयोग अभिसरण समस्याओं के मामले में किया जा सकता है।


जब आप कहते हैं कि अन्य प्रतिगमन तकनीकें जो सीधे अनुमान लगाती हैं [सापेक्ष जोखिम, मुझे लगता है], द्विपद प्रतिगमन की तरह, अभिसरण मुद्दे हैं [...] , तो आप एक द्विपद प्रतिगमन कैसे लागू करेंगे ताकि यह आपको एक सापेक्ष जोखिम प्रदान करे? @AndrewM एक लॉग लिंक का सुझाव देता है, लेकिन मैं यह देखने में विफल रहता हूं कि आप सफलता की संभावना के अनुमान से अधिक होने की समस्या से कैसे बचेंगे। 1.
रूफो

@Rufo एक लॉग-लिंक के साथ एक द्विपद मॉडल, जब एक पलटन पर चलाया जाता है, रिश्तेदार जोखिम का अनुमान लगाएगा। ये मॉडल कभी-कभी अनुमान लगाते हैं कि 1 से अधिक संभावनाएं वास्तव में एक कारण है कि द्विपद मॉडल को लागू करने के लिए आदर्श से कठिन हैं। लेकिन मैं उनका उपयोग करने में सफल रहा हूं - यह उपयोगी है कि आपके डेटा में प्रायः 1 से नीचे की संभावनाएं होती हैं, इसलिए मॉडल कभी भी उस समस्या के साथ समाप्त नहीं हो सकता है जिसके बारे में आप चिंतित हैं।
फोमाइट

पी

9

मैं भी साहित्य में लॉजिस्टिक मॉडल की व्यापकता का अनुमान लगाता हूं जब एक सापेक्ष जोखिम मॉडल अधिक उपयुक्त होगा। हम सांख्यिकीविद के रूप में "ड्रॉप-डाउन-मेनू" विश्लेषण के लिए परंपरा या परंपरा के पालन से बहुत परिचित हैं। ये हल करने की तुलना में कहीं अधिक समस्याएं पैदा करते हैं। लॉजिस्टिक रिग्रेशन को बाइनरी परिणामों के विश्लेषण के लिए "शेल्फ़ टूल से मानक" के रूप में पढ़ाया जाता है, जहाँ किसी व्यक्ति की मृत्यु या विकलांगता जैसे किसी प्रकार का हाँ / नहीं होता है।

पॉसन रिग्रेशन को अक्सर काउंट्स के विश्लेषण के लिए एक विधि के रूप में पढ़ाया जाता है । यह कुछ हद तक जोर दिया गया है कि इस तरह की संभावना मॉडल 0/1 परिणामों के मॉडलिंग के लिए असाधारण रूप से अच्छी तरह से काम करता है, खासकर जब वे दुर्लभ होते हैं। हालांकि, एक लॉजिस्टिक मॉडल भी दुर्लभ परिणामों के साथ अच्छी तरह से लागू किया जाता है: मामले का अनुपात लगभग जोखिम का अनुपात है, यहां तक ​​कि केस नियंत्रण अध्ययनों के साथ परिणाम आश्रित नमूने के रूप में भी। रिश्तेदार जोखिम या पॉसों मॉडल के बारे में भी ऐसा नहीं कहा जा सकता है।

एक पॉजिसन मॉडल तब भी उपयोगी होता है जब व्यक्तियों में एक से अधिक बार "परिणाम" हो सकते हैं, और आपको संचयी घटना में दिलचस्पी हो सकती है, जैसे कि दाद, अस्पताल में भर्ती या स्तन कैंसर का प्रकोप। इस कारण से, घातीय गुणांक को रिश्तेदार दरों के रूप में व्याख्या किया जा सकता है । दरों और जोखिमों के बीच अंतर को स्पष्ट करने के लिए: यदि प्रति 1,000 व्यक्ति-वर्ष में 100 मामले हैं, लेकिन सभी 100 मामले एक व्यक्ति में हुए हैं, तो घटना (दर) अभी भी प्रति 10 व्यक्ति-वर्ष में 1 मामला है। एक स्वास्थ्य देखभाल वितरण सेटिंग में, आपको अभी भी 100 मामलों का इलाज करने की आवश्यकता है, और 80% लोगों को टीकाकरण करने से 80% घटना दर में कमी (एक प्राथमिकता) होती है। हालांकि कम से कम एक परिणाम का जोखिम 1/1000 है। परिणाम और प्रश्न की प्रकृति, एक साथ, यह निर्धारित करते हैं कि कौन सा मॉडल उपयुक्त है।

वर(y)=(y)(1-(y))

लॉग([Y|एक्स])=β0+β1एक्सवर(Y)=[Y](1-[Y])

वैसे, झांग लेख सापेक्ष जोखिम अनुमान के आधार पर अनुमान के पक्षपाती अनुमान प्रदान करता है जो अवरोधन शब्द में परिवर्तनशीलता के लिए जिम्मेदार नहीं है। आप बूटस्ट्रैप करके अनुमानक को सही कर सकते हैं।

विशिष्ट सवालों के जवाब देने के लिए:

  1. यदि परिणाम दुर्लभ है, तो वे लगभग समान हैं। यदि परिणाम सामान्य है, तो पोइसन से सापेक्ष दर अनुमानक का विचलन फुलाया जा सकता है, और हम द्विआधारी परिणाम और कई जोखिमों के बीच संबंध के पक्षपाती लेकिन कुशल अनुमान के रूप में अंतर अनुपात को पसंद कर सकते हैं। मुझे यह भी लगता है कि केस-कंट्रोल अध्ययन एक माप के रूप में ऑड्स अनुपात के उपयोग को सही ठहराते हैं जो परिणाम पर निर्भर नमूने के साथ भिन्न नहीं होते हैं। स्कॉट और वाइल्ड 97 इसके चारों ओर तरीकों पर चर्चा करते हैं। बेशक, अन्य पत्रिकाओं में समर्पित सांख्यिकीय समीक्षक नहीं हो सकते हैं।

2.3। मुझे लगता है कि आप दोषारोपण कर रहे हैं और चिकित्सा समीक्षा और शिक्षाविदों में क्या होता है, इस बारे में अधिक अनुमान लगा रहे हैं।

  1. आपको अपने छात्रों को हमेशा उपयुक्त मॉडल का उपयोग करने के लिए प्रोत्साहित करना चाहिए।

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat


2
"मेरी समझ यह है कि यदि वैज्ञानिक ब्याज सापेक्ष दरों का अनुमान लगाने में निहित है, तो एक हाइब्रिड मॉडल है: सापेक्ष जोखिम प्रतिगमन जो लॉजिस्टिक विचरण संरचना और पॉइसन माध्य संरचना का उपयोग करके एक GLM है": एक लॉग लिंक के साथ द्विपद प्रतिगमन के रूप में भी जाना जाता है।
एंड्रयू एम

2
@AndrewM वास्तव में। वास्तव में, मुझे लगता है कि यह पसंदीदा भाषा है। यह बात बताने के लिए धन्यवाद। मैंने थॉमस लुमली के एक वर्किंग पेपर के संदर्भ को शामिल करने के लिए प्रश्न को संपादित किया है जो इस बात पर जोर देता है कि पॉइसन मॉडल एक "वर्किंग मॉडल" है जिसमें यह एक गलत माना जाने वाला माध्य-विचरण संबंध है।
एडमो

"यदि परिणाम दुर्लभ है तो वे लगभग समान हैं" से आपका क्या मतलब है ? "दुर्लभ" परिणाम का अधिकतम प्रतिशत प्रचलन के आकलन के लिए आरआर के बजाय या उपयोग करने के लिए क्या है?
vasili111

1
@ vasili111 यह एक गर्म बहस वाला विषय है जिसका कोई स्पष्ट उत्तर नहीं है। आजकल आप बहुत से लोगों को "दुर्लभ" धारणा बनाते हुए देखते हैं, जब यह घटना दुर्लभ नहीं थी, जैसे कि 1/30 से अधिक। और बहुभिन्नरूपी मॉडल के साथ, कुछ भी हो जाता है!
एडम जूल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.