उत्तरजीविता विश्लेषण में, हम पूरी तरह से पैरामीट्रिक मॉडल के बजाय अर्ध-पैरामीट्रिक मॉडल (कॉक्स आनुपातिक खतरों) का उपयोग क्यों करते हैं?


24

मैं कॉक्स आनुपातिक खतरों के मॉडल का अध्ययन कर रहा हूं, और यह प्रश्न अधिकांश ग्रंथों में स्पष्ट है।

कॉक्स ने एक आंशिक संभावना विधि का उपयोग करके हेज़ार्ड फ़ंक्शन के गुणांक को फिट करने का प्रस्ताव दिया, लेकिन अधिकतम संभावना पद्धति और एक रैखिक मॉडल का उपयोग करके सिर्फ पैरामीट्रिक उत्तरजीविता फ़ंक्शन के गुणांक को क्यों नहीं फिट किया?

ऐसे किसी भी मामले में जहां आपने डेटा को सेंसर किया है, आप केवल वक्र के नीचे का क्षेत्र खोज सकते हैं। उदाहरण के लिए, यदि आपका अनुमान 80 के मानक विचलन के साथ 380 है, और एक नमूना सेंसर> 300 है, तो संभावना है कि सामान्य त्रुटि मानते हुए गणना में उस नमूने के लिए 84% संभावना है।


जितना मुझे यहाँ एक्चुअरल साइंस के प्रश्न करना पसंद है, मुझे यह कहना है कि यह सवाल शायद सांख्यिकी साइट, क्रॉस वैलिडेटेड में बेहतर प्रतिक्रिया पाने वाला है। आप एक मध्यस्थ से अनुरोध कर सकते हैं कि वह इसे स्थानांतरित कर दे।
ग्राफ १

ठीक है, एहसास नहीं था कि अस्तित्व में है। प्रवास का अनुरोध करने का तरीका निश्चित नहीं है। कृपया माइग्रेट करें?

@ गैग्रथ, मुझे यह भी महसूस नहीं हुआ कि कोई एक था ... मैंने इसे "सभी साइटों" की सूची में नहीं पाया, क्या आप इसे यहां लिंक कर सकते हैं? धन्यवाद

जवाबों:


27

यदि आप पैरामीट्रिक वितरण को जानते हैं जो आपके डेटा का अनुसरण करता है तो अधिकतम संभावना दृष्टिकोण का उपयोग करके और वितरण समझ में आता है। कॉक्स आनुपातिक जोखिम प्रतिगमन का वास्तविक लाभ यह है कि आप वितरण को जानने (या मानने) के बिना अभी भी जीवित मॉडल फिट कर सकते हैं। आप सामान्य वितरण का उपयोग करके एक उदाहरण देते हैं, लेकिन अधिकांश उत्तरजीविता समय (और कॉक्स PH प्रतिगमन के लिए उपयोग किए जाने वाले अन्य प्रकार के डेटा) एक सामान्य वितरण का पालन करने के करीब नहीं आते हैं। कुछ लोग लॉग-नॉर्मल या वेइबुल, या अन्य पैरामीट्रिक वितरण का पालन कर सकते हैं, और यदि आप उस धारणा को बनाने के लिए तैयार हैं तो अधिकतम संभावना पैरामीट्रिक दृष्टिकोण है। लेकिन कई वास्तविक दुनिया के मामलों में हम यह नहीं जानते हैं कि उचित वितरण क्या है (या एक करीब पर्याप्त सन्निकटन)। सेंसर और कोवरिएट्स के साथ हम एक साधारण हिस्टोग्राम नहीं कर सकते हैं और कहते हैं कि "ऐसा लगता है कि ... मेरे लिए वितरण"। इसलिए एक ऐसी तकनीक का होना बहुत उपयोगी है जो एक विशिष्ट वितरण की आवश्यकता के बिना अच्छी तरह से काम करती है।

वितरण फ़ंक्शन के बजाय खतरों का उपयोग क्यों करें? निम्नलिखित कथन पर विचार करें: "समूह ए में लोग 80 वर्ष की आयु में समूह बी के लोगों की तुलना में दोगुने हैं"। अब यह सच हो सकता है क्योंकि समूह B के लोग समूह A के लोगों की तुलना में अधिक समय तक जीवित रहते हैं, या ऐसा इसलिए हो सकता है क्योंकि समूह B के लोग कम जीवन जीते हैं और उनमें से अधिकांश 80 वर्ष की आयु से बहुत पहले मर चुके होते हैं, बहुत कम संभावना देते हैं उनमें से 80 की मृत्यु हो गई, जबकि समूह ए में पर्याप्त लोग 80 से जीवित हैं कि उनकी एक उचित संख्या उस उम्र में मर जाएगी, जो उस उम्र में मृत्यु की बहुत अधिक संभावना दे। तो एक ही कथन का मतलब हो सकता है कि समूह A में होना समूह B में होने से बेहतर या बुरा है। उन लोगों के लिए (प्रत्येक समूह में) जो 80 वर्ष तक जीवित रहते हैं, उनके अनुपात में 81 से अधिक होने पर क्या कहना है। वह खतरा है (और वितरण वितरण फ़ंक्शन / उत्तरजीविता फ़ंक्शन / आदि का एक खतरा है।) अर्ध-पैरामीट्रिक मॉडल में काम करने के लिए खतरा आसान है और फिर आपको वितरण के बारे में जानकारी दे सकता है।


7
अच्छा जवाब। समय के बारे में अद्वितीय बात यह है कि यह एक दिशा में गुजरता है, और एक बार जब हम एक उच्च जोखिम अवधि से गुजरते हैं तो हम मुख्य रूप से जोखिमों में रुचि रखते हैं। यही वह खतरा है जो हमें बताता है।
फ्रैंक हरेल

2
एक और बिंदु जो जोड़ने योग्य है वह यह है कि सेंसर किए गए डेटा के साथ, वितरण संबंधी मान्यताओं का निरीक्षण करना बहुत मुश्किल हो सकता है। उदाहरण के लिए, मान लीजिए कि आपके 20% विषय किसी घटना का निरीक्षण करते हैं। यह निर्धारित करने की कोशिश करना कि क्या वितरण की पूंछ एक वीबुल वितरण का अनुसरण करती है, स्पष्ट रूप से संभव नहीं है! कॉक्स-PH मॉडल कुछ हद तक समस्या को कम कर देता है (लेकिन अगर आपको उस समय के क्षेत्रों को एक्सट्रपलेट करना चाहते हैं जो आनुपातिक खतरों से बहुत सावधान रहना है जो अत्यधिक सेंसर किए गए थे)
क्लिफ एबी

16

"हम" जरूरी नहीं है। उत्तरजीविता विश्लेषण उपकरणों की सीमा पूरी तरह से गैर-पैरामीट्रिक से होती है, जैसे कि कापलान-मायर विधि, पूरी तरह से पैरामीट्रिक मॉडल जहां आप अंतर्निहित खतरे के वितरण को निर्दिष्ट करते हैं। प्रत्येक के अपने फायदे और नुकसान हैं।

सेमी-पैरामीट्रिक तरीके, कॉक्स आनुपातिक खतरों के मॉडल की तरह, आपको अंतर्निहित खतरे फ़ंक्शन को निर्दिष्ट नहीं करने के साथ दूर करते हैं। यह मददगार हो सकता है, क्योंकि हम हमेशा अंतर्निहित खतरे के कार्य को नहीं जानते हैं और कई मामलों में भी परवाह नहीं करते हैं । उदाहरण के लिए, कई महामारी विज्ञान के अध्ययन जानना चाहते हैं "क्या एक्सपोज़र एक्स घटना ई तक समय में कमी करता है?" वे परवाह करते हैं कि उन रोगियों में अंतर है जिनके पास एक्स है और जिनके पास एक्स नहीं है। उस स्थिति में, अंतर्निहित खतरा वास्तव में कोई फर्क नहीं पड़ता है, और इसे गलत तरीके से याद करने का जोखिम यह है कि इसे न जानने के परिणामों से भी बदतर है।

हालांकि कई बार ऐसा नहीं होता है। मैंने पूरी तरह से पैरामीट्रिक मॉडल के साथ काम किया है क्योंकि अंतर्निहित खतरा ब्याज का था


1
"... और इसे याद न रखने का जोखिम यह है कि इसे न जानने के परिणाम से भी बदतर है।" यह बहुत मददगार था, धन्यवाद।

क्या आप इस बात का उदाहरण दे सकते हैं कि अंतर्निहित खतरा कब होगा?
डान चालीटील

1
@DanChaltiel कोई भी अनुमान जो एक गणितीय मॉडल में जाने का इरादा रखता है या इस तरह का एक उदाहरण होगा - अंतर्निहित खतरा कार्य विशेष रुचि का है।
फोमाइट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.