जीवित कार्यों के लिए फिट की अच्छाई का मूल्यांकन कैसे करें


9

मैं उत्तरजीविता विश्लेषण के लिए एक नवागंतुक हूं, हालांकि मुझे वर्गीकरण और प्रतिगमन में कुछ ज्ञान है।

प्रतिगमन के लिए, हमारे पास MSE और R वर्ग आँकड़े हैं। लेकिन हम यह कैसे कह सकते हैं कि उत्तरजीविता मॉडल A, जीवित मॉडल B के अलावा कुछ प्रकार के चित्रमय भूखंडों (KM वक्र) से बेहतर है?

यदि संभव हो, तो कृपया एक उदाहरण के साथ अंतर को स्पष्ट करें (उदाहरण के लिए, आर में पैकेज rpart)। आप यह कैसे दिखा सकते हैं कि एक CART सर्वाइवल ट्री दूसरे CART सर्वाइवल ट्री से बेहतर है? क्या मैट्रिक्स का उपयोग किया जा सकता है?


3
अस्तित्व विश्लेषण के विभिन्न प्रकार हैं । उनमें से कुछ वास्तव में प्रतिगमन पर आधारित हैं। उनमें से कुछ, केएम की तरह, जीवित रहने वाले आँकड़ों के लिए अनुमानक के रूप में अधिक आसानी से सोचा जा सकता है।
एलेक्सिस

अपने प्रश्न को बेहतर बनाने के लिए आपके निरंतर प्रयासों के लिए धन्यवाद। मुझे संदेह है कि यह अब सीवी के लिए जवाबदेह / उपयुक्त है। मैंने इसे फिर से खोलने के लिए नामांकित किया है। हम देखेंगे कि क्या दूसरे सहमत हैं। अगर आप लोगों को इन मुद्दों को समझाने में उपयोग करने के लिए दो कार्ट-प्रकार के उत्तरजीविता मॉडल पोस्ट कर सकते हैं तो यह मदद कर सकता है।
गूँज - मोनिका

1
बेन, तो मूल रूप से आप कह रहे हैं कि एक कॉक्स आनुपातिक खतरा प्रतिगमन में, वहाँ (अब तक) फिट की अच्छाई का मूल्यांकन करने का कोई अच्छा तरीका नहीं है? आर-स्क्वायर अच्छे परिणाम नहीं देता है क्योंकि यह सेंसर की गई टिप्पणियों और बिना सेंसर की टिप्पणियों को सही ढंग से संभाल नहीं सकता है? आप Harrells c के बारे में बात कर रहे हैं, क्या मैंने आपको सही समझा है कि यह विधि Cox-PH प्रतिगमन के लिए लागू नहीं है?
कोस्टा एस।

जवाबों:


9

कॉक्स मॉडल जैसे आंकड़ों के साथ मुख्य समस्याR2(एक अन्य उत्तर में वर्णित) यह आपके डेटा के सेंसरशिप वितरण पर बहुत निर्भर है। अन्य प्राकृतिक चीजें जिन्हें आप देख सकते हैं, जैसे कि नल मॉडल की संभावना अनुपात, यह समस्या भी है। (यह मूल रूप से है क्योंकि संभावना के लिए एक सेंसर किए गए डेटापॉइंट का योगदान एक डेटापॉइंट के योगदान से बहुत अलग है जहां घटना देखी जाती है, क्योंकि उनमें से एक पीडीएफ से आता है और उनमें से एक सीडीएफ से आता है। विभिन्न शोधकर्ताओं ने किया है। इसे प्राप्त करने के लिए प्रस्तावित तरीके, लेकिन जिन लोगों को मैंने देखा है, उन्हें आमतौर पर आपको सेंसरशिप वितरण का मॉडल या कुछ समान रूप से अव्यवहारिक होना चाहिए। मैंने इस बात पर ध्यान नहीं दिया है कि व्यवहार में यह निर्भरता कितनी खराब है, इसलिए यदि आपका सेंसर काफी हल्का है, तो आप अभी भी संभावना-अनुपात-आधारित आँकड़ों पर गौर कर सकते हैं। अस्तित्व के लिए कार्ट मॉडल,

जेनेरिक उत्तरजीविता मॉडल के लिए, एक बार-बार प्रयोग किया जाने वाला आँकड़ा है हरेल का सी इंडेक्स, केंडल के का एक एनालॉग या उत्तरजीविता मॉडल के लिए आरओसी एयूसी। अनिवार्य रूप से, सी सभी अनुपातों में से अनुपात है, जहां आप जानते हैं कि एक उदाहरण ने एक घटना को बाद में दूसरे की तुलना में अनुभव किया, कि मॉडल सही तरीके से रैंक करता है। (दूसरे शब्दों में, हर में जोड़े जाने वाले उदाहरणों की एक जोड़ी के लिए, कम से कम एक को सेंसर किया जा सकता है, और दूसरे के एक घटना के बाद इसे सेंसर किया जाना चाहिए ।) सी इंडेक्स सेंसरशिप वितरण पर भी निर्भर करता है, लेकिन हार्ले के अनुसार निर्भरता अन्य आंकड़ों की तुलना में मामूली है जो मैंने ऊपर उल्लेख किया है। दुर्भाग्य से, हैरेल की सीτउपरोक्त आँकड़ों की तुलना में कम संवेदनशील भी है, इसलिए यदि आप इसके बीच का अंतर छोटा रखते हैं, तो आप इसके आधार पर मॉडल के बीच चयन नहीं करना चाहते हैं; यह विभिन्न मॉडलों की तुलना करने के तरीके की तुलना में सामान्य प्रदर्शन के व्याख्यात्मक सूचकांक के रूप में अधिक उपयोगी है।

(अंत में, निश्चित रूप से यदि आपके पास मॉडल के लिए एक विशिष्ट उद्देश्य है - अर्थात, यदि आप जानते हैं कि आपकी भविष्यवाणी हानि कार्य क्या है - तो आप हमेशा नुकसान फ़ंक्शन के अनुसार उनका मूल्यांकन कर सकते हैं! लेकिन मैं आपको अनुमान लगा रहा हूं ' इतनी खुशकिस्मत नहीं ...)

दोनों की संभावना अनुपात के आँकड़ों और हार्रेल की की अधिक गहन चर्चा के लिए , आपको हार्ले की उत्कृष्ट पाठ्यपुस्तक प्रतिगमन मॉडलिंग रणनीतियों को देखना चाहिए । उत्तरजीविता मॉडल के मूल्यांकन पर अनुभाग .1019.10, पीपी। 492-493 है। मुझे खेद है कि मैं आपको एक निश्चित उत्तर नहीं दे सकता, लेकिन मुझे नहीं लगता कि यह एक हल की गई समस्या है!


5

अस्तित्व के आंकड़ों के लिए कॉक्स आनुपातिक खतरों के प्रतिगमन को कई मामलों में मानक प्रतिगमन के अनुरूप माना जा सकता है। उदाहरण के लिए, कॉक्स रिग्रेशन अवशिष्ट मानक त्रुटियों और आर-स्क्वायर आँकड़े भी प्रदान करते हैं। coxphआर survivalपैकेज में फ़ंक्शन देखें । (आप मानक आंकड़ों में गैर-पैरामीट्रिक विश्लेषण के अनुसार केएम घटता के बारे में सोच सकते हैं। आप कार्ट में गैर-पैरामीट्रिक परीक्षण को कैसे शामिल करेंगे?) नैदानिक ​​आंकड़ों के साथ अभ्यास में, अवशिष्ट मानक त्रुटियां उच्च और आर-वर्ग मान कम होती हैं। कॉक्स प्रतिगमन में।

इस प्रकार मानक प्रतिगमन और कॉक्स प्रतिगमन की समान आवश्यकताएं और सीमाएं हैं। आपको यह सत्यापित करना होगा कि डेटा अंतर्निहित मान्यताओं को फिट करता है, जिसमें कॉक्स विश्लेषण में आगे यह धारणा शामिल है कि खतरों की तुलना समय के साथ आनुपातिक है। आपको अभी भी ओवर-फिटिंग से बचना होगा और आपको अपने मॉडल को मान्य करना होगा। और जैसा कि मैंने CART को समझा, हालाँकि मैं खुद इसका उपयोग नहीं करता, फिर भी आप गैर-नेस्टेड मॉडल की तुलना करके उत्पन्न कठिनाइयों का सामना करेंगे।


कॉक्स रिग्रेशन और रिग्रेशन के बीच अंतर और संबंधों पर आपके उत्तर के लिए धन्यवाद। लेकिन मैं जानना चाहता हूं कि दो रिर्पार्ट (कार्ट) निर्णय ट्री सर्वाइवल मॉडल की तुलना कैसे करें।
बाढ़

Projecteuclid.org/euclid.ssu/1315833185 पर लिंक किया गया ओपन-एक्सेस पेपर एक बहुत ही हालिया समीक्षा है rpartऔर अन्य आर पैकेज और कोड के आधार पर, जीवित पेड़ों को बनाने और चुनने के तरीकों की तुलना है ।
एड्म

कागज को इंगित करने के लिए धन्यवाद। मैं अभी पेपर पढ़ूंगा।
बाढ़
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.