कॉक्स आनुपातिक खतरों के मॉडल के साथ क्रॉस-सत्यापन कैसे करें?


15

मान लीजिए मैंने एक डेटासेट (मॉडल बिल्डिंग डेटासेट) में किसी विशेष बीमारी की घटना के लिए एक भविष्यवाणी मॉडल का निर्माण किया है और अब यह जांचना चाहता हूं कि मॉडल एक नए डेटासेट (सत्यापन डेटासेट) में कितनी अच्छी तरह काम करता है। लॉजिस्टिक रिग्रेशन के साथ बनाए गए मॉडल के लिए, मैं मॉडल बिल्डिंग डेटासेट से प्राप्त मॉडल गुणांक के आधार पर सत्यापन डेटासेट में प्रत्येक व्यक्ति के लिए अनुमानित संभावना की गणना करेगा और फिर, कुछ कटऑफ मूल्य पर उन संभावनाओं को विचलित करने के बाद, मैं एक 2x2 तालिका का निर्माण कर सकता हूं इससे मुझे वास्तविक सकारात्मक दर (संवेदनशीलता) और वास्तविक नकारात्मक दर (विशिष्टता) की गणना करने की अनुमति मिलती है। इसके अलावा, मैं कटऑफ को अलग करके पूरे आरओसी वक्र का निर्माण कर सकता हूं और फिर आरओसी ग्राफ के लिए एयूसी प्राप्त कर सकता हूं।

अब मान लीजिए कि मेरे पास वास्तव में उत्तरजीविता डेटा है। इसलिए, मैंने मॉडल बिल्डिंग डेटासेट में एक कॉक्स आनुपातिक खतरों के मॉडल का उपयोग किया और अब जांचना चाहता हूं कि मॉडल सत्यापन डेटासेट में कितनी अच्छी तरह काम करता है। चूंकि आधारभूत जोखिम कॉक्स मॉडल में एक पैरामीट्रिक फ़ंक्शन नहीं है, इसलिए मैं यह नहीं देखता कि मॉडल बिल्डिंग डेटासेट में प्राप्त मॉडल गुणांक के आधार पर सत्यापन डेटासेट में मैं प्रत्येक व्यक्ति के लिए अनुमानित अस्तित्व की संभावना कैसे प्राप्त कर सकता हूं। तो, मैं जाँच के बारे में कैसे जा सकता हूँ कि मॉडल सत्यापन डेटासेट में कितनी अच्छी तरह काम करता है? क्या ऐसा करने के लिए स्थापित तरीके हैं? और यदि हाँ, तो क्या वे किसी भी सॉफ्टवेयर में लागू किए गए हैं? किसी सुझाव के लिए अग्रिम धन्यवाद!

जवाबों:


9

इस सेटिंग में एक आरओसी वक्र उपयोगी नहीं है, हालांकि सामान्यीकृत आरओसी क्षेत्र (सी-इंडेक्स, जिसमें किसी भी द्विध्रुवीकरण की आवश्यकता नहीं है) है। आर rmsपैकेज सी-इंडेक्स और क्रॉस-वैरिफाइड या बूटस्ट्रैप को ओवरफिटिंग-सही किए गए संस्करणों की गणना करेगा। यदि आप मॉडल को पूरी तरह से पूर्व-निर्दिष्ट करते हैं या प्रत्येक रीप्ले पर एक बैकवर्ड स्टेपडाउन एल्गोरिथ्म दोहराते हैं, तो आप किसी भी डेटा को पकड़े बिना ऐसा कर सकते हैं। आप वास्तव में बाहरी सत्यापन, यानी क्या करना चाहते हैं, तो आपका सत्यापन नमूना भारी है, तो आपको निम्न का उपयोग कर सकते rmsकार्य: rcorr.cens, val.surv


जवाब के लिए धन्यवाद। क्या आप बता सकते हैं कि इस सेटिंग में एक ROC वक्र क्यों उपयोगी नहीं है? मैंने कुछ प्रमुख अनुप्रयोगों को देखा है, जहां इस तरह के दृष्टिकोण का उपयोग किया गया था (उदाहरण के लिए, हिप्पिसले-कॉक्स एट अल।) (2007)। यूनाइटेड किंगडम के लिए एक नया कार्डियोवस्कुलर रोग जोखिम स्कोर, क्यूआरओएसएस की व्युत्पत्ति और सत्यापन: भावी खुले सहवास का अध्ययन। ब्रिटिश मेडिकल जर्नल। , 335 (7611): 136), तो अब मैं उनके तरीकों के बारे में सोच रहा हूं।
वोल्फगैंग

1
यहाँ एक सादृश्य है। मान लीजिए कि किसी को यह आकलन करने में दिलचस्पी है कि उम्र बढ़ने की क्षमता से कैसे संबंधित है। आरओसी का दृष्टिकोण किसी की दौड़ने की क्षमता को देखते हुए सवाल पूछेगा कि वे एक निश्चित (मनमानी) उम्र से अधिक होने की संभावना क्या है? कॉहोर्ट अध्ययन में यह केवल स्वतंत्र और आश्रित चर की भूमिकाओं को उलटने के लिए भ्रम को जोड़ता है, और आरओसी घटता भी एक भविष्यवक्ता पर कटऑफ बनाने के लिए प्रलोभन देता है, जिसे खराब सांख्यिकीय अभ्यास के लिए जाना जाता है - देखें biostat.m.vanderbilt.edu/ बिल्ली का बच्चा । हॉक बनाने के अलावा, कटपॉइंट वास्तव में अन्य सभी भविष्यवक्ताओं के कार्य होने चाहिए।
फ्रैंक हरेल

फिर से, उत्तर देने के लिए धन्यवाद। मैं हालांकि पूरी तरह आश्वस्त नहीं हूं। मैं पूरी तरह से मानता हूं कि एक सतत चर का मनमाना वर्गीकरण बुरा अभ्यास है, लेकिन आरओसी दृष्टिकोण सभी संभावित कटऑफ पर वर्गीकृत करता है और उस जानकारी को एयूसी के माध्यम से सारांशित करता है। इसलिए इसमें कोई मनमानी नहीं है। यह लॉजिस्टिक रिग्रेशन मॉडल के लिए एक मानक और स्वीकृत अभ्यास की तरह लगता है। तो क्या आप सामान्य रूप से या केवल उत्तरजीविता मॉडल के संदर्भ में आरओसी घटता के उपयोग के खिलाफ हैं?
वोल्फगैंग

2
आरओसी सामान्य रूप से घटता है, जब तक कि आप उनका उपयोग उस चीज के लिए नहीं करते हैं जो वास्तव में उनके लिए है: सामूहिक एक समय समूह निर्णय लेने के लिए। वे व्यक्तिगत निर्णय लेने में मदद नहीं करते हैं, जहां दिए गए विषय के लिए आप पर शर्त हैएक्स=एक्स के बजाय एक्स>सी(हम प्रत्येक विषय के लिए सटीक पूर्वसूचक मान जानते हैं, न केवल वे एक कटऑफ को पार करते हैं)। आरओसी घटता भी अच्छे विश्लेषकों को एक कटपॉइंट चुनने के लिए लुभाता है। आरओसी वक्र आपको क्या बताता है कि आप मानक प्रतिगमन आँकड़ों से नहीं मिल सकते हैं?
फ्रैंक हरेल

मेरा अनुभव मुझे बताता है कि बहुत सारे शोधकर्ता / चिकित्सक वास्तव में द्विदलीय निर्णय नियम चाहते हैं (यह छोड़कर कि उपयोगी है या नहीं)। किसी भी दर पर, मैं उन आर कार्यों में से कुछ का पालन करूंगा और देखूंगा कि यह मुझे कहां मिलता है। चर्चा के लिए धन्यवाद।
वोल्फगैंग

0

मुझे पता है कि यह प्रश्न बहुत पुराना है, लेकिन जब मैंने एक ही समस्या का सामना किया है, तो सत्यापन सेट में प्रत्येक विषय के लिए "स्कोर" प्राप्त करने के लिए भविष्यवाणी फ़ंक्शन का उपयोग करने के लिए क्या किया था। इसके बाद विषयों को विभाजित करने के अनुसार, स्कोर माध्यिका की तुलना में अधिक था या कम था और कपलान-मेयर वक्र की साजिश रच रहा था। यदि आपके मॉडल का पूर्वानुमान है तो यह उन विषयों को अलग कर देना चाहिए। मैंने स्कोर के सहसंबंध का परीक्षण भी किया (वास्तव में इसके ln [सामान्य वितरण के लिए]) के साथ R में उत्तरजीविता पैकेज से कॉक्सफ फ़ंक्शन का उपयोग करके उत्तरजीविता।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.