एक कॉक्स मॉडल के साथ आर में आरओसी-विश्लेषण कैसे करें


10

मैंने कुछ कॉक्स रिग्रेशन मॉडल बनाए हैं और मैं देखना चाहता हूं कि ये मॉडल कितना अच्छा प्रदर्शन करते हैं और मैंने सोचा कि शायद इस लेख के उपयोग के समान आरओसी-कर्व या सी-स्टैटिस्टिक उपयोगी हो सकता है:

JN Armitage och JH van der Meulen, "ब्रिटिश कॉलेज ऑफ सर्जरी, वॉल्यूम के रॉयल कॉलेज ऑफ सर्जन्स शार्ल्सन स्कोर" के साथ प्रशासनिक डेटा का उपयोग करते हुए सर्जिकल रोगियों में सह mit रुग्णता की पहचान करना। 97, संख्या। 5, एस.एस. 772-781, मेजर 2010।

Armitage ने लॉजिस्टिक रिग्रेशन का उपयोग किया लेकिन मुझे आश्चर्य है कि यदि उत्तरजीविता पैकेज से किसी मॉडल का उपयोग करना संभव है, तो सर्वाइवर सीआरसी इस बात का संकेत देता है लेकिन मैं यह पता नहीं लगा सकता कि नियमित कॉक्स रिग्रेशन के साथ कैसे काम किया जाए।

मैं आभारी रहूंगा अगर कोई मुझे दिखाएगा कि इस उदाहरण पर आरओसी-विश्लेषण कैसे करें:

library(survival)
data(veteran)

attach(veteran)
surv <- Surv(time, status)
fit <- coxph(surv ~ trt + age + prior, data=veteran)
summary(fit)

यदि संभव हो तो मैं कच्चे सी-स्टैटिक्स आउटपुट और एक अच्छा ग्राफ दोनों की सराहना करूंगा

धन्यवाद!

अपडेट करें

जवाब के लिए बहुत बहुत धन्यवाद। @ डविन: मैं सिर्फ यह सुनिश्चित करना चाहूंगा कि मैंने आपके उत्तर का चयन करने से पहले इसे सही समझा है।

गणना मुझे डीडिन के सुझाव के अनुसार समझ में आई:

library(survival)
library(rms)
data(veteran)

fit.cph <- cph(surv ~ trt + age + prior, data=veteran, x=TRUE, y=TRUE, surv=TRUE)

# Summary fails!?
#summary(fit.cph)

# Get the Dxy
v <- validate(fit.cph, dxy=TRUE, B=100)
# Is this the correct value?
Dxy = v[rownames(v)=="Dxy", colnames(v)=="index.corrected"]

# The c-statistic according to the Dxy=2(c-0.5)
Dxy/2+0.5

मैं मान्य फ़ंक्शन और बूटस्ट्रैपिंग से अपरिचित हूं, लेकिन प्रोफ को देखने के बाद। फ्रैंक हैरेल का यहां जवाब आर-हेल्प पर मुझे लगा कि यह शायद डिक्सी पाने का तरीका है। मान्य राज्यों के लिए मदद:

... सोमरस का Dxy रैंक सहसंबंध प्रत्येक पुनरावर्तन पर गणना करने के लिए है (यह संभावना आधारित आंकड़ों की तुलना में थोड़ा अधिक समय लेता है)। Dxy पंक्ति के अनुरूप मान 2 * (C - 0.5) के बराबर होते हैं, जहाँ C, C- अनुक्रमणिका या समवर्ती संभाव्यता होता है।

मुझे लगता है कि मैं ज्यादातर कॉलम से भ्रमित हूं। मुझे लगा कि सही मूल्य वह है जिसका मुझे उपयोग करना चाहिए लेकिन मुझे वास्तव में मान्य आउटपुट समझ में नहीं आया है:

      index.orig training    test optimism index.corrected   n
Dxy      -0.0137  -0.0715 -0.0071  -0.0644          0.0507 100
R2        0.0079   0.0278  0.0037   0.0242         -0.0162 100
Slope     1.0000   1.0000  0.2939   0.7061          0.2939 100
...

में आर-मदद सवाल मैं समझ गया है कि मैं अगर मैं तबके है, लेकिन मैं क्या सत्यापित समारोह में "u = 60" पैरामीटर का उद्देश्य है पर अनिश्चित हूँ CPH में "surv = TRUE" होना चाहिए। यदि आप मुझे ये समझने और जाँचने में मदद कर सकते हैं कि मैंने कोई गलती नहीं की है तो मैं आपका आभारी रहूँगा।


2
मैं शायद rms पैकेज और इसके cph()कमांड पर एक नज़र डालूंगा
chl

2
index.correctedपर बल दिया जाना चाहिए। ये भविष्य के संभावित प्रदर्शन का अनुमान हैं। u=60जरूरत नहीं है validateक्योंकि आपके पास कोई स्ट्रैटा नहीं है। यदि आपके पास स्ट्रैट था, तो सर्वाइवल कर्व्स पार कर सकते हैं, और आपको सामान्यीकृत आरओसी क्षेत्र प्राप्त करने के लिए एक विशेष समय बिंदु निर्दिष्ट करने की आवश्यकता है।
फ्रैंक हरेल

जवाबों:


2

@chl ने आपके प्रश्न के विशिष्ट उत्तर की ओर इशारा किया है। 'Rms' पैकेज का cphफंक्शन एक सोमरस-डी का उत्पादन करेगा, जिसे तुच्छ रूप से सी-इंडेक्स में बदला जा सकता है। हालांकि, हैरेल (जिन्होंने जैव-रासायनिक अभ्यास के लिए सी-इंडेक्स की शुरुआत की) का मानना ​​है कि यह भविष्यवाणियां उपायों के आकलन के लिए एक सामान्य रणनीति के रूप में नासमझी है, क्योंकि इसमें विकल्पों के बीच भेदभाव के लिए कम शक्ति है। आपके पद्धति संबंधी मार्गदर्शन के लिए सर्जिकल साहित्य पर भरोसा करने के बजाय, यह हैरेल के पाठ में संचित ज्ञान, "रिग्रेशन मॉडलिंग रणनीतियाँ" या स्टीयरबर्ग के "क्लिनिकल प्रेडिक्शन मॉडल" को समझाना होगा।


4
नोट के लिए धन्यवाद। मुझे लगता है कि और एक एकल पूर्व-निर्दिष्ट मॉडल के भविष्य कहनेवाला भेदभाव का वर्णन करने के लिए खराब नहीं हैं। लेकिन जैसा कि आपने कहा, उनके पास इससे अधिक करने के लिए शक्ति की कमी है। DxyC
फ्रैंक हरेल

आपके उत्तर के लिए धन्यवाद, मेरी स्थिति यह है कि मेरे पास तीन अलग-अलग स्कोर हैं जिनकी मैं तुलना करना चाहता हूं और देखें कि वे कैसा प्रदर्शन करते हैं। मुझे सोमरस-डी भाग में देखने का समय नहीं मिला है और मेरे पास समय होने पर मैं वापस मिल जाऊंगा (मुझे त्वरित रूप से पता था और कुछ भी उपयोगी नहीं मिला)। मैंने @FrankHarrell पुस्तक, "प्रतिगमन मॉडलिंग रणनीतियाँ", आईएसबीएन 13: 978-0387952321 पर भी आदेश दिया है, और उम्मीद है कि यह मुझे मेरी पसंद में मार्गदर्शन करेगी।
मैक्स गॉर्डन

2
चूंकि Dxy = 2 * (c- 0.5) c दिए गए Dxy की गणना तुच्छ होनी चाहिए।
डीडब्ल्यू

3

आपकी आवश्यकताओं के आधार पर, एक बड़े मॉडल के अंदर एक मॉडल एम्बेड करना और अतिरिक्त चर के अतिरिक्त मूल्य के लिए "चंक" संभावना अनुपात परीक्षण करना आपको एक शक्तिशाली परीक्षा देगा। मेरी पुस्तक इस दृष्टिकोण ("पर्याप्तता सूचकांक") से उत्पन्न एक सूचकांक के बारे में बात करती है।χ2


मुझे सही दिशा में मार्गदर्शन करने के लिए +1। मैंने अभी C-आँकड़ा और अधिक विस्तृत स्कोर करना समाप्त किया है, जिसे मैं देख रहा हूं, जिसमें 0.4365081 का C-आँकड़ा था जबकि दूसरे में 0.4414625 था (मुझे लगता है कि मुझे अपने मामले में 0.5-Dxy / 2 की गिनती करनी चाहिए)। मैंने अपने 140 000 नमूने पर गणना करते हुए काफी समय लिया; मुझे बूटस्ट्रैप को 10 तक कम करना था और मुझे निश्चित नहीं है कि इसका क्या प्रभाव है। मैं आपकी पुस्तक (यह मेल में है) को पढ़ने के लिए उत्सुक हूं और उम्मीद है कि यह मुझे कार्यप्रणाली को बेहतर ढंग से समझने और पर्याप्तता सूचकांक के साथ सी-स्टेटिस्टिक की तुलना करने में मदद करेगा।
मैक्स गॉर्डन

अच्छा। यह बताना आसान नहीं है कि .44 बनाम .43 का अर्थ अनुमानित मूल्यों के वितरण को देखे बिना बहुत कुछ है।
फ्रैंक हरेल

मैं समझता हूं कि इस तरह की संख्याओं पर टिप्पणी करना कठिन है। मैं वितरण में देखने की कोशिश करूँगा। परिणाम की मेरी मुख्य व्याख्या यह है कि मेरे मॉडल द्वारा बहुत कम समझाया गया है और भले ही एक छोटा सा अंतर है, लेकिन यह संभवतः बहुत महत्वपूर्ण नहीं है। यह दिलचस्प होगा कि उत्तरजीविता सेटिंग में क्या उम्मीद की जाए - .8 के मूल्य तक पहुंचना। जैसा कि उन्होंने विश्लेषण में किया था कि मैंने अपने प्रश्न में संदर्भित किया था, बहुत दूर लगता है ... लेकिन फिर से मेरा अस्तित्व एक प्रत्यारोपित कृत्रिम अंग और रोगी जीवित नहीं है। उन्होंने लॉजिस्टिक रिग्रेशन का भी इस्तेमाल किया जो शायद अनुमान बदल देता है।
मैक्स गॉर्डन

लॉजिस्टिक रिग्रेशन काम नहीं करेगा यदि समय महत्वपूर्ण है या अनुवर्ती समय विषयों में भिन्न होता है। मूल प्रश्न पर वापस जाएं, पूर्वानुमानित जोखिमों का एक संकीर्ण वितरण होगा यदि मॉडल द्वारा बहुत कम भिन्नता को समझाया गया है।
फ्रैंक हरेल

बस आपकी पुस्तक मिल गई है ... मैंने उत्तरजीविता भाग में एक त्वरित लॉक किया है, लेकिन जब मैं अध्याय 20 में आपके केस स्टडी का प्रयास करता हूं, लेकिन मुझे अशुद्ध (w, sz) भाग पर त्रुटि मिलती है: 'चर sz नहीं है a नाम () विशेषता '। मैंने पीछा किया। 8: getHdata (प्रोस्टेट) (पुस्तक में वेबसाइट नहीं ढूंढ सका) के साथ डेटाफ्रेम लोड किया, w किया - <ट्रांसकैन (~ sz + sg + ap + sbp + dbp + age + wt + hg + ekg + pf + bm + hx, लगाया = टी, रूपांतरित = T, imcat = "ट्री", डेटा = प्रोस्टेट) लेकिन मुझे नामकरण पर कुछ भी नहीं मिला ...
Max Gordon
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.