समूहों के बीच औसतन उत्तरजीविता की तुलना कैसे करें?


12

मैं एक प्रकार के कैंसर के लिए अलग-अलग राज्यों में कापलान-मायर का उपयोग करके मध्यजीविता के अस्तित्व की तलाश कर रहा हूं। राज्यों के बीच काफी बड़े अंतर हैं। मैं सभी राज्यों के बीच औसतन उत्तरजीविता की तुलना कैसे कर सकता हूं और यह निर्धारित कर सकता हूं कि देश भर में औसत मध्ययुगीन अस्तित्व से काफी भिन्न कौन हैं?


क्या आप नमूना आकार, समय सीमा,% अस्तित्व आदि के बारे में कुछ संकेत दे सकते हैं ताकि हम आपके अध्ययन के डिजाइन के बारे में बेहतर विचार प्राप्त कर सकें?
chl

क्या डेटा में सेंसर किए गए मूल्य हैं - सबसे बड़े मूल्यों के अलावा?
रोनफ

डेटा में वास्तव में सेंसर किए गए मूल्य हैं और कुल आबादी लगभग 1500 है, औसत कुल मिलाकर अस्तित्व 18 महीने (सीमा 300-600 दिन) है ... समय सीमा 2000-2007 की अवधि है।
मिशा

जवाबों:


6

कपलान-मीयर उत्तरजीविता वक्र के साथ ध्यान रखने वाली एक बात यह है कि यह मूल रूप से वर्णनात्मक है न कि हीन । यह अविश्वसनीय रूप से लचीले मॉडल के साथ डेटा का एक कार्य है, जो इसके पीछे निहित है। यह एक ताकत है क्योंकि इसका मतलब है कि वस्तुतः कोई धारणा नहीं है जिसे तोड़ा जा सकता है, लेकिन एक कमजोरी है क्योंकि इसे सामान्य करना कठिन है, और यह "शोर" के साथ-साथ "सिग्नल" को भी फिट करता है। यदि आप एक अनुमान लगाना चाहते हैं, तो आपको मूल रूप से कुछ ऐसा परिचय देना होगा जो अज्ञात है जिसे आप जानना चाहते हैं।

मध्ययुगीन जीवित रहने के समय की तुलना करने का एक तरीका यह है कि निम्नलिखित मान्यताओं को बनाया जाए:

  1. मेरे पास प्रत्येक राज्यों के लिए उत्तरजीविता समय का अनुमान है, जो वक्र द्वारा दिया गया है। मैंtii
  2. मैं इस अनुमान के बराबर होने के लिए , वास्तविक औसत उत्तरजीविता समय, उम्मीद करता हूं । E ( T i | t i ) = t iTiE(Ti|ti)=ti
  3. मैं 100% निश्चित हूं कि असली मंझले अस्तित्व का समय सकारात्मक है। Pr(Ti>0)=1

अब इन मान्यताओं का उपयोग करने का "सबसे रूढ़िवादी" तरीका अधिकतम एन्ट्रापी का सिद्धांत है, इसलिए आप इसे प्राप्त करें:

p(Ti|ti)=Kexp(λTi)

जहाँ और को ऐसे चुना जाता है कि PDF सामान्यीकृत हो, और अपेक्षित मान । अब हमारे पास है:λ टी मैंKλti

= कश्मीर [ - एक्स पी ( - λ टी मैं )

1=0p(Ti|ti)dTi=K0exp(λTi)dTi
( टी आई ) = 1
=K[exp(λTi)λ]Ti=0Ti==KλK=λ
और अब हमारे पासE(Ti)=1λλ=ti1

और इसलिए आपके पास प्रत्येक राज्य के लिए संभाव्यता वितरण का एक सेट है।

p(Ti|ti)=1tiexp(Titi)(i=1,,N)

जो एक संयुक्त संभावना वितरण देते हैं:

p(T1,T2,,TN|t1,t2,,tN)=i=1N1tiexp(Titi)

अब लगता है कि आप परिकल्पना , जहां का परीक्षण करना चाहते हैं। औसत मध्यजीवी समय है। के खिलाफ परीक्षण करने के लिए गंभीर वैकल्पिक परिकल्पना "हर राज्य एक अद्वितीय और सुंदर हिमपात का एक खंड है" परिकल्पना क्योंकि यह है सबसे अधिक संभावना वाला विकल्प, और इस प्रकार सरल परिकल्पना (एक "मिनिमैक्स" परीक्षण) में जाने में खोई गई जानकारी का प्रतिनिधित्व करता है। सरल परिकल्पना के खिलाफ सबूतों का माप विषम अनुपात द्वारा दिया गया है:¯ टी = 1H0:T1=T2==TN=t¯एच:टी1=टी1,...,टीएन=टीएनt¯=1Ni=1NtiHA:T1=t1,,TN=tN

= [ Π एन मैं = 1 1

O(HA|H0)=p(T1=t1,T2=t2,,TN=tN|t1,t2,,tN)p(T1=t¯,T2=t¯,,TN=t¯|t1,t2,,tN)
=[Πमैं=1एन1टीमैं]एक्सपी(-Σमैं=1एनटीमैंटीमैं)[Πमैं=1एन1टीमैं]एक्सपी(-Σमैं=1एनटी¯टीमैं)=एक्सपी(एन[टी¯टीआर-1])

कहाँ पे

टीआर=[1एनΣमैं=1एनटीमैं-1]-1टी¯

हार्मोनिक मतलब है। ध्यान दें कि ऑड्स हमेशा सही फिट का पक्ष लेंगे, लेकिन बहुत ज्यादा नहीं अगर मध्ययुगीन उत्तरजीविता समय काफी करीब है। इसके अलावा, यह आपको इस विशेष परिकल्पना परीक्षण के साक्ष्य को बताने का एक सीधा तरीका देता है:

१-३ मान्यताओं में की अधिकतम पूरे राज्यों में समान अस्तित्व के खिलाफहे(एच|एच0):1

इसे एक निर्णय नियम, हानि फ़ंक्शन, उपयोगिता फ़ंक्शन आदि के साथ मिलाएं, जो कहता है कि सरल परिकल्पना को स्वीकार करना कितना फायदेमंद है, और आपको अपना निष्कर्ष मिल गया है!

आपके द्वारा परीक्षण की जाने वाली परिकल्पना की मात्रा की कोई सीमा नहीं है, और इसके लिए समान संभावनाएं दे सकते हैं। संभव "सच्चे मूल्यों" के एक अलग सेट को निर्दिष्ट करने के लिए बस बदलें । आप परिकल्पना को चुनकर "महत्व परीक्षण" कर सकते हैं:एच0

एचएस,मैं:टीमैं=टीमैं,टीजे=टी=टी¯(मैं)=1एन-1Σजेमैंटीजे

इसलिए यह परिकल्पना मौखिक रूप से है "राज्य में अलग-अलग मध्ययुगीन जीवित रहने की दर है, लेकिन अन्य सभी राज्य समान हैं"। और फिर मैंने ऊपर किया ऑड्स अनुपात गणना फिर से करें। यद्यपि आपको इस बारे में सावधान रहना चाहिए कि वैकल्पिक परिकल्पना क्या है। इनमें से किसी एक के लिए "उचित" इस अर्थ में है कि वे ऐसे प्रश्न हो सकते हैं, जिनका उत्तर देने में आपकी रुचि हो (और वे आम तौर पर अलग-अलग होंगे)मैं

  • मेरा ऊपर परिभाषित किया गया - सही फिट की तुलना में कितना खराब है ? एच एस , मैंएचएचएस,मैं
  • मेरे ऊपर परिभाषित किया गया - औसत फिट की तुलना में कितना बेहतर है ? एच एच एस , आईएच0एचएस,मैं
  • एक अलग - State की तुलना में State "अधिक भिन्न" कितना है ? के मैंएचएस,मैं

अब एक बात जो यहाँ नज़र आ रही है, वह है राज्यों के बीच संबंध - यह संरचना मानती है कि एक राज्य में औसतन जीवित रहने की दर को जानने से आपको दूसरे राज्य में औसतन जीवित रहने की दर के बारे में कुछ नहीं पता चलता है। हालांकि यह "बुरा" लग सकता है लेकिन इसे सुधारना मुश्किल नहीं है, और उपरोक्त गणना अच्छे प्रारंभिक परिणाम हैं जिनकी गणना करना आसान है।

राज्यों के बीच संबंध जोड़ने से संभावना मॉडल बदल जाएंगे, और आप प्रभावी रूप से मध्ययुगीन जीवित रहने के समय के कुछ "पूलिंग" देखेंगे। विश्लेषण में सहसंबंधों को शामिल करने का एक तरीका यह है कि वास्तविक अस्तित्व के समय को दो घटकों, एक "सामान्य भाग" या "प्रवृत्ति" और एक "व्यक्तिगत भाग" में अलग किया जाए:

टीमैं=टी+यूमैं

और फिर सभी यूनिटों पर औसत शून्य लिए विवश करें और अज्ञात भिन्नता को एक पूर्व विवरण के उपयोग से एकीकृत किया जाए जो आपको बताए गए डेटा के अवलोकन से पहले व्यक्तिगत परिवर्तनशीलता के बारे में क्या ज्ञान है, या यदि आप पहले jerereys। कुछ भी नहीं पता है, और आधा पुच्छ अगर jeffreys समस्याओं का कारण बनता है)। σयूमैंσ


(+1) बहुत दिलचस्प। आपकी पोस्ट ने मुझे अपने उत्तर में एक टिप्पणी डालने के लिए मजबूर कर दिया।
GaBorgulya

शायद मैंने इसे याद किया है, लेकिन कहां परिभाषित किया गया है? 1
कार्डिनल

@ कार्डिनल, मेरी माफी - इसकी एक टाइपो। हटा दिया जाएगा
probabilityislogic

कोई माफी आवश्यक नहीं अगर पढ़ने के दौरान मैंने इस पर ध्यान नहीं दिया या कुछ स्पष्ट याद नहीं आ रहा था तो बस यकीन नहीं था।
कार्डिनल

4

मैंने सोचा कि मैं इस विषय में सिर्फ इतना जोड़ता हूं कि आप सेंसरिंग के साथ मात्रात्मक प्रतिगमन में दिलचस्पी ले सकते हैं। बोताई और झांग 2010 ने एक "लाप्लास रिग्रेशन" का प्रस्ताव रखा जो इस कार्य को कर सकता है, आप यहां इस पर एक पीडीएफ पा सकते हैं । इसके लिए स्टाटा के लिए एक पैकेज है, यह अभी तक आर के लिए अनुवादित नहीं हुआ है, हालांकि आर में क्वांटग्राम पैकेज में सेंसर किए गए क्वांटाइल रिग्रेशन, क्रैक के लिए एक फ़ंक्शन है , जो एक विकल्प हो सकता है।

मुझे लगता है कि दृष्टिकोण बहुत दिलचस्प है और रोगियों के लिए बहुत अधिक सहज हो सकता है जो खतरों को कम करते हैं। उदाहरण के लिए यह जानते हुए कि दवा पर 50% 2 महीने तक जीवित रहते हैं, जो दवा नहीं लेते हैं और दुष्प्रभाव आपको अस्पताल में 1-2 महीने रहने के लिए मजबूर करते हैं, जिससे इलाज का विकल्प बहुत आसान हो सकता है।


मैं "लाप्लास रिग्रेशन" नहीं जानता, लेकिन आपके 2 पैरा के बारे में मुझे आश्चर्य है कि अगर मैं इसे सही तरीके से समझ रहा हूं। आमतौर पर उत्तरजीविता विश्लेषण (त्वरित विफलता समय के संदर्भ में सोच), हम कुछ इस तरह कहेंगे कि 'दवा समूह के लिए 50 वाँ प्रतिशतक नियंत्रण समूह के लिए 50 वें% की तुलना में 2 महीने बाद आता है।' है कि आप क्या मतलब है, या LR के उत्पादन एक अलग व्याख्या वहन करती है?
गूँग - मोनिका

@gung: मुझे लगता है कि आप अपनी व्याख्या में सही हैं - पाठ को बदल दिया, बेहतर? मैंने स्वयं प्रतिगमन मॉडल का उपयोग नहीं किया है, हालांकि मैंने उन्हें हाल ही में एक कोर्स में सामना किया है। टीटी नियमित कॉक्स-मॉडल का एक दिलचस्प विकल्प है जो मैंने बहुत उपयोग किया है। हालाँकि मुझे शायद इस विचार को पचाने में अधिक समय बिताने की ज़रूरत है कि मुझे लगता है कि मेरे लिए अपने रोगियों को समझाना आसान है क्योंकि मैं अपने रोगियों को समझाते समय अक्सर केएम घटता का उपयोग करता हूं। एचआर मांग करता है कि आप वास्तव में रिश्तेदार और पूर्ण जोखिमों के बीच अंतर को समझते हैं - एक अवधारणा जो समझाने में कुछ समय ले सकती है ...
मैक्स गॉर्डन


लिंक के लिए धन्यवाद @ मिशा। लेखक का यहाँ एक उत्तर है: onlinelibrary.wiley.com/doi/10.1002/bimj.201100103/abstract
मैक्स गॉर्डन

3

सबसे पहले मैं आंकड़ों की कल्पना करूंगा: प्रत्येक राज्य में मध्ययुगीन जीवित लोगों के लिए विश्वास अंतराल और मानक त्रुटियों की गणना करें और फ़नल प्लॉट का उपयोग करके एक वन प्लॉट, मंझले और उनके एसई पर सीआई दिखाएं।

देश भर में "औसत माध्य अस्तित्व" एक मात्रा है जो डेटा से अनुमानित है और इस प्रकार अनिश्चितता है इसलिए आप इसे महत्व परीक्षण के दौरान एक तीव्र संदर्भ मूल्य के रूप में नहीं ले सकते। मीन-ऑफ-ऑल दृष्टिकोण के साथ एक अन्य कठिनाई यह है कि जब आप एक राज्य मंझले की तुलना करते हैं तो आप माध्यिका की तुलना उस मात्रा से कर रहे हैं जिसमें पहले से ही एक घटक के रूप में वह मात्रा शामिल है। तो यह सब करने के लिए प्रत्येक राज्य की तुलना में आसान है अन्य संयुक्त राज्यों। यह प्रत्येक राज्य के लिए लॉग रैंक टेस्ट (या इसके विकल्प) का प्रदर्शन करके किया जा सकता है।
(संभाव्यता के उत्तर को पढ़ने के बाद संपादित करें: लॉग रैंक टेस्ट दो (या अधिक) समूहों में उत्तरजीविता की तुलना करता है, लेकिन यह कड़ाई से मध्यस्थ की तुलना में नहीं है। यदि आप सुनिश्चित हैं कि यह मध्यिका है जिसकी आप तुलना करना चाहते हैं। आप उसके समीकरणों पर भरोसा कर सकते हैं या यहाँ भी उपयोग कर सकते हैं)

आपने अपने प्रश्न [एकाधिक तुलनाओं] को लेबल किया है, इसलिए मैं मानता हूं कि आप अपने p मानों को इस तरह से समायोजित (बढ़ाना) करना चाहते हैं कि यदि आपको कम से कम एक समायोजित p मान 5% से कम दिखाई दे तो आप यह निष्कर्ष निकाल सकते हैं कि "राज्यों में औसत उत्तरजीविता है 5% महत्व के स्तर पर नहीं के बराबर ”। आप बोनफ़्रोनी जैसे सामान्य और अत्यधिक रूढ़िवादी तरीकों का उपयोग कर सकते हैं, लेकिन इष्टतम सुधार योजना पी मूल्यों के सहसंबंधों को ध्यान में रखेगी। मुझे लगता है कि आप सुधार योजना में किसी भी प्राथमिक ज्ञान का निर्माण नहीं करना चाहते हैं, इसलिए मैं एक ऐसी योजना पर चर्चा करूंगा जहां समायोजन प्रत्येक सी मान को उसी सी स्थिरांक से गुणा कर रहा है।

जैसा कि मुझे नहीं पता है कि इष्टतम सी मल्टीप्लियर प्राप्त करने के लिए सूत्र कैसे प्राप्त किया जाए, मैं रेज़मैपलिंग का उपयोग करूंगा । अशक्त परिकल्पना के तहत कि जीवित रहने की विशेषताएं सभी राज्यों में समान हैं, इसलिए आप कैंसर के मामलों के राज्य लेबल को पुन: व्यवस्थित कर सकते हैं और मध्यस्थों की पुनरावृत्ति कर सकते हैं। राज्य पी मानों के कई पुनर्विकसित वैक्टर प्राप्त करने के बाद, मैं संख्यात्मक रूप से सी मल्टीप्लीयर पाऊंगा जिसके नीचे 95% से कम वैक्टर शामिल नहीं हैं, जिनमें महत्वपूर्ण पी मान और ऊपर 95% अधिक है। जबकि सीमा चौड़ी दिखती है मैं बार-बार परिमाण की एक क्रम से रेजम की संख्या में वृद्धि करेगा।


डेटा को विज़ुअलाइज़ करने के बारे में अच्छी सलाह। (+1)
प्रोबेबिलिसलॉजिक

@probabilityislogic धन्यवाद! मैं आलोचना का भी स्वागत करता हूं, खासकर अगर रचनात्मक।
GaBorgulya

एकमात्र आलोचना मेरे पास पी-मूल्यों का उपयोग है, लेकिन यह आपके उत्तर में "मेरे कंधे पर चिप" से अधिक है - ऐसा लगता है कि यदि आप पी-मूल्यों का उपयोग करने जा रहे हैं, तो आप जो सलाह देते हैं वह अच्छा है। मुझे नहीं लगता कि पी-वैल्यू का उपयोग करना अच्छा है। पी-मूल्यों के बारे में टिप्पणियों में @eduardo के साथ मेरे आदान-प्रदान के लिए यहां देखें
प्रोबैबिलिसोलॉजिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.