दावों के आंकड़ों में पिछली स्थितियों से अगली चिकित्सा स्थिति की भविष्यवाणी करना

मैं वर्तमान में स्वास्थ्य बीमा दावों के डेटा के एक बड़े सेट के साथ काम कर रहा हूं जिसमें कुछ प्रयोगशाला और फार्मेसी दावे शामिल हैं। डेटा सेट में सबसे सुसंगत जानकारी, हालांकि, निदान (ICD-9CM) और प्रक्रिया कोड (CPT, HCSPCS, ICD-9CM) से बनी है।

मेरे लक्ष्य हैं:

क्रोनिक किडनी रोग जैसी चिकित्सा स्थिति के लिए सबसे प्रभावशाली अग्रदूत की स्थिति (कोमर्बिडिटीज) की पहचान करें;
इस संभावना (या संभावना) को पहचानें कि एक मरीज अतीत में उन स्थितियों के आधार पर एक चिकित्सा स्थिति विकसित करेगा;
1 और 2 जैसा ही करें, लेकिन प्रक्रियाओं और / या निदान के साथ।
अधिमानतः, परिणाम एक डॉक्टर द्वारा व्याख्या योग्य होंगे

मैंने हेरिटेज हेल्थ प्राइज माइलस्टोन पेपर्स जैसी चीजों को देखा है और उनसे बहुत कुछ सीखा है, लेकिन वे हॉस्पिटलाइजेशन की भविष्यवाणी करने पर केंद्रित हैं।

तो यहाँ मेरे प्रश्न हैं: इस तरह की समस्याओं के लिए आपको क्या तरीके अच्छे लगते हैं? और, स्वास्थ्य विज्ञान और नैदानिक चिकित्सा के लिए प्रासंगिक डेटा विज्ञान अनुप्रयोगों और विधियों के बारे में जानने के लिए कौन से संसाधन सबसे उपयोगी होंगे?

EDIT # 2 प्लेनटेक्स्ट टेबल जोड़ने के लिए:

CKD लक्ष्य स्थिति है, "क्रोनिक किडनी रोग", ".any" यह दर्शाता है कि उन्होंने उस समय उस स्थिति को प्राप्त कर लिया है, ".isbefore.ckd" का अर्थ है कि सीकेडी के पहले निदान से पहले उनकी यह स्थिति थी। अन्य संक्षिप्तीकरण ICD-9CM कोड समूहों द्वारा पहचानी गई अन्य स्थितियों के अनुरूप हैं। यह समूहीकरण SQL में आयात प्रक्रिया के दौरान होता है। प्रत्येक चर, patient_age के अपवाद के साथ, द्विआधारी है।

machine-learning r

— जेमी
स्रोत

क्या आप कुछ उदाहरण डेटा (सादे अंग्रेजी में, कोई कोड नहीं) प्रदान कर सकते हैं?

— दोस्त

मैंने अपने मूल पोस्ट में कुछ उदाहरण डेटा जोड़े। इस संस्करण में, प्रत्येक शर्त को तीन अक्षर कोड द्वारा दर्शाया गया है।

— जेमी

आर शांत है, लेकिन बहुत मानव-पठनीय नहीं है। क्या आप टेबल के रूप में अपने डेटा के रिफ़ॉर्मेट नमूने का उपयोग कर सकते हैं (जैसे CSV या TSV प्रारूप का उपयोग करना; 5-6 कॉलम ठीक है)? इसके अलावा, चर के कुछ स्पष्टीकरण (क्या "चिंता", "फ्लू.इस्ब्रोस.कक", आदि वास्तव में मतलब है और क्या भविष्यवाणी की जानी है) बहुत मदद करेंगे।

— दोस्त

क्या आप डेटा सेट में उपयोग किए जाने वाले मापदंडों के बारे में अधिक जानकारी प्रदान कर सकते हैं ताकि हम समझ सकें कि क्या कोई सहसंबंध है या नहीं। आपके द्वारा उल्लिखित कुछ संक्षिप्ताक्षर मेरे लिए स्पष्ट नहीं हैं। यह बहुत अच्छा होगा यदि आप हमें ऑफ़लाइन सहयोग करने के लिए अपनी ईमेल-आईडी साझा कर सकें। धन्यवाद!

— जॉनगल्ट

यह केवल थोड़ा सा संबंधित है, लेकिन हमारे सबसे हालिया डेटा विज्ञान अन्य दावों से संबंधित अनुमानित दावों को चुनौती देते हैं। clouddera.com/content/cloudera/en/training/certification/ccp-ds/… जब समाधान जारी किया जाता है तो इसमें कुछ दिलचस्प विचार शामिल हो सकते हैं।

— सीन ओवेन

जवाबों:

मैंने कभी मेडिकल डेटा के साथ काम नहीं किया है, लेकिन सामान्य तर्क से मैं कहूंगा कि स्वास्थ्य सेवा में चर के बीच संबंध बहुत जटिल हैं। विभिन्न मॉडल, जैसे कि यादृच्छिक वन, प्रतिगमन, आदि संबंधों के केवल भाग को पकड़ सकते हैं और दूसरों की उपेक्षा कर सकते हैं। ऐसी परिस्थितियों में सामान्य सांख्यिकीय अन्वेषण और मॉडलिंग का उपयोग करना समझ में आता है ।

उदाहरण के लिए, सबसे पहली बात जो मैं करूंगा, वह है कि संभव पूर्ववर्ती स्थितियों और निदान के बीच संबंध का पता लगाना । उदाहरण के लिए, क्रोनिक किडनी रोग कितने प्रतिशत मामलों में लंबे फ्लू से पहले हुआ था? यदि यह उच्च है, तो इसका हमेशा मतलब नहीं होता है , लेकिन यह विचार के लिए बहुत अच्छा भोजन देता है और विभिन्न स्थितियों के बीच संबंधों को बेहतर ढंग से समझने में मदद करता है।

एक और महत्वपूर्ण कदम डेटा विज़ुअलाइज़ेशन है। क्या सीकेडी महिलाओं में पुरुषों की तुलना में अधिक बार होता है? उनके निवास स्थान के बारे में क्या? उम्र के हिसाब से CKD मामलों का वितरण क्या है? बड़े डेटासेट को संख्याओं के समूह के रूप में समझ पाना कठिन है, उन्हें प्लॉट करना बहुत आसान है।

जब आपको पता चल जाए कि क्या चल रहा है, तो अपनी धारणा को जांचने के लिए परिकल्पना परीक्षण करें। यदि आप वैकल्पिक एक, बधाई के पक्ष में अशक्त परिकल्पना (मूल धारणा) को अस्वीकार करते हैं, तो आपने "कुछ वास्तविक" बना दिया है।

अंत में, जब आपको अपने डेटा की अच्छी समझ हो, तो पूरा मॉडल बनाने का प्रयास करें । यह पीजीएम की तरह कुछ सामान्य हो सकता है (जैसे मैन्युअल रूप से तैयार किए गए बायेसियन नेटवर्क), या कुछ और विशिष्ट जैसे लीनियर रिग्रेशन या एसवीएम , या कुछ भी। लेकिन किसी भी तरह से आप पहले से ही जानते होंगे कि यह मॉडल आपके डेटा से कैसे मेल खाता है और आप इसकी दक्षता को कैसे माप सकते हैं।

सांख्यिकीय दृष्टिकोण सीखने के लिए एक अच्छे शुरुआती संसाधन के रूप में मैं सेबस्टियन थ्रुन द्वारा सांख्यिकी पाठ्यक्रम में इंट्रो की सिफारिश करूंगा । हालांकि यह बहुत बुनियादी है और इसमें उन्नत विषय शामिल नहीं हैं, यह सबसे महत्वपूर्ण अवधारणाओं का वर्णन करता है और संभाव्यता सिद्धांत और आंकड़ों की व्यवस्थित समझ देता है।

— ffriend
स्रोत

इसके लिए धन्यवाद! यह मेरे द्वारा पहले ही उठाए गए कुछ कदमों की पुष्टि करता है (खोजपूर्ण विश्लेषण, परिकल्पना परीक्षण, आदि)।

— जेमी

जबकि मैं एक डेटा वैज्ञानिक नहीं हूं, मैं नैदानिक सेटिंग में काम करने वाला एक महामारी विज्ञानी हूं। आपके शोध प्रश्न में एक समयावधि (अर्थात 1 वर्ष, 10 वर्ष, जीवनकाल में सीकेडी विकसित करने की संभावनाएँ) निर्दिष्ट नहीं की गई थी।

आम तौर पर, मैं मॉडलिंग के बारे में सोचने से पहले भी कई चरणों से गुजरता हूं (एकतरफा विश्लेषण, द्विवर्षीय विश्लेषण, कॉलिनियरिटी चेक आदि)। हालांकि, एक द्विआधारी घटना (निरंतर या बाइनरी चर का उपयोग करके) की भविष्यवाणी करने की कोशिश करने के लिए सबसे अधिक इस्तेमाल किया जाने वाला तरीका लॉजिस्टिक प्रतिगमन है। यदि आप सीकेडी को एक प्रयोगशाला मूल्य (मूत्र एल्ब्यूमिन, ईजीएफआर) के रूप में देखना चाहते हैं तो आप रैखिक प्रतिगमन (निरंतर परिणाम) का उपयोग करेंगे।

जबकि इस्तेमाल की जाने वाली विधियों को आपके डेटा और प्रश्नों द्वारा सूचित किया जाना चाहिए, चिकित्सकों को ओआरएस अनुपात और जोखिम अनुपात को देखने के लिए उपयोग किया जाता है क्योंकि ये मेडिकल जर्नल जैसे एनएजेएम और जेएएमए में एसोसिएशन के सबसे अधिक सूचित उपाय हैं।

यदि आप इस समस्या पर मानव स्वास्थ्य के दृष्टिकोण से (बिजनेस इंटेलिजेंस के विपरीत) काम कर रहे हैं तो यह स्टेयरबर्ग के क्लीनिकल प्रेडिक्शन मॉडल एक उत्कृष्ट संसाधन हैं।

— दानी
स्रोत

उपयोगी सुझाव के लिए धन्यवाद। मैं निश्चित रूप से उस पुस्तक की जांच करूंगा! यद्यपि मेरे पास प्रयोगशाला मूल्यों तक पहुंच है, डेटा अविश्वसनीय और छिटपुट है, इसलिए मैं उन डेटा से चिपके रहने की कोशिश कर रहा हूं जो मुझे दावों से मिल सकते हैं। चर संक्षिप्तिकरण वास्तव में निदान कोड के AHRQ क्लिनिकल वर्गीकरण सॉफ्टवेयर समूह हैं।

— जेमी

"क्रोनिक किडनी रोग की तरह एक चिकित्सा स्थिति के लिए सबसे प्रभावशाली अग्रदूत की स्थिति (कोमोर्बिडिटी) की पहचान करें"

मुझे यकीन नहीं है कि सबसे प्रभावशाली परिस्थितियों को आईडी करना संभव है ; मुझे लगता है कि यह इस बात पर निर्भर करेगा कि आप किस मॉडल का उपयोग कर रहे हैं। कल ही मैं एक यादृच्छिक वन और एक ही डेटा के लिए एक बढ़ाया प्रतिगमन वृक्ष फिट बैठता हूं, और चर के लिए प्रत्येक मॉडल को दिए गए क्रम और सापेक्ष महत्व काफी अलग थे।

— JenSCDC
स्रोत

धन्यवाद, एंडी क्या आप थोड़ा विस्तार कर सकते हैं? क्या यह इसलिए है क्योंकि चर पर्याप्त विस्तार पर कब्जा नहीं करते हैं?

— जेमी

मुझे पता नहीं है। मुझे लगता है कि यह निर्भर करता है कि विभिन्न मॉडल कैसे काम करते हैं।

— JenSCDC

क्या आप उन कुछ समाधानों का सुझाव दे सकते हैं जिन्हें आपने आजमाया है या माना है?

— जेमी

अब तक मैंने ऐसा नहीं किया है, इसलिए वहां कोई मदद नहीं की गई है। माफ़ करना।

— जेनएससीडीसी

अब मैं अगले कुछ हफ्तों के लिए छुट्टी पर हूं, लेकिन जब मैं वापस लौटूंगा तो मैं इस पर गौर करूंगा क्योंकि इसने वास्तव में मेरी रुचि को बढ़ा दिया है।

— JENSCDC