दावों के आंकड़ों में पिछली स्थितियों से अगली चिकित्सा स्थिति की भविष्यवाणी करना


12

मैं वर्तमान में स्वास्थ्य बीमा दावों के डेटा के एक बड़े सेट के साथ काम कर रहा हूं जिसमें कुछ प्रयोगशाला और फार्मेसी दावे शामिल हैं। डेटा सेट में सबसे सुसंगत जानकारी, हालांकि, निदान (ICD-9CM) और प्रक्रिया कोड (CPT, HCSPCS, ICD-9CM) से बनी है।

मेरे लक्ष्य हैं:

  1. क्रोनिक किडनी रोग जैसी चिकित्सा स्थिति के लिए सबसे प्रभावशाली अग्रदूत की स्थिति (कोमर्बिडिटीज) की पहचान करें;
  2. इस संभावना (या संभावना) को पहचानें कि एक मरीज अतीत में उन स्थितियों के आधार पर एक चिकित्सा स्थिति विकसित करेगा;
  3. 1 और 2 जैसा ही करें, लेकिन प्रक्रियाओं और / या निदान के साथ।
  4. अधिमानतः, परिणाम एक डॉक्टर द्वारा व्याख्या योग्य होंगे

मैंने हेरिटेज हेल्थ प्राइज माइलस्टोन पेपर्स जैसी चीजों को देखा है और उनसे बहुत कुछ सीखा है, लेकिन वे हॉस्पिटलाइजेशन की भविष्यवाणी करने पर केंद्रित हैं।

तो यहाँ मेरे प्रश्न हैं: इस तरह की समस्याओं के लिए आपको क्या तरीके अच्छे लगते हैं? और, स्वास्थ्य विज्ञान और नैदानिक ​​चिकित्सा के लिए प्रासंगिक डेटा विज्ञान अनुप्रयोगों और विधियों के बारे में जानने के लिए कौन से संसाधन सबसे उपयोगी होंगे?

EDIT # 2 प्लेनटेक्स्ट टेबल जोड़ने के लिए:

CKD लक्ष्य स्थिति है, "क्रोनिक किडनी रोग", ".any" यह दर्शाता है कि उन्होंने उस समय उस स्थिति को प्राप्त कर लिया है, ".isbefore.ckd" का अर्थ है कि सीकेडी के पहले निदान से पहले उनकी यह स्थिति थी। अन्य संक्षिप्तीकरण ICD-9CM कोड समूहों द्वारा पहचानी गई अन्य स्थितियों के अनुरूप हैं। यह समूहीकरण SQL में आयात प्रक्रिया के दौरान होता है। प्रत्येक चर, patient_age के अपवाद के साथ, द्विआधारी है।


1
क्या आप कुछ उदाहरण डेटा (सादे अंग्रेजी में, कोई कोड नहीं) प्रदान कर सकते हैं?
दोस्त

मैंने अपने मूल पोस्ट में कुछ उदाहरण डेटा जोड़े। इस संस्करण में, प्रत्येक शर्त को तीन अक्षर कोड द्वारा दर्शाया गया है।
जेमी

1
आर शांत है, लेकिन बहुत मानव-पठनीय नहीं है। क्या आप टेबल के रूप में अपने डेटा के रिफ़ॉर्मेट नमूने का उपयोग कर सकते हैं (जैसे CSV या TSV प्रारूप का उपयोग करना; 5-6 कॉलम ठीक है)? इसके अलावा, चर के कुछ स्पष्टीकरण (क्या "चिंता", "फ्लू.इस्ब्रोस.कक", आदि वास्तव में मतलब है और क्या भविष्यवाणी की जानी है) बहुत मदद करेंगे।
दोस्त

1
क्या आप डेटा सेट में उपयोग किए जाने वाले मापदंडों के बारे में अधिक जानकारी प्रदान कर सकते हैं ताकि हम समझ सकें कि क्या कोई सहसंबंध है या नहीं। आपके द्वारा उल्लिखित कुछ संक्षिप्ताक्षर मेरे लिए स्पष्ट नहीं हैं। यह बहुत अच्छा होगा यदि आप हमें ऑफ़लाइन सहयोग करने के लिए अपनी ईमेल-आईडी साझा कर सकें। धन्यवाद!
जॉनगल्ट

1
यह केवल थोड़ा सा संबंधित है, लेकिन हमारे सबसे हालिया डेटा विज्ञान अन्य दावों से संबंधित अनुमानित दावों को चुनौती देते हैं। clouddera.com/content/cloudera/en/training/certification/ccp-ds/… जब समाधान जारी किया जाता है तो इसमें कुछ दिलचस्प विचार शामिल हो सकते हैं।
सीन ओवेन

जवाबों:


7

मैंने कभी मेडिकल डेटा के साथ काम नहीं किया है, लेकिन सामान्य तर्क से मैं कहूंगा कि स्वास्थ्य सेवा में चर के बीच संबंध बहुत जटिल हैं। विभिन्न मॉडल, जैसे कि यादृच्छिक वन, प्रतिगमन, आदि संबंधों के केवल भाग को पकड़ सकते हैं और दूसरों की उपेक्षा कर सकते हैं। ऐसी परिस्थितियों में सामान्य सांख्यिकीय अन्वेषण और मॉडलिंग का उपयोग करना समझ में आता है ।

उदाहरण के लिए, सबसे पहली बात जो मैं करूंगा, वह है कि संभव पूर्ववर्ती स्थितियों और निदान के बीच संबंध का पता लगाना । उदाहरण के लिए, क्रोनिक किडनी रोग कितने प्रतिशत मामलों में लंबे फ्लू से पहले हुआ था? यदि यह उच्च है, तो इसका हमेशा मतलब नहीं होता है , लेकिन यह विचार के लिए बहुत अच्छा भोजन देता है और विभिन्न स्थितियों के बीच संबंधों को बेहतर ढंग से समझने में मदद करता है।

एक और महत्वपूर्ण कदम डेटा विज़ुअलाइज़ेशन है। क्या सीकेडी महिलाओं में पुरुषों की तुलना में अधिक बार होता है? उनके निवास स्थान के बारे में क्या? उम्र के हिसाब से CKD मामलों का वितरण क्या है? बड़े डेटासेट को संख्याओं के समूह के रूप में समझ पाना कठिन है, उन्हें प्लॉट करना बहुत आसान है।

जब आपको पता चल जाए कि क्या चल रहा है, तो अपनी धारणा को जांचने के लिए परिकल्पना परीक्षण करें। यदि आप वैकल्पिक एक, बधाई के पक्ष में अशक्त परिकल्पना (मूल धारणा) को अस्वीकार करते हैं, तो आपने "कुछ वास्तविक" बना दिया है।

अंत में, जब आपको अपने डेटा की अच्छी समझ हो, तो पूरा मॉडल बनाने का प्रयास करें । यह पीजीएम की तरह कुछ सामान्य हो सकता है (जैसे मैन्युअल रूप से तैयार किए गए बायेसियन नेटवर्क), या कुछ और विशिष्ट जैसे लीनियर रिग्रेशन या एसवीएम , या कुछ भी। लेकिन किसी भी तरह से आप पहले से ही जानते होंगे कि यह मॉडल आपके डेटा से कैसे मेल खाता है और आप इसकी दक्षता को कैसे माप सकते हैं।


सांख्यिकीय दृष्टिकोण सीखने के लिए एक अच्छे शुरुआती संसाधन के रूप में मैं सेबस्टियन थ्रुन द्वारा सांख्यिकी पाठ्यक्रम में इंट्रो की सिफारिश करूंगा । हालांकि यह बहुत बुनियादी है और इसमें उन्नत विषय शामिल नहीं हैं, यह सबसे महत्वपूर्ण अवधारणाओं का वर्णन करता है और संभाव्यता सिद्धांत और आंकड़ों की व्यवस्थित समझ देता है।


इसके लिए धन्यवाद! यह मेरे द्वारा पहले ही उठाए गए कुछ कदमों की पुष्टि करता है (खोजपूर्ण विश्लेषण, परिकल्पना परीक्षण, आदि)।
जेमी

7

जबकि मैं एक डेटा वैज्ञानिक नहीं हूं, मैं नैदानिक ​​सेटिंग में काम करने वाला एक महामारी विज्ञानी हूं। आपके शोध प्रश्न में एक समयावधि (अर्थात 1 वर्ष, 10 वर्ष, जीवनकाल में सीकेडी विकसित करने की संभावनाएँ) निर्दिष्ट नहीं की गई थी।

आम तौर पर, मैं मॉडलिंग के बारे में सोचने से पहले भी कई चरणों से गुजरता हूं (एकतरफा विश्लेषण, द्विवर्षीय विश्लेषण, कॉलिनियरिटी चेक आदि)। हालांकि, एक द्विआधारी घटना (निरंतर या बाइनरी चर का उपयोग करके) की भविष्यवाणी करने की कोशिश करने के लिए सबसे अधिक इस्तेमाल किया जाने वाला तरीका लॉजिस्टिक प्रतिगमन है। यदि आप सीकेडी को एक प्रयोगशाला मूल्य (मूत्र एल्ब्यूमिन, ईजीएफआर) के रूप में देखना चाहते हैं तो आप रैखिक प्रतिगमन (निरंतर परिणाम) का उपयोग करेंगे।

जबकि इस्तेमाल की जाने वाली विधियों को आपके डेटा और प्रश्नों द्वारा सूचित किया जाना चाहिए, चिकित्सकों को ओआरएस अनुपात और जोखिम अनुपात को देखने के लिए उपयोग किया जाता है क्योंकि ये मेडिकल जर्नल जैसे एनएजेएम और जेएएमए में एसोसिएशन के सबसे अधिक सूचित उपाय हैं।

यदि आप इस समस्या पर मानव स्वास्थ्य के दृष्टिकोण से (बिजनेस इंटेलिजेंस के विपरीत) काम कर रहे हैं तो यह स्टेयरबर्ग के क्लीनिकल प्रेडिक्शन मॉडल एक उत्कृष्ट संसाधन हैं।


1
उपयोगी सुझाव के लिए धन्यवाद। मैं निश्चित रूप से उस पुस्तक की जांच करूंगा! यद्यपि मेरे पास प्रयोगशाला मूल्यों तक पहुंच है, डेटा अविश्वसनीय और छिटपुट है, इसलिए मैं उन डेटा से चिपके रहने की कोशिश कर रहा हूं जो मुझे दावों से मिल सकते हैं। चर संक्षिप्तिकरण वास्तव में निदान कोड के AHRQ क्लिनिकल वर्गीकरण सॉफ्टवेयर समूह हैं।
जेमी

3

"क्रोनिक किडनी रोग की तरह एक चिकित्सा स्थिति के लिए सबसे प्रभावशाली अग्रदूत की स्थिति (कोमोर्बिडिटी) की पहचान करें"

मुझे यकीन नहीं है कि सबसे प्रभावशाली परिस्थितियों को आईडी करना संभव है ; मुझे लगता है कि यह इस बात पर निर्भर करेगा कि आप किस मॉडल का उपयोग कर रहे हैं। कल ही मैं एक यादृच्छिक वन और एक ही डेटा के लिए एक बढ़ाया प्रतिगमन वृक्ष फिट बैठता हूं, और चर के लिए प्रत्येक मॉडल को दिए गए क्रम और सापेक्ष महत्व काफी अलग थे।


धन्यवाद, एंडी क्या आप थोड़ा विस्तार कर सकते हैं? क्या यह इसलिए है क्योंकि चर पर्याप्त विस्तार पर कब्जा नहीं करते हैं?
जेमी

मुझे पता नहीं है। मुझे लगता है कि यह निर्भर करता है कि विभिन्न मॉडल कैसे काम करते हैं।
JenSCDC

क्या आप उन कुछ समाधानों का सुझाव दे सकते हैं जिन्हें आपने आजमाया है या माना है?
जेमी

अब तक मैंने ऐसा नहीं किया है, इसलिए वहां कोई मदद नहीं की गई है। माफ़ करना।
जेनएससीडीसी

अब मैं अगले कुछ हफ्तों के लिए छुट्टी पर हूं, लेकिन जब मैं वापस लौटूंगा तो मैं इस पर गौर करूंगा क्योंकि इसने वास्तव में मेरी रुचि को बढ़ा दिया है।
JENSCDC
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.