श्रेणीबद्ध चर के 'पता नहीं है / इनकार' के स्तर का इलाज


9

मैं लॉजिस्टिक रिग्रेशन का उपयोग करके डायबिटीज प्रेडिक्शन मॉडलिंग कर रहा हूं। उपयोग किया गया डेटासेट सेंटर फॉर डिजीज कंट्रोल (CDC) का बिहेवियरल रिस्क फैक्टर सर्विलांस सिस्टम (BRFSS) है। स्वतंत्र चर में से एक उच्च रक्तचाप है। यह निम्न स्तरों 'हां', 'नहीं', 'न जाने / मना कर दिया' के साथ स्पष्ट है। क्या मुझे मॉडल बनाते समय उन पंक्तियों को know डोंट नो / रिफंड ’के साथ हटा देना चाहिए? मॉडल से उन पंक्तियों को रखने या हटाने के लिए क्या फर्क पड़ता है?

जवाबों:


6

मैं हाल ही में उसी प्रश्न के बारे में सोच रहा था जब नवीनतम राष्ट्रीय अस्पताल डिस्चार्ज सर्वेक्षण डेटा का विश्लेषण कर रहा था । कई चर में वैवाहिक जीवन की स्थिति और प्रक्रिया के प्रकार जैसे महत्वपूर्ण लापता मूल्य हैं। यह मुद्दा मेरे ध्यान में आया क्योंकि इन श्रेणियों ने मेरे द्वारा चलाए जा रहे अधिकांश लॉजिस्टिक प्रतिगमन विश्लेषण में मजबूत (और महत्वपूर्ण) प्रभावों के साथ दिखाया।

एक आश्चर्य है कि क्यों करने के लिए इच्छुक हैएक लापता कोड दिया गया है। उदाहरण के लिए, वैवाहिक स्थिति के मामले में, यह प्रशंसनीय है कि इस जानकारी को प्रदान करने में विफलता को सामाजिक आर्थिक स्थिति या बीमारी के प्रकार जैसे महत्वपूर्ण कारकों से जोड़ा जा सकता है। उच्च रक्तचाप के आपके मामले में, हमें यह पूछना चाहिए कि मूल्य ज्ञात या अस्वीकार क्यों नहीं किया जाएगा? यह संस्था में प्रथाओं से संबंधित हो सकता है (शायद ढीली प्रक्रियाओं को दर्शाते हुए) या यहां तक ​​कि व्यक्तियों (जैसे धार्मिक विश्वास) के लिए भी। बदले में उन विशेषताओं को मधुमेह के साथ जोड़ा जा सकता है। इसलिए, इन मूल्यों को लापता के रूप में कोड करने के बजाय (जैसे कि उन्हें विश्लेषण से पूरी तरह से बाहर करना) या मूल्यों को लागू करने का प्रयास करना (जो प्रभावी रूप से वे जो जानकारी प्रदान करते हैं और परिणामों को पूर्वाग्रहित कर सकते हैं) को नाकाम करने के बजाय इसे जारी रखना विवेकपूर्ण लगता है। यह वास्तव में करने के लिए कोई और अधिक कठिन नहीं है: आपको केवल यह सुनिश्चित करना है कि इस चर को श्रेणीबद्ध माना जाता है और आपको प्रतिगमन आउटपुट में एक और गुणांक मिलेगा। इसके अलावा, मुझे संदेह है कि BRFSS डेटासेट काफी बड़े हैं कि आपको बिजली के बारे में चिंता करने की ज़रूरत नहीं है।


2
इसके अलावा, डीके का वास्तविक अर्थ हो सकता है, अर्थात वे व्यक्ति स्वास्थ्य के प्रति सचेत नहीं हैं और वे जोखिम में हो सकते हैं।
ब्रेंडन बर्टेल्सन

2

पहले आपको यह सोचना होगा कि यदि लापता डेटा पूरी तरह से रैंडम (MCAR) में गुम है, तो रैंडम (MAR) में गायब है या रैंडम (MNAR) में गायब नहीं है क्योंकि विलोपन (दूसरे शब्दों में पूर्ण-केस विश्लेषण) से पक्षपातपूर्ण परिणाम हो सकते हैं। विकल्प व्युत्क्रम प्रायोजन भार, कई प्रतिरूपण, पूर्ण-संभावना विधि और दोहरे-मजबूत तरीके हैं। जंजीर समीकरणों (MICE) के साथ कई आरोपण अगर अक्सर जाने का सबसे आसान तरीका है।


धन्यवाद। यह एक सर्वेक्षण डेटा है और मुझे यकीन नहीं है कि यह MAR या MNAR है। उदाहरण के लिए, एक चर है जो कहता है 1) "किसी व्यक्ति को मधुमेह है या नहीं?" और दूसरा चर (2) क्या वह इंसुलिन ले रहा है? मैं देखता हूं कि चर (2) में केवल तभी प्रविष्टियां होती हैं जब चर (1) 'हां' (यानी एक व्यक्ति मधुमेह है)। अन्य (2) खाली है। अतिरिक्त रूप से (2) में 'हां', 'नहीं', 'ना जाने / इनकार' को मधुमेह के मामले के लिए प्रतिक्रिया के रूप में लिखा गया है। तो मैं खाली कोशिकाओं का इलाज कैसे करूं और 'पता नहीं / इनकार' सर्वेक्षण प्रतिक्रियाएं?
user3897

मैं कई प्रतिरूपण के बारे में सीखना चाहूंगा और एक ऑनलाइन शिक्षण सामग्री की तलाश में था। क्या आप MI के लिए कुछ सीखने की सामग्री सुझा सकते हैं?
user3897

0

क्या आपके पास यह सोचने का कोई कारण है कि मधुमेह के साथ अध्ययन विषय डीके / आर प्रतिक्रिया के साथ समाप्त होने की अधिक संभावना थी या कम थी? यदि नहीं (और मुझे यह जानकर बहुत आश्चर्य होगा कि आपने ऐसा किया है), तो इन मामलों को छोड़कर मॉडल w / o में इस भविष्यवक्ता सहित शोर में परिणाम होगा। यही है, आप अपने मूल्यांकन में कम सटीकता के साथ समाप्त करेंगे कि कैसे "हाँ" बनाम "नहीं" मधुमेह की अनुमानित संभावना को प्रभावित करता है (क्योंकि आप "हाँ" या "नहीं" के प्रभाव को मॉडल करने की कोशिश करेंगे। बनाम यादृच्छिक डीके / आर प्रतिक्रियाओं के रूप में सिर्फ "हां" बनाम "नहीं") के विपरीत। सबसे सीधा विकल्प डीके / आर प्रतिक्रियाओं के साथ मामलों को बाहर करना है। यह मानते हुए कि उनकी "हां / नहीं" प्रतिक्रियाएं वास्तव में यादृच्छिक रूप से गायब थीं, उन्हें छोड़कर "हाँ" के प्रभाव के आपके अनुमान को पूर्वाग्रह नहीं किया जाएगा। "नहीं।" हालांकि, यह दृष्टिकोण आपके नमूना आकार को कम कर देगा और इस प्रकार शेष भविष्यवक्ताओं के संबंध में सांख्यिकीय शक्ति को कम करेगा। यदि आपके पास इस वैरिएबल पर बहुत से डीके / आर हैं, तो आप कई अशुद्धियों द्वारा "हां" / "नहीं" प्रतिक्रियाएं देना चाहते हैं (यकीनन सबसे ज्यादा, शायद केवल, रक्षात्मक लापता-मूल्य प्रतिरूपण रणनीति)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.