मैं हाल ही में उसी प्रश्न के बारे में सोच रहा था जब नवीनतम राष्ट्रीय अस्पताल डिस्चार्ज सर्वेक्षण डेटा का विश्लेषण कर रहा था । कई चर में वैवाहिक जीवन की स्थिति और प्रक्रिया के प्रकार जैसे महत्वपूर्ण लापता मूल्य हैं। यह मुद्दा मेरे ध्यान में आया क्योंकि इन श्रेणियों ने मेरे द्वारा चलाए जा रहे अधिकांश लॉजिस्टिक प्रतिगमन विश्लेषण में मजबूत (और महत्वपूर्ण) प्रभावों के साथ दिखाया।
एक आश्चर्य है कि क्यों करने के लिए इच्छुक हैएक लापता कोड दिया गया है। उदाहरण के लिए, वैवाहिक स्थिति के मामले में, यह प्रशंसनीय है कि इस जानकारी को प्रदान करने में विफलता को सामाजिक आर्थिक स्थिति या बीमारी के प्रकार जैसे महत्वपूर्ण कारकों से जोड़ा जा सकता है। उच्च रक्तचाप के आपके मामले में, हमें यह पूछना चाहिए कि मूल्य ज्ञात या अस्वीकार क्यों नहीं किया जाएगा? यह संस्था में प्रथाओं से संबंधित हो सकता है (शायद ढीली प्रक्रियाओं को दर्शाते हुए) या यहां तक कि व्यक्तियों (जैसे धार्मिक विश्वास) के लिए भी। बदले में उन विशेषताओं को मधुमेह के साथ जोड़ा जा सकता है। इसलिए, इन मूल्यों को लापता के रूप में कोड करने के बजाय (जैसे कि उन्हें विश्लेषण से पूरी तरह से बाहर करना) या मूल्यों को लागू करने का प्रयास करना (जो प्रभावी रूप से वे जो जानकारी प्रदान करते हैं और परिणामों को पूर्वाग्रहित कर सकते हैं) को नाकाम करने के बजाय इसे जारी रखना विवेकपूर्ण लगता है। यह वास्तव में करने के लिए कोई और अधिक कठिन नहीं है: आपको केवल यह सुनिश्चित करना है कि इस चर को श्रेणीबद्ध माना जाता है और आपको प्रतिगमन आउटपुट में एक और गुणांक मिलेगा। इसके अलावा, मुझे संदेह है कि BRFSS डेटासेट काफी बड़े हैं कि आपको बिजली के बारे में चिंता करने की ज़रूरत नहीं है।