एकल चर में 80% गायब डेटा


12

मेरे डेटा में एक चर है लापता डेटा का 80% है। गैर-मौजूद होने के कारण डेटा गायब है (यानी कंपनी पर कितना बैंक ऋण है)। मुझे एक लेख आया जिसमें कहा गया था कि डमी वेरिएबल एडजस्टमेंट मेथड इस समस्या का हल है। मतलब है कि मुझे इस निरंतर चर को श्रेणीबद्ध में बदलने की आवश्यकता है?

क्या यह एकमात्र उपाय है? मैं इस चर को छोड़ना नहीं चाहता क्योंकि मैं सैद्धांतिक रूप से सोचता हूं, यह मेरे शोध प्रश्न के लिए महत्वपूर्ण है।

जवाबों:


21

क्या डेटा अज्ञात होने के अर्थ में "गायब" है या इसका मतलब सिर्फ यह है कि कोई ऋण नहीं है (इसलिए ऋण राशि शून्य है)? यह उत्तरार्द्ध की तरह लगता है, इस मामले में आपको यह इंगित करने के लिए एक अतिरिक्त बाइनरी डमी की आवश्यकता है कि क्या कोई ऋण है। ऋण राशि के किसी भी परिवर्तन की आवश्यकता नहीं है (इसके अलावा, शायद, एक निरंतर पुन: अभिव्यक्ति से, जैसे कि रूट या प्रारंभ लॉग, जिसे अन्य विचारों के आधार पर संकेत दिया जा सकता है)।

यह एक प्रतिगमन में अच्छी तरह से काम करता है। एक सरल उदाहरण फॉर्म का एक वैचारिक मॉडल है

dependent variable (Y) = loan amount (X) + constant.

ऋण संकेतक ( ) के जोड़ के साथ , प्रतिगमन मॉडल हैI

Y=βII+βXX+β0+ϵ

साथ शून्य उम्मीदों के साथ यादृच्छिक त्रुटियों का प्रतिनिधित्व। गुणांक के रूप में व्याख्या की जाती है:ϵ

Y X = 0 I = 0β0 नो-लोन स्थितियों के लिए की अपेक्षा है, क्योंकि वे और ।YX=0I=0

वाई एक्सβX ऋण की राशि ( ) के संबंध में में सीमांत परिवर्तन है ।YX

βI+β0 ऋण के साथ मामलों के लिए अवरोधन है।


2
उन्हें लापता नहीं माना जाएगा, वे बिना किसी ऋण के मूल्य का अनुमान लगाएंगे। हो सकता है कि आपने कोई ऋण 'एनए' न किया हो, जिस स्थिति में आपको उन लोगों को फिर से तैयार करना होगा
जॉन

2
@ जॉन धन्यवाद, यही मैं सिफारिश कर रहा हूं। बिंदु किसी भी तरह से उपयुक्त (जैसे लॉग (राशि + 1)) के रूप में ऋण मूल्यों ( ) को व्यक्त करना है और ऋण के बिना किसी भी मामले के लिए और सेट करना है । यह प्रतिगमन में एक मानक तकनीक है, जिसमें लॉजिस्टिक प्रतिगमन शामिल है। एक्स = 0 आई = 1XX=0I=1
whuber

3
@ lcl23 यदि मैं स्थिति को सही ढंग से समझ गया, तो अभद्रता का कोई मतलब नहीं है: आपके "लापता" डेटा गायब नहीं हैं; वे बताते हैं कि कोई ऋण नहीं लिया गया है।
whuber

1
@ बाकाबर्ग मुझे लगता है कि आप इसे पीछे की ओर ले गए होंगे, लेकिन इससे कोई फर्क नहीं पड़ता - दो मॉडल ( बनाम ) का उपयोग करना समतुल्य होगा। इस तरह के एक संकेतक के साथ और इसके बिना मॉडल में अनुमानित मूल्य अलग-अलग होंगे, इसलिए मुझे समझ में नहीं आता कि आप क्या पूछना चाह रहे हैं। ध्यान दें कि "nondetect" गहराई से "अस्तित्व में नहीं है" से अलग है! यदि आपकी पहचान सीमाएँ काफी छोटी हैं, तो उनके लिए डमी शुरू करने की कोई आवश्यकता नहीं होनी चाहिए; और अगर कोई जरूरत है, तो एक डमी शुरू करने से थोड़ा बहुत क्रूड हो सकता है। उस मामले में इसके बजाय सेंसर या अंतराल-मूल्यवान डेटा का विश्लेषण करने के तरीकों पर विचार करें। I ( X = 0 )I(X=1)I(X=0)
whuber

1
जवाब यहीं है। जब डमी , तो वैल्यू में जोड़ा जाता है। जब डमी , तो वह मान समाप्त हो जाता है। यही सब है इसके लिए। β मैं 01βI0
whuber

1

मुझे लगता है कि आपने लेख के सुझाव को गलत समझा है: मुख्यतः क्योंकि सुझाव का कोई मतलब नहीं है। फिर आपको दो समस्याएं होंगी: एक चर को कैसे फिर से लागू किया जाए और इसके मूल्य अभी भी गायब हैं। संभवतः जो सुझाव दिया गया था वह एक गुमशुदा संकेतक बनाने के लिए था ।

लापता डेटा को संभालने के लिए कुछ हद तक प्रासंगिक दृष्टिकोण जो इस विवरण के साथ मेल खाता है एक लापता संकेतक के लिए समायोजित करना है । यह निश्चित रूप से एक सरल और आसान तरीका है, लेकिन सामान्य तौर पर यह पक्षपाती है। पूर्वाग्रह अपनी बदहाली में बिना रुके जा सकता है। यह प्रभावी रूप से दो मॉडल फिट है और उनके प्रभावों को एक साथ औसत करता है: पहला मॉडल पूरी तरह से सशर्त मॉडल है , दूसरा एक पूर्ण कारक मॉडल है। पूरी तरह से सशर्त मॉडल पूर्ण केस मॉडल है जिसमें प्रत्येक अवलोकन हटा दिया गया है जिसमें लापता मान हैं। इसलिए यह डेटा के 20% सबसेट पर फिट है। दूसरा शेष 80% पर एक फिट है जो लापता मूल्य के लिए बिल्कुल भी समायोजित नहीं करता है। यह सीमांत मॉडल पूर्ण मॉडल के रूप में उसी प्रभाव का अनुमान लगाता है जब कोई अनियंत्रित इंटरैक्शन नहीं होता है, जब लिंक फ़ंक्शन संकुचित होता है, और जब रैंडम (MAR) पर डेटा गुम होता है। इन प्रभावों को फिर एक भारित औसत द्वारा संयोजित किया जाता है। आदर्श परिस्थितियों में भी, कोई अनअमाइरेटेड इंटरैक्शन नहीं है, और रैंडम (MCAR) डेटा में पूरी तरह से गायब है, लापता संकेतक दृष्टिकोण पक्षपाती प्रभाव की ओर जाता है क्योंकि सीमांत मॉडल और सशर्त मॉडल विभिन्न प्रभावों का अनुमान लगाते हैं। यहां तक ​​कि भविष्यवाणियां इस मामले में पक्षपाती हैं।

एक बेहतर विकल्प यह है कि सिर्फ कई इंप्यूटेशन का उपयोग किया जाए। यहां तक ​​कि जब ज्यादातर-लापता कारक को बहुत कम प्रचलन में मापा जाता है, तो एमआई जो संभव मूल्यों का परिष्कृत अहसास पैदा करने का अपेक्षाकृत अच्छा काम करता है। यहाँ केवल आवश्यक धारणा मार्च है।


"लिंक फंक्शन कोलेप्सेबल है" क्या मतलब है?
मैथ्यू Drury

1
@MatthewDrury का मूल रूप से, "संक्षिप्तता" का अर्थ है कि उन चर के लिए समायोजन करना जो परिणाम की भविष्यवाणी करते हैं, लेकिन मुख्य प्रभाव (एस) सटीक नहीं बढ़ाएंगे, लेकिन अनुमानित प्रभाव को नहीं बदलते हैं।
एडम 28

शांत, धन्यवाद एडम। पहले उस शब्दावली को नहीं सुना था।
मैथ्यू ड्र्यू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.