अपूर्ण / गुम डेटा को संभालने की तकनीक


12

मेरा प्रश्न क्लासिफायर / मॉडल प्रशिक्षण / फिटिंग के दौरान अपूर्ण डेटा से निपटने के लिए तकनीकों के लिए निर्देशित है ।

उदाहरण के लिए, डेटासेट w / कुछ सौ पंक्तियों में, प्रत्येक पंक्ति में पाँच आयाम और अंतिम आइटम के रूप में एक वर्ग लेबल है, अधिकांश डेटा बिंदु इस तरह दिखाई देंगे:

[0.74, 0.39, 0.14, 0.33, 0.34, 0]

कुछ इस तरह लग सकता है:

[0.21, 0.68 ;, 0.82, 0.58, 1]

तो यह उन प्रकार के डेटा बिंदु हैं जो इस प्रश्न का फोकस हैं।

इस सवाल को पूछने का मेरा प्रारंभिक कारण मेरे सामने सीधे एक समस्या थी; हालाँकि, मेरे प्रश्न को पोस्ट करने से पहले, मैंने सोचा कि यह अधिक उपयोगी हो सकता है यदि मैं इसे फिर से प्रकाशित करता हूं तो उत्तर समुदाय के एक बड़े हिस्से के लिए उपयोगी होंगे।

एक साधारण हेयुरिस्टिक के रूप में, आइए इन डेटा-हैंडलिंग तकनीकों को इस आधार पर विभाजित करते हैं कि प्रसंस्करण प्रवाह के दौरान वे कार्यरत हैं - इनपुट से पहले क्लासिफायरियर के दौरान या (यानी, तकनीक क्लासिफायरियर के अंदर है)।

सबसे अच्छा उदाहरण मैं बाद के लिए सोच सकता हूं कि निर्णय पेड़ों में इस्तेमाल की जाने वाली चतुर 'थ्री-वे ब्रांचिंग' तकनीक है।

इसमें कोई संदेह नहीं है, पूर्व श्रेणी कहीं अधिक बड़ी है। जिन तकनीकों से मैं अवगत हूं, वे नीचे दिए गए समूहों में से एक में आती हैं।

हाल ही में "गायब डेटा हैंडलिंग" पर मेरे व्यक्तिगत नोटों की समीक्षा करते समय मैंने देखा कि मेरे पास तकनीकों की काफी प्रभावशाली सूची थी। मैं सिर्फ सामान्य मानसिक शांति के लिए इन नोटों को बनाए रखता हूं और अगर कोई कनिष्ठ सहयोगी मुझसे लापता डेटा से निपटने के लिए कहता है। वास्तविक अभ्यास में, मैं वास्तव में उनमें से किसी का भी उपयोग नहीं करता, सिवाय पिछले एक के।

  1. प्रतिष्ठा : तकनीकों के एक समूह के लिए एक व्यापक रूब्रिक, जिसका आम भाजक (मेरा मानना ​​है) यह है कि लापता डेटा को सीधे उसी डेटा सेट द्वारा आपूर्ति की जाती है - अनुमान / भविष्यवाणी के बजाय प्रतिस्थापन।

  2. पुनर्निर्माण : ऑटो-एसोसिएटिव नेटवर्क (केवल एक तंत्रिका नेटवर्क जिसमें इनपुट और आउटपुट परतों के आकार समान हैं - दूसरे शब्दों में, आउटपुट का इनपुट के समान आयाम है) का उपयोग करके लापता डेटा बिंदुओं का अनुमान है; इस विचार को पूर्ण डेटा पर इस नेटवर्क को प्रशिक्षित करना है, फिर इसे अधूरा पैटर्न खिलाएं, और आउटपुट नोड्स से लापता मूल्यों को पढ़ें।

  3. बूटस्ट्रैपिंग : (कोई सारांश आवश्यक नहीं जो मुझे नहीं सोचना चाहिए, क्योंकि यह सांख्यिकीय विश्लेषण में कहीं और उपयोग होता है)।

  4. इनकार : चुपचाप अपने प्रशिक्षण सेट से लापता / भ्रष्ट तत्वों के साथ डेटा बिंदुओं को हटा दें और दिखावा करें कि वे कभी अस्तित्व में नहीं थे।


2
वहाँ भी "कम-मॉडल" दृष्टिकोण है जहां आप परीक्षण के दौरान लापता हुए मूल्यों के हर पैटर्न के लिए एक क्लासिफायरियर ट्रेन करते हैं। IE, जहाँ मैं गुण गायब है, वहां x के लिए भविष्यवाणी करने के लिए, प्रशिक्षण डेटा और उस पर प्रशिक्षण के सभी उदाहरणों से i'th विशेषता को हटा दें। jmlr.csail.mit.edu/papers/v8/saar-tsechansky07a.html
यारोस्लाव

मेरा मानना ​​है कि आधुनिक संदर्भ में आपकी प्रतिष्ठा की परिभाषा गलत है। इंप्यूटेशन में अब डेटा सेट से अन्य वेरिएबल्स के आधार पर लापता डेटा को मॉडलिंग करना शामिल है। वर्तमान में फेवरेट इम्प्यूटेशन मेथड मल्टीपल इम्प्यूटेशन है, जो प्रत्येक गुम वैल्यू (मॉडल के आधार पर) के लिए कई विकल्प बनाता है, प्रत्येक वैकल्पिक पूरा डाटा सेट को प्रोसेस करता है, और फिर परिणामों के बीच परिवर्तनशीलता को दर्शाते हुए उत्तरों को जोड़ता है। ("पुराने दिनों" में, लोगों ने एक समान रिकॉर्ड, या माध्य, आदि से मूल्य को प्रतिस्थापित करने जैसी चीजें कीं, लेकिन अब नहीं।)
वेन

@ क्या आप मुझे इन modernतकनीकों का वर्णन करने वाले कुछ कागजों की ओर इशारा करना चाहेंगे ? धन्यवाद
एंज़ो

R पैकेज miceमें JSS पर एक अच्छा परिचयात्मक पेपर है: jstatsoft.org/article/view/v045i03 । (आपको आर। का उपयोग न करने पर भी परिचय उपयोगी होना चाहिए।) और आर पैकेज Ameliaमें एक अच्छा विगनेट है जिसे पैकेज के साथ शामिल किया गया है। ये दोनों पैकेज उनके विवरण में भिन्न हैं, लेकिन दोनों कई प्रतिरूपण का उपयोग करते हैं।
वेन

जवाबों:


3

मैंने एक अन्य प्रश्न का उत्तर दिया , लेकिन यह यहां भी लागू हो सकता है।

" मैट्रिक्स कंप्लीशन नामक शोध का एक नया क्षेत्र है , जो संभवतः आप चाहते हैं। इमैनुएल कैंडीस द्वारा इस व्याख्यान में वास्तव में अच्छा परिचय दिया गया है "

अनिवार्य रूप से, यदि आपके डेटासेट में लो रैंक (या लगभग लो रैंक) है, यानी आपके पास 100 पंक्तियाँ हैं, लेकिन वास्तविक मैट्रिक्स में कुछ छोटी रैंक है, तो 10 (या केवल 10 बड़े एकल मान) कहें, तो आप लापता को भरने के लिए मैट्रिक्स कंप्लीशन का उपयोग कर सकते हैं डेटा।


2

मैं यहां थोड़ा अपरंपरागत हो सकता हूं, लेकिन क्या बिल्ली। कृपया ध्यान दें: विचार की यह पंक्ति वर्गीकरण के लिए मेरे स्वयं के दर्शन से आती है, जो यह है कि मैं इसका उपयोग तब करता हूं जब मेरा उद्देश्य पूरी तरह से शुद्ध भविष्यवाणी पर होता है - न कि स्पष्टीकरण, वैचारिक सुसंगतता, आदि। इस प्रकार, मैं यहां जो कह रहा हूं वह विरोधाभासी है कि मैं कैसे हूं। एक प्रतिगमन मॉडल का निर्माण कर रहा है।

लापता डेटा को संभालने के लिए विभिन्न वर्गीकरण दृष्टिकोण उनकी क्षमता में भिन्न होते हैं, और कुछ अन्य कारकों पर निर्भर करते हुए, मैं सिर्फ # 5 का प्रयास कर सकता हूं: एक क्लासिफायर का उपयोग करें जो उन एनए पर चोक नहीं करेगा। उस मार्ग पर जाने के निर्णय के हिस्से में यह सोचना भी शामिल हो सकता है कि भविष्य के डेटा में NA का एक समान अनुपात कैसे हो सकता है जिसमें आप मॉडल को लागू कर रहे हैं। यदि कुछ चरों के लिए NA कोर्स के लिए बराबर होने जा रहा है, तो यह उनके साथ सिर्फ रोल करने के लिए समझ में आता है (यानी, एक पूर्वानुमान मॉडल का निर्माण न करें जो वास्तव में आपके या आपके पास से अधिक जानकारीपूर्ण डेटा को ग्रहण करता है) खुद के बारे में मजाक कर रहे होंगे कि यह कितना भविष्य कहनेवाला है)। वास्तव में, अगर मुझे यकीन नहीं है कि NA यादृच्छिक रूप से गायब हैं, तो मैं एक नए चर (या एक नया स्तर) को फिर से लिखना चाहूंगा। '

यदि मेरे पास एक क्लासिफायरियर का उपयोग करने का एक अच्छा कारण है जो लापता डेटा को बहुत अच्छी तरह से नहीं लेता है, तो मेरा दृष्टिकोण # 1 (एकाधिक प्रतिरूपण) होगा, एक वर्गीकरण मॉडल खोजने की कोशिश करना जो प्रतिरूपित डेटा सेटों में समान रूप से अच्छा व्यवहार करता है।

^ शामिल करना: आपके भविष्यवक्ताओं में आपको कितना लापता होना है, क्या व्यवस्थित पैटर्न हैं (यदि वहाँ हैं, तो यह आपके विश्लेषण के लिए निहितार्थ के माध्यम से करीब से देखने और सोचने लायक होगा), और आपको कुल मिलाकर कितना डेटा काम करना है ।


1

यदि आपके पास डेटा जनरेट करने की प्रक्रिया के बारे में एक उचित कूबड़ है जो प्रश्न में डेटा के लिए ज़िम्मेदार है तो आप लापता डेटा का अनुमान लगाने के लिए बायेसियन विचारों का उपयोग कर सकते हैं। बाइसियन दृष्टिकोण के तहत आप बस मान लेंगे कि लापता डेटा भी यादृच्छिक चर हैं और अवलोकन किए गए डेटा पर लापता डेटा सशर्त के लिए पीछे का निर्माण करते हैं। पीछे के साधन का उपयोग तब लापता डेटा के विकल्प के रूप में किया जाएगा।

Bayesian मॉडल का उपयोग शब्द की एक व्यापक अर्थ के तहत प्रतिरूपण के रूप में योग्य हो सकता है लेकिन मैंने इसका उल्लेख करने के बारे में सोचा क्योंकि यह आपकी सूची में प्रकट नहीं हुआ था।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.