मेरा प्रश्न क्लासिफायर / मॉडल प्रशिक्षण / फिटिंग के दौरान अपूर्ण डेटा से निपटने के लिए तकनीकों के लिए निर्देशित है ।
उदाहरण के लिए, डेटासेट w / कुछ सौ पंक्तियों में, प्रत्येक पंक्ति में पाँच आयाम और अंतिम आइटम के रूप में एक वर्ग लेबल है, अधिकांश डेटा बिंदु इस तरह दिखाई देंगे:
[0.74, 0.39, 0.14, 0.33, 0.34, 0]
कुछ इस तरह लग सकता है:
[0.21, 0.68 ;, 0.82, 0.58, 1]
तो यह उन प्रकार के डेटा बिंदु हैं जो इस प्रश्न का फोकस हैं।
इस सवाल को पूछने का मेरा प्रारंभिक कारण मेरे सामने सीधे एक समस्या थी; हालाँकि, मेरे प्रश्न को पोस्ट करने से पहले, मैंने सोचा कि यह अधिक उपयोगी हो सकता है यदि मैं इसे फिर से प्रकाशित करता हूं तो उत्तर समुदाय के एक बड़े हिस्से के लिए उपयोगी होंगे।
एक साधारण हेयुरिस्टिक के रूप में, आइए इन डेटा-हैंडलिंग तकनीकों को इस आधार पर विभाजित करते हैं कि प्रसंस्करण प्रवाह के दौरान वे कार्यरत हैं - इनपुट से पहले क्लासिफायरियर के दौरान या (यानी, तकनीक क्लासिफायरियर के अंदर है)।
सबसे अच्छा उदाहरण मैं बाद के लिए सोच सकता हूं कि निर्णय पेड़ों में इस्तेमाल की जाने वाली चतुर 'थ्री-वे ब्रांचिंग' तकनीक है।
इसमें कोई संदेह नहीं है, पूर्व श्रेणी कहीं अधिक बड़ी है। जिन तकनीकों से मैं अवगत हूं, वे नीचे दिए गए समूहों में से एक में आती हैं।
हाल ही में "गायब डेटा हैंडलिंग" पर मेरे व्यक्तिगत नोटों की समीक्षा करते समय मैंने देखा कि मेरे पास तकनीकों की काफी प्रभावशाली सूची थी। मैं सिर्फ सामान्य मानसिक शांति के लिए इन नोटों को बनाए रखता हूं और अगर कोई कनिष्ठ सहयोगी मुझसे लापता डेटा से निपटने के लिए कहता है। वास्तविक अभ्यास में, मैं वास्तव में उनमें से किसी का भी उपयोग नहीं करता, सिवाय पिछले एक के।
प्रतिष्ठा : तकनीकों के एक समूह के लिए एक व्यापक रूब्रिक, जिसका आम भाजक (मेरा मानना है) यह है कि लापता डेटा को सीधे उसी डेटा सेट द्वारा आपूर्ति की जाती है - अनुमान / भविष्यवाणी के बजाय प्रतिस्थापन।
पुनर्निर्माण : ऑटो-एसोसिएटिव नेटवर्क (केवल एक तंत्रिका नेटवर्क जिसमें इनपुट और आउटपुट परतों के आकार समान हैं - दूसरे शब्दों में, आउटपुट का इनपुट के समान आयाम है) का उपयोग करके लापता डेटा बिंदुओं का अनुमान है; इस विचार को पूर्ण डेटा पर इस नेटवर्क को प्रशिक्षित करना है, फिर इसे अधूरा पैटर्न खिलाएं, और आउटपुट नोड्स से लापता मूल्यों को पढ़ें।
बूटस्ट्रैपिंग : (कोई सारांश आवश्यक नहीं जो मुझे नहीं सोचना चाहिए, क्योंकि यह सांख्यिकीय विश्लेषण में कहीं और उपयोग होता है)।
इनकार : चुपचाप अपने प्रशिक्षण सेट से लापता / भ्रष्ट तत्वों के साथ डेटा बिंदुओं को हटा दें और दिखावा करें कि वे कभी अस्तित्व में नहीं थे।
modern
तकनीकों का वर्णन करने वाले कुछ कागजों की ओर इशारा करना चाहेंगे ? धन्यवाद
mice
में JSS पर एक अच्छा परिचयात्मक पेपर है: jstatsoft.org/article/view/v045i03 । (आपको आर। का उपयोग न करने पर भी परिचय उपयोगी होना चाहिए।) और आर पैकेज Amelia
में एक अच्छा विगनेट है जिसे पैकेज के साथ शामिल किया गया है। ये दोनों पैकेज उनके विवरण में भिन्न हैं, लेकिन दोनों कई प्रतिरूपण का उपयोग करते हैं।