मशीन लर्निंग एल्गोरिदम में लापता डेटा और विरल डेटा के बीच अंतर


20

विरल डेटा और लापता डेटा के बीच मुख्य अंतर क्या हैं? और यह मशीन सीखने को कैसे प्रभावित करता है? अधिक विशेष रूप से, स्पार्क डेटा और गुम डेटा का वर्गीकरण एल्गोरिदम और रिग्रेशन (संख्याओं की भविष्यवाणी) के प्रकारों पर क्या प्रभाव पड़ता है। मैं एक स्थिति के बारे में बात कर रहा हूं, जहां लापता डेटा का प्रतिशत महत्वपूर्ण है और हम लापता डेटा वाली पंक्तियों को नहीं छोड़ सकते।


4
विरल डेटा का मतलब है कि कई मूल्य शून्य हैं, लेकिन आप जानते हैं कि वे शून्य हैं। डेटा गुम होने का अर्थ है कि आप नहीं जानते कि कुछ या कई मान क्या हैं।
अन्ना SdTC

धन्यवाद। यही मैंने भी सोचा था, लेकिन पुष्टि करना चाहता था। इसके अलावा, जैसा कि प्रश्न में उल्लेख किया गया है, जानना चाहेंगे कि कैसे, सामान्य तौर पर, इन प्रकार के डेटासेट को मशीन सीखने की समस्याओं में संभाला जाता है ..
थका हुआ और ऊब चुके देव

1
मुझे लगता है कि आपका सवाल थोड़ा अस्पष्ट है। "मशीन लर्निंग" में कई प्रकार के तरीके और उपकरण शामिल हैं, इसलिए उत्तर इस बात पर निर्भर करता है कि आपके पास क्या है या आप क्या करना चाहते हैं। यहां वे लापता डेटा को संभालने के लिए कुछ तरीकों पर चर्चा करते हैं: आंकड़े. stackexchange.com/questions/103500/…
अन्ना SdTC

धन्यवाद। मैं उपकरण और एमएल एल्गोरिदम के प्रकारों की विस्तृत श्रृंखला से अवगत हूं। लेकिन जानना चाहते थे कि क्या कोई सामान्य दृष्टिकोण है।
थके हुए और ऊब चुके देव

जवाबों:


16

समझने में आसानी के लिए, मैं एक उदाहरण का उपयोग करके इसका वर्णन करूँगा। मान लीजिए कि आप एक उपकरण से डेटा एकत्र कर रहे हैं जिसमें 12 सेंसर हैं। और आपने 10 दिनों के लिए डेटा एकत्र किया है।

आपके द्वारा एकत्र किया गया डेटा इस प्रकार है: यहाँ छवि विवरण दर्ज करें

इसे विरल डेटा कहा जाता है क्योंकि अधिकांश सेंसर आउटपुट शून्य होते हैं। जिसका अर्थ है कि वे सेंसर ठीक से काम कर रहे हैं लेकिन वास्तविक रीडिंग शून्य है। हालांकि इस मैट्रिक्स में उच्च आयामी डेटा (12 एक्सिस) हैं, यह कहा जा सकता है कि इसमें कम जानकारी है।

मान लीजिए कि आपके डिवाइस के 2 सेंसर खराबी हैं।
तब आपका डेटा इस प्रकार होगा:यहाँ छवि विवरण दर्ज करें

इस स्थिति में, आप देख सकते हैं कि आप Sensor1 और Sensor6 के डेटा का उपयोग नहीं कर सकते हैं। या तो आपको परिणामों को प्रभावित किए बिना मैन्युअल रूप से डेटा भरना होगा या आपको प्रयोग को फिर से करना होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.