स्वचालित डेटा सफाई


10

एक आम समस्या है एमएल डेटा की खराब गुणवत्ता: फीचर वैल्यू में त्रुटियां, मिसकॉलिफाइड इंस्टेंस आदि।

इस समस्या को संबोधित करने का एक तरीका मैन्युअल रूप से डेटा और जांच के माध्यम से जाना है, लेकिन क्या अन्य तकनीकें हैं? (मुझे यकीन है कि वहाँ हैं!)

कौन से बेहतर हैं और क्यों?


Google Refine देखने लायक हो सकता है।
दिमित्री वी। मास्टरोव

जवाबों:


6

पीसीए जैसी किसी चीज के माध्यम से आयाम में कमी आपके डेटा का प्रतिनिधित्व करने के लिए महत्वपूर्ण आयामों की संख्या का अंदाजा लगाने में मददगार होगी।

मिसकॉलिफ़ाइड इंस्टेंसेस की जाँच करने के लिए, आप अपने डेटा को प्रस्तावित श्रेणियों में कितनी अच्छी तरह फिट होंगे, इसका अंदाज़ा लगाने के लिए आप अपने डेटा का क्लस्टरिंग k-mean क्लस्टर कर सकते हैं। स्वचालित नहीं है, जबकि इस स्तर पर कल्पना करना सहायक होगा, क्योंकि आपका दृश्य मस्तिष्क स्वयं में एक शक्तिशाली क्लासिफायरियर है।

डेटा के मामले में जो एकमुश्त गायब हैं, आंकड़ों में पहले से ही उस स्थिति से निपटने के लिए कई तकनीकें हैं , जिनमें शामिल हैं, मौजूदा सेट से डेटा लेना या अंतराल में भरने के लिए एक और सेट।


3
डेटा की साजिश रचने है एक मैनुअल जांच।
andreister

@andreister मैं एक स्प्रेडशीट पर बिंदु द्वारा चेकिंग पॉइंट को मैन्युअल चेक मानता हूं, लेकिन ठीक है, मैं देखता हूं कि आप क्या देख रहे हैं।
jonsca

5

आप वास्तव में एक जानकार व्यक्ति को लूप से नहीं निकाल सकते और उचित परिणाम की उम्मीद कर सकते हैं। इसका मतलब यह नहीं है कि व्यक्ति को व्यक्तिगत रूप से हर एक वस्तु को देखना है, लेकिन अंततः यह जानने के लिए कुछ वास्तविक ज्ञान है कि क्या डेटा के सारांश / ग्राफ़ उचित हैं। (उदाहरण के लिए: वेरिएबल A नकारात्मक हो सकता है, वेरिएबल B वेरिएबल A की तुलना में बड़ा हो सकता है, या कंटेम्परिकल वेरिएबल C के लिए 4 या 5 विकल्प हैं?)

एक बार जब आप डेटा पर एक जानकार मानवीय नज़र डालते हैं, तो आप संभवतः नियमों की एक श्रृंखला बना सकते हैं, जिनका उपयोग आप डेटा का परीक्षण करने के लिए स्वचालित रूप से कर सकते हैं। समस्या यह है, अन्य त्रुटियां उत्पन्न हो सकती हैं जिनके बारे में आपने नहीं सोचा है। (उदाहरण के लिए, डेटा एकत्रित करने की प्रक्रिया में एक प्रोग्रामिंग त्रुटि जो चर ए को चर सी की नकल करती है)


बहुत बढ़िया जवाब। मैं केवल यह सुनिश्चित करने के लिए जोड़ूंगा कि चर को साफ करने के लिए उपयोग किए जाने वाले वाक्यविन्यास को दस्तावेज़ीकरण में बनाए रखा जाता है, टिप्पणियों के साथ यदि वर्णनात्मक परिवर्तन नहीं किए गए हैं कि चीजें क्यों बदली गईं। :)
मिशेल

1

यदि आप जानते हैं कि आपका डेटा काफी अच्छा नहीं है, तो आउटलेर्स के लिए भी जाँच करना हमेशा अच्छा होता है। अधिकांश समय विसंगतियाँ हैं।

यदि आपके पास बहुत सारी सुविधाएँ हैं, तो आयामीता में कमी बहुत जरूरी है। पीसीए उसके लिए काफी कुशल है।

यदि आपके पास लापता डेटा है, तो आप इंप्यूटेशन या इंटरपोलेशन का उपयोग कर सकते हैं, लेकिन यदि आपकी ज़रूरतें इसे अनुमति देती हैं, तो जीतने वाला मामला सहयोगी फ़िल्टरिंग का उपयोग करना है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.