डेटा के किसी भी सेट के साथ बुनियादी चीजें हैं:
- मान्य मान (स्ट्रिंग की लंबाई सहिष्णुता, डेटा प्रकार, स्वरूपण मास्क, आवश्यक फ़ील्ड उपस्थिति, आदि)
- सीमा शुद्धता (क्या यह मानों की अपेक्षित सीमाओं के भीतर सही रूप से गिरता हुआ डेटा है)
- प्रारंभिक प्रसंस्करण (यदि मैं इस डेटा का विश्लेषण करने का प्रयास करता हूं, तो क्या मैं त्रुटियों के बिना मूल बातें कर सकता हूं)
- प्रारंभिक रिपोर्टिंग (एक डेटा सेट के खिलाफ रिपोर्ट चलाएं और सुनिश्चित करें कि यह एक पवित्रता परीक्षा पास करता है)
- डेटा के किसी भी कॉलम के लिए शून्य बनाम खाली बनाम शून्य बनाम गलत
- ऐसे डेटा की पहचान करना जो जगह से बाहर हैं (संख्यात्मक मान डेटा सेट में अन्य मूल्यों की तुलना में नाटकीय रूप से भिन्न हैं, स्ट्रिंग मान जो देखने में ऐसा लगता है जैसे वे गलत वर्तनी हो सकते हैं, आदि)
- स्पष्ट रूप से गलत डेटा को खत्म करना या ठीक करना
त्रुटियों की पहचान करने के लिए डेटा को समझना एक पूरी तरह से अलग गेंद का खेल है, और यह बहुत महत्वपूर्ण है।
उदाहरण के लिए, आपके पास एक नियम हो सकता है जो कहता है कि किसी दिए गए डेटा सेट में एक सीरियल नंबर मौजूद होना चाहिए और यह सीरियल नंबर 255 की अधिकतम स्ट्रिंग लंबाई और 5 की न्यूनतम स्ट्रिंग लंबाई के साथ अल्फ़ान्यूमेरिक होना चाहिए।
डेटा को देखते हुए, आप एक विशेष सीरियल नंबर मान पढ़ सकते हैं "PLEASE ENTER SERIAL"
यह पूरी तरह से मान्य है, लेकिन गलत है।
यह एक स्पष्ट प्रकार का है, लेकिन कहते हैं कि आप स्टॉक डेटा को संसाधित कर रहे हैं और आपके पास 1000 स्टॉक के लिए मूल्य सीमा थी जो एक डॉलर के तहत थी। बहुत से लोग यह नहीं जानते होंगे कि स्टॉक की कीमत कुछ एक्सचेंजों पर इतनी कम है और दूसरों पर पूरी तरह से वैध है। आपके डेटा को समझने के लिए आपको ज्ञान की आवश्यकता है कि आप जो देख रहे हैं वह समस्याग्रस्त है या नहीं।
वास्तविक दुनिया में, आपके पास हमेशा अपने डेटा को अंतरंग रूप से समझने की लक्जरी नहीं होती है।
जिस तरह से मैं समस्याओं से बचता हूं वह मेरे आसपास के लोगों का लाभ उठाने से है। छोटे डेटा सेटों के लिए, मैं किसी को संपूर्णता में डेटा की समीक्षा करने के लिए कह सकता हूं। बड़े लोगों के लिए, यादृच्छिक नमूनों का एक सेट खींचना और किसी को डेटा पर एक विवेक जांच करने के लिए कहना अधिक उपयुक्त है।
इसके अलावा, डेटा के स्रोत और उस डेटा स्रोत पर कितना अच्छा भरोसा किया जा सकता है, इस पर सवाल उठना लाज़मी है। मेरे पास अक्सर डेटा के कई परस्पर विरोधी स्रोत होते हैं और हम "सत्य के स्रोत" को निर्धारित करने के लिए नियम बनाते हैं। कभी-कभी एक डेटा सेट में किसी दिए गए पहलू में महान डेटा होता है, लेकिन अन्य क्षेत्रों में अन्य डेटा सेट अधिक मजबूत होते हैं।
मैन्युअल रूप से दर्ज किया गया डेटा आमतौर पर वही होता है जिसके बारे में मुझे सबसे अधिक संदेह है, लेकिन कुछ मामलों में यह ऑटोमेशन के माध्यम से हासिल की जाने वाली किसी भी चीज़ से अधिक मजबूत है।