यह समझने में मदद करता है कि डेटा कैसे रिकॉर्ड किया गया था।
मुझे एक कहानी साझा करें । एक बार, बहुत पहले, कई डेटासेट केवल हार्डकॉपी लुप्त होती में संग्रहीत किए गए थे। उन अंधेरे दिनों में मैंने एक संगठन के साथ अनुबंध किया (महान वंशावली और आकार के; आपमें से कई लोग शायद इसके स्टॉक के मालिक हैं) अपने निर्माण संयंत्रों में से 10 ^ 5 पर्यावरण निगरानी डेटा के रिकॉर्ड को कम्प्यूटरीकृत करने के लिए। ऐसा करने के लिए, मैंने व्यक्तिगत रूप से प्रयोगशाला रिपोर्टों (जहां डेटा थे वहां दिखाने के लिए) की एक शेल्फ को चिह्नित किया, डेटा प्रविष्टि फॉर्म बनाए, और साक्षर के लिए एक अस्थायी एजेंसी के साथ अनुबंध किया।कार्यकर्ता प्रपत्रों में डेटा टाइप करने के लिए। (हां, आपको उन लोगों के लिए अतिरिक्त भुगतान करना होगा जो पढ़ सकते हैं।) डेटा के मूल्य और संवेदनशीलता के कारण, मैंने एक समय में दो श्रमिकों के साथ समानांतर में इस प्रक्रिया का संचालन किया (जो आमतौर पर दिन-प्रतिदिन बदल जाते हैं)। इसमें कुछ हफ़्ते लगे। मैंने प्रविष्टियों के दो सेटों की तुलना करने के लिए सॉफ्टवेयर लिखा, व्यवस्थित रूप से उन सभी त्रुटियों को पहचानने और सुधारने के लिए, जिन्होंने दिखाया।
लड़का था त्रुटियां! क्या गलत हो सकता हैं? त्रुटियों का वर्णन करने और उन्हें मापने का एक अच्छा तरीका बुनियादी रिकॉर्ड के स्तर पर है , जो इस स्थिति में किसी विशेष निगरानी के लिए एक एकल विश्लेषणात्मक परिणाम (कुछ रसायन की एकाग्रता, अक्सर) का विवरण दिया गया था , जो किसी दिए गए निगरानी बिंदु पर प्राप्त किया गया था। दी गई तारीख। दो डेटासेट की तुलना में, मैंने पाया:
चूक की त्रुटियां : एक डेटासेट में एक रिकॉर्ड शामिल होगा, दूसरा नहीं। यह आमतौर पर इसलिए हुआ क्योंकि या तो (ए) एक पंक्ति या दो को पृष्ठ के नीचे अनदेखा किया जाएगा या (बी) एक पूरे पृष्ठ को छोड़ दिया जाएगा।
चूक की स्पष्ट त्रुटियां जो वास्तव में डेटा-प्रवेश की गलतियाँ थीं। एक निगरानी बिंदु नाम, एक तिथि और "विश्लेषण" (आमतौर पर एक रासायनिक नाम) द्वारा एक रिकॉर्ड की पहचान की जाती है। यदि इनमें से किसी में भी टाइपोग्राफिक त्रुटि है, तो यह अन्य अभिलेखों से मेल नहीं खाएगा, जिसके साथ यह संबंधित है। वास्तव में, सही रिकॉर्ड गायब हो जाता है और एक गलत रिकॉर्ड दिखाई देता है।
नकली नकल । एक ही परिणाम कई स्रोतों में दिखाई दे सकते हैं, कई बार स्थानांतरित किए जा सकते हैं, और जब वे नहीं होते हैं तो बार-बार सही होने लगते हैं। डुप्लिकेट का पता लगाने के लिए सीधे हैं, लेकिन यह तय करना कि क्या वे गलत हैं, यह जानने पर निर्भर करता है कि क्या डुप्लिकेट को भी डेटासेट में दिखाई देना चाहिए। कभी-कभी आप बस नहीं जान सकते।
फ्रैंक डेटा-एंट्री त्रुटियां । "अच्छे" लोगों को पकड़ना आसान होता है क्योंकि वे डेटम के प्रकार को बदलते हैं : अंक "0" के लिए "O" अक्षर का उपयोग करते हुए, उदाहरण के लिए, एक संख्या को गैर-संख्या में बदल देता है। अन्य अच्छी त्रुटियां मूल्य को बदल देती हैं, इसलिए यह सांख्यिकीय परीक्षणों से आसानी से पता लगाया जा सकता है। (एक मामले में, "1,000,010 mg / Kg" में अग्रणी अंक काट दिया गया था। 10. का मान छोड़ कर। यह बहुत बड़ा बदलाव है जब आप एक कीटनाशक एकाग्रता के बारे में बात कर रहे हैं!) खराब त्रुटियों को पकड़ना मुश्किल है क्योंकि वे बदल जाते हैं। एक मान जो कि बाकी डेटा के साथ फिट बैठता है (जैसे) "50" के लिए "80" टाइप करता है। (इस तरह की गलती OCR सॉफ्टवेयर के साथ हर समय होती है।)
प रवतन । सही मान दर्ज किए जा सकते हैं लेकिन गलत रिकॉर्ड कुंजी के साथ जुड़े हुए हैं। यह कपटी है, क्योंकि डेटासेट की वैश्विक सांख्यिकीय विशेषताएं अनछुई रह सकती हैं, लेकिन समूहों के बीच सहज अंतर पैदा किया जा सकता है। संभवतः डबल-एंट्री जैसा एक तंत्र भी इन त्रुटियों का पता लगाने में सक्षम है।
एक बार जब आप इन त्रुटियों के बारे में जानते हैं और जानते हैं, या उनके पास एक सिद्धांत है, कि वे कैसे होते हैं, तो आप ऐसी त्रुटियों की संभावित उपस्थिति के लिए अपने डेटासेट को ट्रोल करने के लिए स्क्रिप्ट लिख सकते हैं और उन्हें आगे की ओर ध्यान दिला सकते हैं। आप हमेशा उन्हें हल नहीं कर सकते, लेकिन कम से कम आप उनके बाद के विश्लेषण में डेटा के साथ "टिप्पणी" या "गुणवत्ता ध्वज" फ़ील्ड शामिल कर सकते हैं।
उस समय से मैंने डेटा गुणवत्ता के मुद्दों पर ध्यान दिया है और बड़े सांख्यिकीय डेटासेट की व्यापक जांच करने के कई और अवसर दिए हैं। कोई भी पूर्ण नहीं है; वे सभी गुणवत्ता जांच से लाभान्वित होते हैं। कुछ सिद्धांतों को मैंने ऐसा करने के लिए वर्षों में विकसित किया है
जब भी संभव हो, डेटा प्रविष्टि और डेटा ट्रांसक्रिप्शन प्रक्रियाओं में अतिरेक बनाएं : चेकसम, योग, दोहराया प्रविष्टियां: संगति के स्वचालित आंतरिक चेक का समर्थन करने के लिए कुछ भी।
यदि संभव हो, तो एक अन्य डेटाबेस बनाएं और उसका दोहन करें जो बताता है कि डेटा कैसा दिखना चाहिए: अर्थात् , कंप्यूटर-पठनीय मेटाडेटा। उदाहरण के लिए, एक दवा प्रयोग में आप पहले से जान सकते हैं कि हर मरीज को तीन बार देखा जाएगा। यह आपको उन सभी सही रिकॉर्डों और उनके पहचानकर्ताओं के साथ एक डेटाबेस बनाने में सक्षम बनाता है, जिसमें केवल भरे जाने की प्रतीक्षा की जा रही है। उन्हें दिए गए डेटा के साथ भरें और फिर डुप्लिकेट, चूक और अप्रत्याशित डेटा की जांच करें।
हमेशा अपने डेटा को सामान्य करें (विशेष रूप से, उन्हें कम से कम चौथे सामान्य रूप में प्राप्त करें ), इस बात की परवाह किए बिना कि आप विश्लेषण के लिए डेटासेट कैसे प्रारूपित करते हैं। यह आपको हर वैचारिक विशिष्ट इकाई की तालिकाएँ बनाने के लिए मजबूर करता है, जो आप मॉडलिंग कर रहे हैं। (पर्यावरण के मामले में, इसमें निगरानी स्थानों, नमूनों, रसायनों (गुण, विशिष्ट श्रेणियां, आदि) के टेबल शामिल होंगे, उन नमूनों के परीक्षण (एक परीक्षण आमतौर पर रसायनों के एक सूट को कवर करता है), और उन परीक्षणों के व्यक्तिगत परिणाम। ऐसा करने में आप डेटा गुणवत्ता और स्थिरता के कई प्रभावी चेक बनाते हैं और कई संभावित लापता या डुप्लिकेट या असंगत मूल्यों की पहचान करते हैं।
यह प्रयास (जिसमें अच्छे डाटा प्रोसेसिंग कौशल की आवश्यकता होती है, लेकिन सरल है) आश्चर्यजनक रूप से प्रभावी है। यदि आप बड़े या जटिल डेटासेट का विश्लेषण करने की आकांक्षा रखते हैं और संबंधपरक डेटाबेस और उनके सिद्धांत के बारे में अच्छा ज्ञान नहीं रखते हैं, तो इसे जल्द से जल्द सीखी जाने वाली चीज़ों की सूची में शामिल करें। यह आपके पूरे करियर में लाभांश का भुगतान करेगा।
हमेशा जितना संभव हो उतना "बेवकूफ" चेक करें । ये स्पष्ट चीजों का स्वचालित सत्यापन हैं जैसे कि तारीखें उनके अपेक्षित अवधियों में आती हैं, रोगियों की गिनती (या रसायन या जो भी) हमेशा सही ढंग से जोड़ते हैं, वे मूल्य हमेशा उचित होते हैं (उदाहरण के लिए, एक पीएच 0 और 14 के बीच होना चाहिए और शायद में के लिए एक बहुत ही संकीर्ण सीमा, कहते हैं, रक्त पीएच रीडिंग), आदि। यह वह जगह है जहां डोमेन विशेषज्ञता सबसे अधिक मदद कर सकती है: सांख्यिकीविद् निडर होकर विशेषज्ञों के बेवकूफ सवाल पूछ सकते हैं और डेटा की जांच करने के लिए उत्तर का शोषण कर सकते हैं।
बहुत अधिक निश्चित रूप से कहा जा सकता है - विषय एक पुस्तक के लायक है - लेकिन यह विचारों को उत्तेजित करने के लिए पर्याप्त होना चाहिए।