यह प्रतिक्रिया दूसरे प्रश्न पर केंद्रित है, लेकिन इस प्रक्रिया में पहले प्रश्न (क्यूए / क्यूसी प्रक्रिया के लिए दिशानिर्देश) का आंशिक उत्तर सामने आएगा।
अब तक की सबसे अच्छी चीज़ जो आप कर सकते हैं वह यह है कि एंट्री के समय डेटा की गुणवत्ता की जाँच की जाती है। उपयोगकर्ता की जांच और रिपोर्ट श्रम-गहन हैं और इसलिए बाद में इस प्रक्रिया के लिए आरक्षित किया जाना चाहिए, क्योंकि यह देर से प्रैक्टिकल है।
यहां कुछ सिद्धांत, दिशानिर्देश और सुझाव दिए गए हैं, जो व्यापक अनुभव (कई डेटाबेस के डिजाइन और निर्माण के साथ और आपकी तुलना में बहुत बड़े हैं) से प्राप्त हुए हैं। वे नियम नहीं हैं; आपको सफल और कुशल होने के लिए उनका अनुसरण करने की आवश्यकता नहीं है; लेकिन वे सभी उत्कृष्ट कारणों से यहां हैं और आपको उनसे विचलित होने के बारे में कठिन सोचना चाहिए।
बौद्धिक रूप से मांग करने वाली सभी गतिविधियों से अलग डेटा प्रविष्टि । डेटा एंट्री ऑपरेटरों को किसी भी चीज़ की जांच करने, कुछ भी गिनने आदि के लिए एक साथ न पूछें। डेटा के कंप्यूटर-रीडेबल फेसमाइल बनाने के लिए अपने काम को प्रतिबंधित करें, इससे अधिक कुछ नहीं। विशेष रूप से, यह सिद्धांत डेटा-एंट्री फॉर्म को दर्शाता है, उस प्रारूप को प्रतिबिंबित करना चाहिए जिसमें आप मूल रूप से डेटा प्राप्त करते हैं, न कि उस प्रारूप में जिसमें आप डेटा को संग्रहीत करने की योजना बनाते हैं। बाद में एक प्रारूप को दूसरे में बदलना अपेक्षाकृत आसान है, लेकिन डेटा दर्ज करते समय मक्खी पर परिवर्तन का प्रयास करना एक त्रुटि-प्रवण प्रक्रिया है।
डेटा ऑडिट ट्रेल बनाएँ : जब भी डेटा में कुछ भी किया जाता है, डेटा एंट्री स्टेज पर शुरू होता है, तो इस दस्तावेज़ को दर्ज करें और इस तरह से प्रक्रिया को रिकॉर्ड करें जिससे वापस जाना आसान हो जाए और जाँचें कि क्या गलत हुआ (क्योंकि चीजें गलत हो जाएंगी)। समय टिकटों के लिए फ़ील्ड भरने पर विचार करें, डेटा एंट्री ऑपरेटरों की पहचान, मूल डेटा के स्रोतों के पहचानकर्ता (जैसे रिपोर्ट और उनके पेज नंबर), आदि संग्रहण सस्ता है, लेकिन एक त्रुटि को ट्रैक करने का समय महंगा है।
सब कुछ स्वचालित । मान लें कि किसी भी कदम को (सबसे बुरे समय में, मर्फी के कानून के अनुसार) फिर से तैयार करना होगा, और उसी के अनुसार योजना बनानी होगी। अब हाथ से कुछ "सरल कदम" करके समय बचाने की कोशिश न करें।
विशेष रूप से, डेटा प्रविष्टि के लिए समर्थन बनाएं : प्रत्येक तालिका के लिए एक फ्रंट एंड बनाएं (यहां तक कि एक स्प्रेडशीट अच्छी तरह से कर सकते हैं) जो डेटा प्राप्त करने के लिए एक स्पष्ट, सरल, समान तरीका प्रदान करता है। उसी समय सामने के छोर को आपके "व्यवसाय" को लागू करना चाहिए। नियम: "यह है, इसे कई सरल वैधता जांचों के रूप में करना चाहिए। (जैसे, पीएच 0 और 14 के बीच होना चाहिए; गिनती सकारात्मक होनी चाहिए।) आदर्श रूप से, संबंधपरक अखंडता जांच को लागू करने के लिए एक डीबीएमएस का उपयोग करें (उदाहरण के लिए, माप से जुड़ी प्रत्येक प्रजाति वास्तव में डेटाबेस में मौजूद है)।
लगातार चीजों को गिनें और जांचें कि गिनती बिल्कुल सहमत है। उदाहरण के लिए, यदि एक अध्ययन 10 प्रजातियों की विशेषताओं को मापने वाला है, तो सुनिश्चित करें (जैसे ही डेटा प्रविष्टि पूर्ण हो जाती है) कि 10 प्रजातियां वास्तव में रिपोर्ट की जाती हैं। हालाँकि, गिनती की जाँच करना सरल और असंक्रामक है, यह डुप्लिकेट और छोड़े गए डेटा का पता लगाने में बहुत अच्छा है।
यदि डेटा मूल्यवान और महत्वपूर्ण हैं, तो संपूर्ण डेटासेट में स्वतंत्र रूप से डबल-एंट्री करें । इसका मतलब है कि प्रत्येक आइटम को दो अलग-अलग गैर-अंतःक्रियात्मक लोगों द्वारा अलग-अलग समय पर दर्ज किया जाएगा। यह टाइपोस, लापता डेटा, आदि को पकड़ने का एक शानदार तरीका है। क्रॉस-चेकिंग पूरी तरह से स्वचालित हो सकती है। यह तेजी से, त्रुटियों को पकड़ने में बेहतर है, और 100% मैनुअल डबल चेकिंग से अधिक कुशल है। (डेटा प्रविष्टि "लोग" में OCR के साथ स्कैनर जैसे उपकरण शामिल हो सकते हैं।)
डेटा को संग्रहीत और प्रबंधित करने के लिए DBMS का उपयोग करें । स्प्रेडशीट डेटा प्रविष्टि का समर्थन करने के लिए महान हैं, लेकिन जितनी जल्दी हो सके अपने डेटा को स्प्रैडशीट या टेक्स्ट फ़ाइलों और एक वास्तविक डेटाबेस से बाहर निकालें। यह स्वचालित डेटा अखंडता जांच के लिए बहुत सारे समर्थन जोड़ते समय सभी प्रकार की कपटपूर्ण त्रुटियों को रोकता है। यदि आपको डेटा संग्रहण और प्रबंधन के लिए अपने सांख्यिकीय सॉफ़्टवेयर का उपयोग करना है, लेकिन समर्पित DBMS का उपयोग करने पर गंभीरता से विचार करें: यह बेहतर काम करेगा।
सभी डेटा दर्ज किए जाने और स्वचालित रूप से जांचने के बाद, चित्र बनाएं: सॉर्ट किए गए टेबल, हिस्टोग्राम, स्कैप्लेट्स इत्यादि बनाएं, और उन सभी को देखें। ये किसी भी पूर्ण सांख्यिकीय पैकेज के साथ आसानी से स्वचालित हैं।
लोगों को दोहराए जाने वाले कार्यों को करने के लिए न कहें जो कंप्यूटर कर सकता है । कंप्यूटर इन पर बहुत तेज और अधिक विश्वसनीय है। किसी भी कार्य को करने के लिए छोटी लिपियों और छोटे कार्यक्रमों को लिखने (और दस्तावेजीकरण) की आदत डालें, जिन्हें तुरंत पूरा नहीं किया जा सकता है। ये आपके ऑडिट ट्रेल का हिस्सा बन जाएंगे और वे काम को आसानी से फिर से करने में सक्षम बनाएंगे। जिस भी प्लेटफ़ॉर्म के साथ आप सहज हैं और जो कार्य के लिए उपयुक्त है, उसका उपयोग करें। (इन वर्षों में, जो उपलब्ध था, उसके आधार पर, मैंने ऐसे प्लेटफार्मों की एक विस्तृत श्रृंखला का उपयोग किया है और सभी अपने तरीके से प्रभावी रहे हैं, AWK और SED लिपियों के माध्यम से C और फोरट्रान कार्यक्रमों से लेकर, Excel और Word के लिए VBA स्क्रिप्ट और कस्टम रिलेशनल डेटाबेस सिस्टम, GIS और सांख्यिकीय विश्लेषण प्लेटफॉर्म जैसे R और Stata के लिए लिखे गए कार्यक्रम।)
यदि आप इनमें से अधिकांश दिशानिर्देशों का पालन करते हैं, तो डेटाबेस में डेटा प्राप्त करने में लगभग 50% -80% काम डेटाबेस डिजाइन और सहायक लिपियों को लिखना होगा। ऐसी परियोजना के माध्यम से 90% प्राप्त करना और 50% से कम पूर्ण होना असामान्य नहीं है, फिर भी समय पर समाप्त होता है: एक बार सब कुछ सेट हो जाने और परीक्षण करने के बाद, डेटा प्रविष्टि और जाँच आश्चर्यजनक रूप से कुशल हो सकती है।