जवाबों:
Chl की सूची, जो कि फ्रैंक डेटा प्रोसेसिंग त्रुटियों पर केंद्रित है, मैं निम्नलिखित प्रश्नों और मुद्दों को संबोधित करने के लिए सबटलर त्रुटियों के लिए जाँचों को जोड़ूंगा (किसी विशेष क्रम में और निश्चित रूप से अपूर्ण नहीं):
डेटाबेस अखंडता मानते हुए, क्या डेटा उचित हैं? क्या वे मोटे तौर पर अपेक्षाओं या पारंपरिक मॉडलों के अनुरूप हैं, या वे समान डेटा से परिचित किसी को आश्चर्यचकित करेंगे?
क्या डेटा आंतरिक रूप से सुसंगत हैं? उदाहरण के लिए, यदि एक क्षेत्र को दो अन्य का योग माना जाता है, तो क्या यह है?
कैसे पूरा होता है डाटा? क्या वे डेटा संग्रह योजना चरण के दौरान निर्दिष्ट किए गए थे? क्या कोई अतिरिक्त डेटा है जिसकी योजना नहीं बनाई गई थी? यदि हां, तो वे वहां क्यों हैं?
ज्यादातर डेटा का विश्लेषण या स्पष्ट रूप से डेटा को एक पारदर्शक तरीके से मॉडल करता है और इसमें सामान्य विवरण से भिन्नता की संभावना शामिल होती है। इस तरह के प्रत्येक मॉडल में आउटलेर्स की पहचान करने का अपना विशेष तरीका है - सामान्य विवरण से उल्लेखनीय रूप से विचलन करने वाला डेटा। अन्वेषण और विश्लेषण के प्रत्येक चरण में बाहरी लोगों को पहचानने और समझने के लिए क्या प्रयास किए गए थे?
कई मामलों में विश्लेषक के लिए गुणवत्ता जांच और अंतर्दृष्टि के विश्लेषण में अतिरिक्त डेटा पेश करना संभव है। उदाहरण के लिए, प्राकृतिक और सामाजिक विज्ञानों के साथ-साथ व्यवसाय में कई डेटा सेट (कम से कम निहित) स्थान की जानकारी में शामिल हैं: जनगणना क्षेत्रों के पहचानकर्ता; देशों, राज्यों, काउंटी के नाम; ग्राहक ज़िप कोड; और इसी तरह। यहां तक कि अगर - शायद विशेष रूप से अगर - स्थानिक सहसंबंध ईडीए या मॉडलिंग का एक तत्व नहीं है, तो विश्लेषक स्थानों के भौगोलिक निरूपण के लिए डेटा में शामिल हो सकते हैं और पैटर्न और आउटलेयर की तलाश करने के लिए उन्हें मैप कर सकते हैं।
सबसे कपटी त्रुटियों में से एक जो विश्लेषण में रेंग सकती है, वह है डेटा की हानि। खेतों को निकालते समय, डेटा को सारांशित करना, डेटासेट में सुधार करना, आदि, यदि एक या दो आइटम एक बड़े डेटासेट से गिराए जाते हैं तो अक्सर इसे ध्वजांकित करने के लिए कुछ भी नहीं होगा। लेकिन कभी-कभी कुछ महत्वपूर्ण खो जाता है, किसी की अत्यधिक शर्मिंदगी के लिए अगर यह कभी भी खोजा जाता है। सरल जाँच - जैसे कि आंकड़ों के पहले और बाद की तुलना करना और डेटा के योग - ऐसी चीज़ों से बचाव के लिए नियमित रूप से होने की आवश्यकता है।
एक और कपटपूर्ण त्रुटि डिजिटल कंप्यूटिंग में टाइप रूपांतरण से जुड़ी है। उदाहरण के लिए, हाल ही में मुझे एक फ़्लोटिंग पॉइंट फ़ील्ड से कुंजी (दो डेटा फ़ाइलों के मिलान के लिए) का निर्माण करना पड़ा। सॉफ्टवेयर (स्टाटा) ने एक फाइल में सिंगल प्रिसिजन फ्लोट के रूप में फील्ड इम्पोर्ट किया, लेकिन जो भी कारण हो, दूसरी फाइल में डबल प्रिसिट फ्लोट के रूप में। अधिकांश समय मूल्यों का मिलान हुआ लेकिन, कुछ मामलों में अलग-अलग दौर के कारण, उन्होंने नहीं किया। परिणामस्वरूप कुछ डेटा खो गए थे। (6) के आवेदन के कारण ही मैंने इसे पकड़ा। सामान्य तौर पर, यह क्षेत्र डेटा प्रकारों की स्थिरता के लिए जांच करने के लिए भुगतान करता है: इन्ट्स बनाम फ्लोट्स, स्ट्रिंग्स की लंबाई, आदि।
यदि स्प्रेडशीट कभी भी विश्लेषण के किसी भी चरण में उपयोग की जाती है, तो सबसे खराब की उम्मीद करें। समस्या यह है कि यहां तक कि एक आवारा कीस्ट्रोके अदृश्य रूप से डेटा को दूषित कर सकता है। जब परिणाम महत्वपूर्ण होते हैं, तो यह आगे और पीछे होने का भुगतान करता है - स्प्रेडशीट पर निर्यात करें, विश्लेषण करें, वापस आयात करें और व्यवस्थित रूप से तुलना करें - यह सुनिश्चित करने के लिए कि कुछ भी अनहोनी नहीं हुई।
जब भी किसी डेटाबेस को अपडेट किया जाता है, तो यह सुनिश्चित करने के लिए सार्थक होता है कि प्रक्रिया में कुछ भी नहीं खोया, बदला, या दूषित होने के लिए पुराने के साथ पूर्ण तुलना करें।
उच्च स्तर पर, जब भी कोई अनुमान लगाया जाता है (जैसे कि प्रतिगमन, पीसीए, जो भी हो), तो यह एक अलग तकनीक का उपयोग करके प्रदर्शन करने के लिए सार्थक हो सकता है संवेदनशीलता या कोड में संभावित त्रुटियों के लिए भी। उदाहरण के लिए, मजबूत प्रतिगमन के कुछ रूप से ओएलएस प्रतिगमन का पालन करें और गुणांक की तुलना करें। महत्वपूर्ण परिणामों के लिए, दो (या अधिक) विभिन्न सॉफ़्टवेयर प्लेटफ़ॉर्म का उपयोग करके उत्तर प्राप्त करने के लिए आराम मिल सकता है।
शायद सबसे अच्छी तरह की सामान्य "स्थिरता जांच" जो कोई भी कर सकता है वह है सब कुछ ग्राफ करना, जल्दी और अक्सर।
मुझे लगता है कि यह डेटा अखंडता के बारे में गुणवत्ता नियंत्रण के कुछ प्रकार के साथ करना है , और अधिक विशेष रूप से आप नियमित रूप से जांच करते हैं कि आपका कार्यशील डेटाबेस दूषित नहीं है (स्थानांतरण, प्रतिलिपि के दौरान त्रुटि के कारण, या अपडेट या एक स्वच्छता जांच के बाद)। इसका अर्थ यह भी हो सकता है कि यह सुनिश्चित करना कि आपकी इंटरमीडिएट गणना डबल-चेक की गई है (या तो अपने सांख्यिकीय सॉफ्टवेयर में अतिरिक्त कोड या मैक्रोज़ के माध्यम से)।
अन्य जानकारी यहाँ मिल सकती है: ICH E6 (R1) रेफ़रेंस गाइड फ़ॉर गुड क्लिनिकल प्रैक्टिस फ़ॉर ईएमईए, गुड क्लिनिकल लेबोरेट्री प्रैक्टिस पर दिशानिर्देश या क्लिनिकल रिसर्च स्टडी इन्वेस्टिगेटर के टूलबॉक्स ।
अन्य अच्छे बिंदुओं को जोड़ने के लिए
एक्सेल का उपयोग करते समय, मैं हमेशा प्रत्येक पंक्ति के लिए पहले कॉलम के रूप में एक केस संख्या उत्पन्न करता हूं, फिर इसे अंतिम कॉलम में कॉपी किया जाता है। एक्सेल एक समय में बस कुछ कॉलम को छाँटने में काफी खुश लगता है, जिससे अव्यवस्था होती है यदि आप उन सभी का चयन करने के लिए सावधान नहीं हैं। हो सकता है आपको पता भी न चले कि ऐसा हुआ है। यह जांचने में सक्षम होना कि केस नंबर एक लाइन के पहले और आखिरी कॉलम में सहमत हैं, एक उपयोगी एहतियात है।
मैं हमेशा आउटलेर्स की समीक्षा करता हूं।
महत्वपूर्ण काम के लिए अलग-अलग लोगों द्वारा डेटा की दोहरी प्रविष्टि की सिफारिश की जाती है।
कागज के दस्तावेज़ों से डेटा दर्ज करते समय, एक संदर्भ पहचानकर्ता का उपयोग करना एक अच्छा विचार है जो सटीक दस्तावेज़ और पंक्ति को वापस संदर्भित करने में सक्षम हो जिससे प्रवेश प्रविष्टि, डेटा प्रविष्टि रूपों की संख्या इसके साथ मदद करती है।
संपादित करें - एक अन्य आइटम - मुझे पता है कि संपादन स्प्रेडशीट समस्याओं से भरा है, लेकिन उनके साथ डेटा प्रविष्टि को साफ करना बहुत आसान है। हालाँकि, मैं मूल असूचीबद्ध संस्करण को भी रखता हूँ, ताकि किसी भी परिवर्तन को सत्यापित किया जा सके या बहाल किए गए सबसे खराब मामले में।