सांख्यिकीय विश्लेषण के लिए डेटा हैंडलिंग त्रुटियां पहले से ही 'कीमत में' हैं?


10

ठीक है, निष्पक्ष चेतावनी - यह एक दार्शनिक सवाल है जिसमें कोई संख्या नहीं है। मैं इस बारे में बहुत सोच रहा हूं कि समय के साथ डेटा सेट में कैसे त्रुटि होती है और विश्लेषकों द्वारा इसका इलाज कैसे किया जाना चाहिए - या अगर यह वास्तव में सभी के लिए होना चाहिए?

पृष्ठभूमि के लिए, मैं एक दीर्घकालिक अध्ययन पर विश्लेषण कर रहा हूं जिसमें 7-8 वर्षों में संभवतः 25 लोगों द्वारा एकत्र किए गए कई डेटा सेट शामिल हैं - किसी ने भी सभी डेटा को सुसंगत संरचना में नहीं लाया है (यह मेरा काम है)। मैं बहुत सारी डेटा-एंट्री कर रहा हूं (पुरानी लैब नोटबुक की फोटोकॉपी से ट्रांसक्रिप्शन कर रहा हूं) और मैं छोटी ट्रांसक्रिप्शन त्रुटियों को ढूंढता रहता हूं जो अन्य लोगों ने बनाई, और डेटा प्रविष्टियां भी ढूंढना जो पढ़ना मुश्किल या असंभव है - ज्यादातर क्योंकि स्याही समय के साथ फीका पड़ गया। मैं डेटा का उपयोग करने के बारे में 'सर्वश्रेष्ठ अनुमान' बनाने के लिए संदर्भ का उपयोग कर रहा हूं और यदि मैं बिल्कुल निश्चित नहीं हूं तो डेटा बिंदु को पूरी तरह से छोड़ देना चाहिए। लेकिन मैं इस तथ्य के बारे में सोचता रहता हूं कि हर बार डेटा की नकल की जाती है, जब तक कि मूल डेटा पूरी तरह से खो न जाए, त्रुटियों की आवृत्ति अनिवार्य रूप से बढ़ जाएगी।

इसलिए, यह मुझे एक विचार की ओर ले जाता है: उपकरण / माप त्रुटियों और रिकॉर्डिंग त्रुटियों के अलावा, एक मूलभूत 'डेटा हैंडलिंग त्रुटि' घटक है जो समय के साथ बढ़ेगा और डेटा की अधिक हैंडलिंग के साथ (साइड नोट: यह संभवतः है ऊष्मप्रवैगिकी के दूसरे नियम को सही तरीके से बताने का एक और तरीका है; डेटा एंट्रॉपी हमेशा बढ़ेगी)। नतीजतन, मुझे आश्चर्य है कि क्या डेटा सेटों के जीवन-इतिहास (बोन्फ्रोनी सुधार के लिए कुछ समान) के लिए किसी तरह का 'सुधार' शुरू किया जाना चाहिए? दूसरे शब्दों में, क्या हमें यह मान लेना चाहिए कि पुराने, या अधिक प्रतिलिपि किए गए डेटा सेट कम सटीक हैं, और यदि हां, तो क्या हमें तदनुसार निष्कर्षों को समायोजित करना चाहिए?

लेकिन फिर मेरा दूसरा विचार यह है कि त्रुटियां डेटा संग्रह और डेटा हैंडलिंग का एक अंतर्निहित हिस्सा हैं, और चूंकि सभी सांख्यिकीय परीक्षण वास्तविक दुनिया डेटा के साथ विकसित किए गए हैं, शायद विश्लेषण के इन स्रोतों का विश्लेषण पहले से ही 'कीमत' में है?

इसके अलावा, ध्यान देने योग्य एक और बात यह है कि चूंकि डेटा त्रुटियां यादृच्छिक हैं, इसलिए वे इसे सुधारने की तुलना में एक खोज की ताकत को कम करने की अधिक संभावना रखते हैं - दूसरे शब्दों में, डेटा हैंडलिंग त्रुटियों से टाइप 2 त्रुटियां होंगी, टाइप 1 त्रुटियां नहीं। । इसलिए, कई संदर्भों में, यदि आप पुराने / संदिग्ध डेटा का उपयोग कर रहे थे और फिर भी एक प्रभाव मिला, तो इससे आपका आत्मविश्वास बढ़ेगा कि प्रभाव वास्तविक है (क्योंकि यह डेटा सेट के लिए यादृच्छिक त्रुटि के अतिरिक्त जीवित रहने के लिए पर्याप्त मजबूत था)। तो इस कारण से, शायद 'सुधार' दूसरे तरीके से जाना चाहिए (एक 'खोजने' के लिए आवश्यक अल्फा-स्तर में वृद्धि), या बस हमें परेशान न करें?

वैसे भी, इतनी क्रियात्मक और खेदजनक होने के लिए क्षमा करें, मुझे वास्तव में यकीन नहीं है कि इस प्रश्न को और अधिक स्पष्ट रूप से कैसे पूछा जाए। मेरे साथ तकलीफ झेलने के लिए धन्यवाद।


7
यह एक महान प्रश्न (+1) है। एक बिंदु, यद्यपि: यह आपके द्वारा उल्लेखित अधिकांश डेटा त्रुटियों के इलाज के लिए एक पर्याप्त त्रुटि हो सकती है "यादृच्छिक।" उदाहरण के लिए, अन्य अंकों की तुलना में क्षणिकाओं के दौरान "0", "5", "6", और "8" अंकों के अधिक अंतर होते हैं (और इनमें से कुछ "के रूप में गलत हो सकते हैं" और इसके विपरीत। )। इसके अलावा, प्रमुख डेटा मूल्यों (जैसे कि चरम) के लिए किए गए परिवर्तन अक्सर जल्दी से पहचाने और तय किए जाते हैं। यद्यपि इन डेटा-भ्रष्टाचार प्रक्रियाओं के लिए निश्चित रूप से कुछ तत्व हैं, लेकिन उन्हें सही ढंग से चित्रित करना एक महत्वपूर्ण मुद्दा हो सकता है।
whuber

1
आप डेटा हैंडलिंग त्रुटियों का इलाज क्यों नहीं करते हैं, माप त्रुटियों का हिस्सा हैं और तदनुसार उनके साथ व्यवहार करते हैं? यदि मनोरंजन पार्क की सवारियों की संख्या को मापने के लिए, मुझे फाटकों को देखने के लिए 20 लोगों को तैनात करने की आवश्यकता है, तो मैं इस 20 लोगों की टीम को माप के उपकरण के रूप में विचार कर सकता हूं
अक्सकाल

@ व्हीबर, यह अभी भी 8 और 5 के मिश्रण के लिए यादृच्छिक है, हालांकि इसमें 5 और 7. के मिश्रण की समान संभावना नहीं हो सकती है
अक्सकाल

1
@whuber, यह एक आकर्षक बिंदु है (कुछ प्रकार की प्रतिलेखन त्रुटियों की गैर-समान आवृत्ति) जिसके बारे में मैंने नहीं सोचा था। क्या आप मुझे इसके बारे में और जानने के लिए किसी स्रोत की ओर इशारा कर सकते हैं? यह मुझे आश्चर्यचकित करता है कि क्या अंक आवृत्ति के आधार पर डेटा-गुणवत्ता परीक्षण विकसित किया जा सकता है? मैंने डिजिट फ़्रीक्वेंसी के आधार पर धोखाधड़ी / फ़ेक डेटा के लिए समान परीक्षणों के बारे में सुना है, इसलिए मैं कल्पना करता हूं कि यदि आप जिस ट्रेंड का उल्लेख करते हैं, वह ऐसा ही संभव होगा।
जस मैक्स

@ शुभंकर, एक और विचार। आप 0, 5, 6, 8 का उल्लेख अक्सर भ्रमित करते हैं - क्योंकि वे एक जैसे दिखते हैं? यह मुझे एहसास दिलाता है कि त्रुटि के विभिन्न स्रोतों में विशेषता प्रतिस्थापन त्रुटियां होंगी - उदाहरण के लिए, यदि आप डेटा सुन रहे थे (रिकॉर्डिंग किसी ने क्या कहा) तो मुझे लगता है कि 5 और 9 शायद अधिक बार भ्रमित होंगे। यदि त्रुटि का स्रोत एन्ट्रापी था (स्याही लुप्त होती या इलेक्ट्रॉन घूम रहा है) तो मुझे लगता है कि प्रतिस्थापन अधिक यादृच्छिक होगा, लेकिन संभवतः अद्वितीय होगा। यदि ये पैटर्न आयोजित किया गया है, तो शायद आप बड़े डेटा सेट में अंकों की आवृत्ति के आधार पर त्रुटि के स्रोतों की जांच कर सकते हैं।
जस मैक्स 19

जवाबों:


3

मैं @ अक्षल का सुझाव देता हूं: यदि मापन त्रुटि विश्लेषक द्वारा संभावित रूप से महत्वपूर्ण देखी जाती है, तो इसे डेटा-जनरेट करने की प्रक्रिया के हिस्से के रूप में स्पष्ट रूप से चित्रित किया जाना चाहिए।

मुझे ऐसे कई विचार दिखाई देते हैं, जो डेटा सेट करने की उम्र के आधार पर एक सामान्य सुधार कारक की शुरूआत के खिलाफ तर्क देते हैं।

सबसे पहले, डेटा खराब होने की डिग्री के लिए उम्र बहुत खराब प्रॉक्सी हो सकती है। दोहराव, संपीड़न, और संरक्षण की तकनीक और प्रयास और देखभाल की डिग्री जो सही प्रतिलेखन को सत्यापित करने में चली गई, स्पष्ट रूप से महत्वपूर्ण कारक हैं। कुछ प्राचीन ग्रंथों (जैसे, बाइबल) को सदियों से शून्य गिरावट के साथ संरक्षित किया गया है। आपका वीएचएस उदाहरण, जबकि वैध है, वास्तव में असामान्य है, इसमें प्रत्येक दोहराव घटना हमेशा त्रुटि का परिचय देती है, और प्रतिलेखन त्रुटियों के लिए जांचने और सही करने के आसान तरीके नहीं हैं - यदि कोई दोहराव और भंडारण के लिए सस्ती, व्यापक रूप से उपलब्ध तकनीकों का उपयोग करता है। मुझे उम्मीद है कि एक और अधिक महंगी प्रणालियों में निवेश के माध्यम से, शुरू की गई त्रुटियों की डिग्री काफी कम है।

यह अंतिम बिंदु अधिक सामान्य है: डेटा संरक्षण और प्रसार आर्थिक गतिविधियां हैं। संचरण की गुणवत्ता तैनात संसाधनों पर बहुत निर्भर करती है। बदले में ये विकल्प डेटा के कथित महत्व पर निर्भर करेगा जो कोई भी दोहराव और संचार कर रहा है।

विश्लेषक पर आर्थिक विचार लागू होते हैं। आपके विश्लेषण करते समय हमेशा अधिक कारक होते हैं जिन्हें आप ध्यान में रख सकते हैं। डेटा ट्रांसक्रिप्शन त्रुटियों को किन परिस्थितियों में पर्याप्त रूप से और महत्वपूर्ण रूप से पर्याप्त होना चाहिए, कि वे ध्यान में रखने योग्य हैं? मेरा कूबड़ है: ऐसी स्थितियां आम नहीं हैं। इसके अलावा, यदि संभावित डेटा गिरावट को आपके विश्लेषण में इसके लिए पर्याप्त महत्वपूर्ण के रूप में देखा जाता है, तो यह संभवतः एक सामान्य "सुधार" कदम डालने के बजाय प्रक्रिया को स्पष्ट रूप से मॉडल करने का प्रयास करने के लिए पर्याप्त है।

अंत में, इस तरह के एक सामान्य सुधार कारक डे नोवो को विकसित करने की आवश्यकता नहीं है । डेटा सेट के विश्लेषण के लिए पहले से ही सांख्यिकीय सिद्धांत और अभ्यास का पर्याप्त शरीर मौजूद है, जिसके लिए माप त्रुटि को महत्वपूर्ण माना जाता है।

संक्षेप में: यह एक दिलचस्प विचार है। लेकिन मुझे नहीं लगता कि इसे विश्लेषणात्मक अभ्यास में कोई बदलाव करना चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.