ठीक है, निष्पक्ष चेतावनी - यह एक दार्शनिक सवाल है जिसमें कोई संख्या नहीं है। मैं इस बारे में बहुत सोच रहा हूं कि समय के साथ डेटा सेट में कैसे त्रुटि होती है और विश्लेषकों द्वारा इसका इलाज कैसे किया जाना चाहिए - या अगर यह वास्तव में सभी के लिए होना चाहिए?
पृष्ठभूमि के लिए, मैं एक दीर्घकालिक अध्ययन पर विश्लेषण कर रहा हूं जिसमें 7-8 वर्षों में संभवतः 25 लोगों द्वारा एकत्र किए गए कई डेटा सेट शामिल हैं - किसी ने भी सभी डेटा को सुसंगत संरचना में नहीं लाया है (यह मेरा काम है)। मैं बहुत सारी डेटा-एंट्री कर रहा हूं (पुरानी लैब नोटबुक की फोटोकॉपी से ट्रांसक्रिप्शन कर रहा हूं) और मैं छोटी ट्रांसक्रिप्शन त्रुटियों को ढूंढता रहता हूं जो अन्य लोगों ने बनाई, और डेटा प्रविष्टियां भी ढूंढना जो पढ़ना मुश्किल या असंभव है - ज्यादातर क्योंकि स्याही समय के साथ फीका पड़ गया। मैं डेटा का उपयोग करने के बारे में 'सर्वश्रेष्ठ अनुमान' बनाने के लिए संदर्भ का उपयोग कर रहा हूं और यदि मैं बिल्कुल निश्चित नहीं हूं तो डेटा बिंदु को पूरी तरह से छोड़ देना चाहिए। लेकिन मैं इस तथ्य के बारे में सोचता रहता हूं कि हर बार डेटा की नकल की जाती है, जब तक कि मूल डेटा पूरी तरह से खो न जाए, त्रुटियों की आवृत्ति अनिवार्य रूप से बढ़ जाएगी।
इसलिए, यह मुझे एक विचार की ओर ले जाता है: उपकरण / माप त्रुटियों और रिकॉर्डिंग त्रुटियों के अलावा, एक मूलभूत 'डेटा हैंडलिंग त्रुटि' घटक है जो समय के साथ बढ़ेगा और डेटा की अधिक हैंडलिंग के साथ (साइड नोट: यह संभवतः है ऊष्मप्रवैगिकी के दूसरे नियम को सही तरीके से बताने का एक और तरीका है; डेटा एंट्रॉपी हमेशा बढ़ेगी)। नतीजतन, मुझे आश्चर्य है कि क्या डेटा सेटों के जीवन-इतिहास (बोन्फ्रोनी सुधार के लिए कुछ समान) के लिए किसी तरह का 'सुधार' शुरू किया जाना चाहिए? दूसरे शब्दों में, क्या हमें यह मान लेना चाहिए कि पुराने, या अधिक प्रतिलिपि किए गए डेटा सेट कम सटीक हैं, और यदि हां, तो क्या हमें तदनुसार निष्कर्षों को समायोजित करना चाहिए?
लेकिन फिर मेरा दूसरा विचार यह है कि त्रुटियां डेटा संग्रह और डेटा हैंडलिंग का एक अंतर्निहित हिस्सा हैं, और चूंकि सभी सांख्यिकीय परीक्षण वास्तविक दुनिया डेटा के साथ विकसित किए गए हैं, शायद विश्लेषण के इन स्रोतों का विश्लेषण पहले से ही 'कीमत' में है?
इसके अलावा, ध्यान देने योग्य एक और बात यह है कि चूंकि डेटा त्रुटियां यादृच्छिक हैं, इसलिए वे इसे सुधारने की तुलना में एक खोज की ताकत को कम करने की अधिक संभावना रखते हैं - दूसरे शब्दों में, डेटा हैंडलिंग त्रुटियों से टाइप 2 त्रुटियां होंगी, टाइप 1 त्रुटियां नहीं। । इसलिए, कई संदर्भों में, यदि आप पुराने / संदिग्ध डेटा का उपयोग कर रहे थे और फिर भी एक प्रभाव मिला, तो इससे आपका आत्मविश्वास बढ़ेगा कि प्रभाव वास्तविक है (क्योंकि यह डेटा सेट के लिए यादृच्छिक त्रुटि के अतिरिक्त जीवित रहने के लिए पर्याप्त मजबूत था)। तो इस कारण से, शायद 'सुधार' दूसरे तरीके से जाना चाहिए (एक 'खोजने' के लिए आवश्यक अल्फा-स्तर में वृद्धि), या बस हमें परेशान न करें?
वैसे भी, इतनी क्रियात्मक और खेदजनक होने के लिए क्षमा करें, मुझे वास्तव में यकीन नहीं है कि इस प्रश्न को और अधिक स्पष्ट रूप से कैसे पूछा जाए। मेरे साथ तकलीफ झेलने के लिए धन्यवाद।