छोटे-नमूनों के अध्ययन में खोजपूर्ण डेटा विश्लेषण और डेटा ड्रेजिंग का सामना कैसे करें?


25

खोजपूर्ण डेटा विश्लेषण (EDA) अक्सर अन्य "ट्रैक्स" का पता लगाने की ओर जाता है जो जरूरी नहीं कि परिकल्पना के प्रारंभिक सेट से संबंधित हैं। मैं एक सीमित नमूना आकार और विभिन्न प्रश्नावली (सामाजिक-जनसांख्यिकी डेटा, न्यूरोसाइकोलॉजिकल या चिकित्सा तराजू के माध्यम से एकत्र किए गए डेटा के साथ अध्ययन के मामले में ऐसी स्थिति का सामना करता हूं - जैसे, मानसिक या शारीरिक कामकाज, अवसाद / चिंता का स्तर, लक्षण चेकलिस्ट) )। ऐसा होता है कि ईडीए कुछ अप्रत्याशित संबंधों ("अप्रत्याशित" अर्थ को उजागर करने में मदद करता है जिसका अर्थ है कि वे प्रारंभिक विश्लेषण योजना में शामिल नहीं थे) जो अतिरिक्त प्रश्नों / परिकल्पना में अनुवाद करता है।

जैसा कि ओवरफिटिंग, डेटा ड्रेजिंग या स्नूपिंग के मामले में होता है, इसके परिणाम सामान्य नहीं होते हैं। हालांकि, जब बहुत अधिक डेटा उपलब्ध होता है, तो शोधकर्ता (चिकित्सक या चिकित्सक के लिए) परिकल्पना के सीमित सेट को स्थगित करना काफी कठिन होता है।

मैं जानना चाहूंगा कि क्या अच्छी तरह से स्वीकार किए गए तरीके, सिफारिशें, या अंगूठे के नियम हैं जो छोटे-नमूने के अध्ययन के मामले में ईडीए को वितरित करने में मदद कर सकते हैं।


मुझे पूरा यकीन नहीं है कि आपके नमूने का आकार क्यों मायने रखता है। क्या आप इस बात पर विशेष तर्क दे सकते हैं कि आपको लगता है कि यह छोटे n के लिए अलग है क्योंकि यह बड़े n के लिए है?
एंडी डब्ल्यू

2
@Andy क्योंकि तब बहुत ही सीमित नमूना आकार के साथ एक होल्डआउट नमूना और / या वर्ग असंतुलन पर विचार करना बहुत मुश्किल हो जाता है ( ) आम तौर पर सीवी लागू करते समय बड़े वर्गीकरण त्रुटि दर प्राप्त करता है; कुछ व्यक्तियों को द्विभाजित वितरण का अध्ययन करते समय आउटलेर के रूप में माना जा सकता है; और अपने स्वयं के माप त्रुटि के साथ उपकरणों पर एकत्र उपायों कम विश्वसनीय (छोटे हैं n , बड़े σ )। एक निश्चित अर्थ में, कभी-कभी एक विरूपण साक्ष्य से एक अप्रत्याशित संबंध को भंग करना मुश्किल होता है। 13<n<25nσ
chl

मुझे लगता है कि मैं उस भावना को समझ सकता हूं अगर आपकी रुचि पूरी तरह से वर्गीकरण में है। मुझे लगता है कि कारण के अनुमान में डेटा स्नूपिंग के साथ समस्याएँ समान हैं (यानी रिश्तों की पहचान करने के लिए बढ़ी हुई शक्ति द्वारा समस्याओं को हल नहीं किया जाता है)। मैं इस राय को एक उत्तर में तैयार करने की कोशिश करूँगा। मैं इस बीच मुख्य फोरम पर एक प्रश्न पूछ सकता हूं, क्योंकि कार्यनिष्क्रियता के लिए क्रॉस-मान्यता के उपयोग के बारे में, क्योंकि मैं अपने क्षेत्र में किसी भी काम में नहीं आया हूं जो ऐसा करता है।
एंडी डब्ल्यू

1
@ और धन्यवाद। उम्मीद है, आपके प्रश्न को बहुत सारे दिलचस्प जवाब मिलेंगे।
chl

जवाबों:


10

मुझे लगता है कि मुख्य बात यह है कि ऐसे परिणामों की रिपोर्ट करते समय ईमानदार होना चाहिए कि वे ईडीए से अप्रत्याशित निष्कर्ष नहीं थे और एक प्राथमिकता परिकल्पना के आधार पर प्रारंभिक विश्लेषण योजना का हिस्सा नहीं थे । कुछ लोग ऐसे परिणामों को 'परिकल्पना उत्पन्न करना' लेबल करना पसंद करते हैं: जैसे Google विद्वान पर इस वाक्यांश की खोज से पहली हिट में इसके सार के निष्कर्ष खंड में निम्नलिखित शामिल हैं:

जैसा कि यह एक "खोजपूर्ण" विश्लेषण था, इस आशय को परिकल्पना पैदा करने के रूप में माना जाना चाहिए और अन्य परीक्षणों में संभावित रूप से मूल्यांकन किया जाना चाहिए ...

हालांकि ध्यान दें कि हालांकि यह एक पोस्ट-हॉक उपसमूह विश्लेषण था, यह एक यादृच्छिक नियंत्रण परीक्षण से था, न कि एक अवलोकन अध्ययन, जिसमें समस्या बदतर हो जाती है। फिलिप कोल ने इस विचार पर जोर दिया कि अवलोकन संबंधी ('महामारी विज्ञान') अध्ययन एक जानबूझकर उत्तेजक लेकिन मनोरंजक टिप्पणी में परिकल्पना उत्पन्न कर सकते हैं:

पी कोल। परिकल्पना पैदा करने वाली मशीन। महामारी विज्ञान 1993; 4 : 271-273।


+1 लिंक (और रेटाग) के लिए धन्यवाद। मैं इस दिशा में देखूंगा।
chl

13

मैं सिर्फ इच्छुक पाठक के लिए डेटा ड्रेजिंग और नैदानिक ​​अध्ययन के बारे में कुछ संदर्भ छोड़ता हूं । यह @onestop के ठीक जवाब का विस्तार करने का इरादा है । मैं केवल अनेक तुलनाओं या डिजाइन मुद्दों पर ध्यान केंद्रित लेख से बचने के लिए हालांकि कई अंतिमबिंदुओं साथ पढ़ाई वर्तमान को चुनौती देने और विवादास्पद विचार विमर्श (लंबी बारे में रोथमान के दावों के बाद करने के लिए जारी करने की कोशिश की, बेकार समायोजन , महामारी विज्ञान 1990, 1: 43-46; या में Feise की समीक्षा देखें बीएमसी चिकित्सा अनुसंधान पद्धति 2002, 2: 8)।

मेरी समझ यह है, हालांकि मैंने खोजपूर्ण डेटा विश्लेषण के बारे में बात की है , मेरा सवाल अधिक आम तौर पर परिकल्पना संचालित परीक्षण के समानांतर, इसके संभावित नुकसान के साथ डेटा खनन के उपयोग को संबोधित करता है।

  1. कोह, एचसी और टैन, जी (2005)। हेल्थकेयर में डाटा माइनिंग एप्लीकेशनहेल्थकेयर सूचना प्रबंधन जर्नल , 19 (2), 64-72।
  2. इयोनिडीस, जेपीए (2005)। अधिकांश प्रकाशित शोध निष्कर्ष झूठे क्यों हैं । पीएलओएस मेडिसिन , 2 (8), ई 124।
  3. एंडरसन, डीआर, लिंक, डब्ल्यूए, जॉनसन, डीएच, और बर्नहैम, केपी (2001)। डेटा विश्लेषण के परिणाम प्रस्तुत करने के लिए सुझावजर्नल ऑफ़ वाइल्डलाइफ़ मैनेजमेंट , 65 (3), 373-378। - यह इस तथ्य के बारे में @ onestop की टिप्पणी है कि हमें परिकल्पना के प्रारंभिक सेट से परे डेटा-संचालित अन्वेषण / मॉडलिंग को स्वीकार करना होगा
  4. मिशेल, केबी और रोज़नर, बीए (1996)। डेटा ट्रॉलिंग: मछली या मछली को नहींलांसेट , 348, 1152-1153।
  5. लॉर्ड, एसजे, गेब्स्की, वीजे, और कीच, एसी (2004)। नैदानिक ​​परीक्षणों में कई विश्लेषण: ध्वनि विज्ञान या डेटा ड्रेजिंग? द मेडिकल जर्नल ऑफ़ ऑस्ट्रेलिया , 181 (8), 452-454।
  6. स्मिथ, जीडी और इब्राहिम, एस (2002)। डेटा ड्रेजिंग, पूर्वाग्रह या भ्रमबीएमजे , 325, 1437-1438।
  7. अफशरत, डी और वुल्फ, एम (2007)। बहुस्तरीय और मिश्रित प्रभाव वाले मॉडल में 'डेटा स्नूपिंग' से बचनारॉयल सांख्यिकीय सोसायटी ए , 170 (4) के जर्नल, 1035-1059
  8. एंडरसन, डीआर, बर्नहैम, केपी, गोल्ड, डब्ल्यूआर, और चेरी, एस (2001)। उन प्रभावों को खोजने के बारे में चिंताएं जो वास्तव में गंभीर हैंवाइडलाइफ सोसायटी बुलेटिन , 29 (1), 311-316।

यह सिर्फ एक पुनरावृत्ति है 'जो मैंने अब तक पढ़ा है। जाहिर है, मैं अपने जवाब को स्वीकार नहीं करूंगा । किसी भी अन्य विचारों की बहुत सराहना की जाएगी।
chl

मेरी उत्तर ची को स्वीकार करने के लिए धन्यवाद, हालांकि आपकी अपनी संदर्भ सूची बहुत बेहतर और हाल की है। मुझे वास्तव में उनमें से एक जोड़े के बारे में सोचना चाहिए था क्योंकि मैंने उन्हें अपनी हार्ड ड्राइव पर ले लिया है, और उनमें से कुछ हिस्सों को पढ़ा भी हो सकता है ...
onestop
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.