खोजपूर्ण डेटा विश्लेषण में टेक्सास के शार्पशूटर की गिरावट


23

मैं प्रकृति में इस लेख को पढ़ रहा था जिसमें डेटा विश्लेषण के संदर्भ में कुछ कमियों को समझाया गया है। मैंने देखा कि टेक्सास के शार्पशूटर की खराबी से बचना विशेष रूप से मुश्किल था:

एक संज्ञानात्मक जाल जो डेटा विश्लेषण के दौरान इंतजार करता है, उसे टेक्सास के शार्पशूटर की कथा द्वारा चित्रित किया गया है: एक अयोग्य निशानदार जो एक खलिहान के किनारे गोलियों का एक यादृच्छिक पैटर्न फायर करता है, बुलेट छेद के सबसे बड़े डंप के चारों ओर एक लक्ष्य खींचता है, और गर्व से इंगित करता है उसकी सफलता।

उनकी बुल्सआई स्पष्ट रूप से हंसी है - लेकिन जुआ खेलने वालों के लिए पराजय इतनी स्पष्ट नहीं है जो 'गर्म हाथ' में विश्वास करते हैं जब उनके पास जीत की एक लकीर होती है, या उन लोगों के लिए जो अलौकिक महत्व देखते हैं जब सभी विषम संख्या में लॉटरी निकलती है।

न ही यह हमेशा शोधकर्ताओं के लिए स्पष्ट है। पश्लर कहते हैं, "आपको डेटा से कुछ प्रोत्साहन मिलता है और फिर लगता है, ठीक है, यह नीचे जाने का मार्ग है।" "आपको एहसास नहीं है कि आपके पास 27 अलग-अलग विकल्प थे और आपने उस एक को चुना जो आपको सबसे सहमत या दिलचस्प परिणाम देता था, और अब आप कुछ ऐसे काम में लगे हुए हैं जो डेटा के निष्पक्ष प्रतिनिधित्व पर नहीं है। "

मुझे लगता है कि इस तरह के अन्वेषण कार्य आम हैं और अक्सर, विश्लेषण के उस हिस्से के आधार पर परिकल्पनाओं का निर्माण किया जाता है। इस प्रक्रिया के लिए एक संपूर्ण दृष्टिकोण ( EDA ) समर्पित है:

डेटा का पता लगाने के लिए सांख्यिकीविदों को प्रोत्साहित करने के लिए जॉन टके द्वारा व्याख्यात्मक डेटा विश्लेषण को बढ़ावा दिया गया था, और संभवतया परिकल्पना तैयार की गई थी जिससे नए डेटा संग्रह और प्रयोग किए जा सके।

ऐसा लगता है कि पहले से परिकल्पना किए बिना किसी भी खोजपूर्ण प्रक्रिया का आयोजन किया जाता है, जिसमें सहज परिकल्पना उत्पन्न होती है।

ध्यान दें कि ऊपर EDA का वर्णन वास्तव में बात करता है new data collection and experiments। मैं समझता हूं कि नए डेटा एकत्र किए जाने के बाद, फिर एक पुष्टिकरण डेटा विश्लेषण (सीडीए) उपयुक्त है। हालांकि, मुझे नहीं लगता कि यह अंतर बहुत स्पष्ट रूप से बनाया गया है, और यद्यपि ईडीए और सीडीए का एक पृथक्करण आदर्श होगा, निश्चित रूप से कुछ परिस्थितियां हैं जिनमें यह संभव नहीं है। मैं यह कहना चाहूंगा कि इस अलगाव का कड़ाई से पालन असामान्य है और अधिकांश चिकित्सक EDA प्रतिमान की सदस्यता नहीं लेते हैं।

तो मेरा सवाल यह है: क्या ईडीए (या डेटा की खोज की कोई अनौपचारिक प्रक्रिया) टेक्सास के शार्पशूट की गिरावट के लिए गिरने की अधिक संभावना है?


3
मुझे ठीक-ठीक पता नहीं है कि आप "सहज परिकल्पना" से क्या मतलब है। खोजपूर्ण डेटा विश्लेषण की भावना डेटा को देखने और कई तरह के पैटर्न के लिए खुला होना है, जिसमें वे पैटर्न शामिल हैं जिनकी आपको उम्मीद नहीं थी। न कम, न ज्यादा। खोजपूर्ण डेटा विश्लेषण में कुछ भी अच्छे विचारों की गारंटी नहीं देता है और कुछ भी नियम नहीं करता है या आपको गंभीर रूप से सोचने या अंतर्निहित विज्ञान (व्यापक अर्थ) के साथ जो कुछ भी करता है उसे जोड़ने की अनुमति देता है। इसलिए, ईडीए की आलोचना करने के लिए यहां कुछ जोखिम है, जो किसी के लिए इनकार नहीं करते हैं। या कोई समर्थन नहीं करता है।
निक कॉक्स

3
EDA में सीखना और सिखाना सबसे मुश्किल है, ठीक उसी तरह जो महत्व परीक्षणों को (सबसे आशावादी खातों में) करने में मदद करने के लिए होता है: डेटा में विवरणों की अधिक व्याख्या न करने की आदत में पड़ना, जो ध्यान देने योग्य नहीं हैं। । मैं तर्क दूंगा कि EDA के कई खाते इस विचार को बहुत कठिन नहीं बनाते हैं कि एक पैटर्न को गंभीरता से लेने के लिए इसे अलग-अलग डेटासेट में पहचाना जाना चाहिए, लेकिन यह कि सांख्यिकीय विज्ञान में उपेक्षा आम है।
निक कॉक्स

1
धन्यवाद। मुद्दा यह है कि कई परिकल्पनाओं को उत्पन्न करना और उन्हें एक ही डेटासेट में परीक्षण करना वास्तव में खतरनाक है क्योंकि आप उनमें से एक की पुष्टि करने की संभावना रखते हैं, भले ही यह गलत हो। जैसा कि क्रेओसोट बताता है, पी-मूल्यों में सुधार की आवश्यकता होगी। दुर्भाग्य से, मैंने इसे अभ्यास में कभी नहीं देखा।
रॉबर्ट स्मिथ

2
1980 के दशक की शुरुआत में (फ्रेंच) EDA सीखने से, मुझे यह धारणा मिली कि वास्तव में एक मजबूत सांख्यिकीय संरचना की तुलना में अपने निष्कर्ष को अपने निष्कर्षों की ओर मोड़ना आसान था ...
शीआन

जवाबों:


12

अगर कोई ईडीए की भूमिका को कड़ाई से परिकल्पना पैदा करने के रूप में देखता है, तो कोई भी शार्पशूटर की गिरावट लागू नहीं होती है। हालांकि, यह बहुत महत्वपूर्ण है कि बाद के पुष्टिकरण परीक्षण वास्तव में स्वतंत्र हैं। कई शोधकर्ता पूल किए गए विश्लेषण, मेटा विश्लेषण, और बायेसियन विधियों जैसी चीजों के साथ "मतभेदों को समेटने" का प्रयास करते हैं। इसका मतलब है कि इस तरह के विश्लेषण में प्रस्तुत किए गए कम से कम कुछ सबूतों में "यादृच्छिक बुलेट छेद के चारों ओर चक्र" शामिल है।


5
ठीक ठीक। इतने खोजपूर्ण डेटा विश्लेषण के साथ समस्या यह है कि दोनों प्रशिक्षण के लिए एक ही सेट का उपयोग किया जाता है (यह पहचानना कि गोलियों कहाँ उतरा) और परीक्षण (उनके चारों ओर सर्कल खींचना)।
माइकल के

11

यह खोजपूर्ण डेटा विश्लेषण के बहुत नकारात्मक दृष्टिकोण को चित्रित करता है। हालांकि तर्क गलत नहीं है, यह वास्तव में कह रहा है "जब मैं बहुत महत्वपूर्ण उपकरण का गलत तरीके से उपयोग करता हूं तो क्या गलत हो सकता है?"

EDA के तरीकों से अनपेक्षित पी-वैल्यू को स्वीकार करने से मुझे त्रुटि दर में काफी वृद्धि होगी। लेकिन मुझे लगता है कि टुकी ऐसा करने वाले किसी के साथ खुश नहीं होगा। EDA का उद्देश्य डेटा में संबंधों के बारे में निश्चित निष्कर्ष देना नहीं है, बल्कि इसके बाद डेटा में संभावित उपन्यास संबंधों की तलाश करना है।

बड़ी वैज्ञानिक प्रक्रिया में इस कदम को छोड़ना अनिवार्य रूप से विज्ञान हैमस्ट्रिंग है, जो हमारे डेटा के नए दिलचस्प पहलुओं को शुद्ध तार्किक कटौती के बाहर कभी नहीं पा सकते हैं। कभी तार्किक रूप से कटौती करने की कोशिश करें कि जीन के एक सेट की अभिव्यक्ति एक सेल के अस्तित्व को कैसे प्रभावित करेगी? संकेत: यह बहुत आसान नहीं है (मेरे काम में बायोइनफॉरमैटिक्स स्टाफ के बीच हमारे पसंदीदा चुटकुलों में से एक था जब एक भौतिक विज्ञानी ने पूछा "आप विभिन्न जीन इंटरैक्शन के भौतिक गुणों का अनुकरण क्यों नहीं करते हैं? यह एक सीमित पैरामीटर स्थान है।"

व्यक्तिगत रूप से, मुझे लगता है कि इसके बारे में भ्रम वैज्ञानिक प्रगति में काफी धीमा हो सकता है। मैं कई गैर-सांख्यिकीय शोधकर्ताओं को जानता हूं जो यह बताएंगे कि वे प्रारंभिक आंकड़ों पर ईडीए प्रक्रिया नहीं करना चाहते हैं , क्योंकि वे "जानते हैं कि ईडीए खराब हो सकता है"।

अंत में, यह बिल्कुल सच है कि ईडीए के तरीकों का उपयोग करना और उन्हें पुष्टि डेटा विश्लेषण विधियों के रूप में व्यवहार करना अमान्य परिणामों को जन्म देगा। हालांकि, ईडीए के उचित उपयोग की कमी के कारण लगभग कोई परिणाम नहीं हो सकता है।


धन्यवाद। मैं कुछ लोगों को खोजपूर्ण विश्लेषण में संलग्न होने के बारे में बहुत अधिक चिंता नहीं करूँगा। मुझे लगता है कि विपरीत सच है; बहुत से लोग उस खोजपूर्ण कार्य को कर रहे हैं, लेकिन शायद आपके द्वारा बताए गए प्रकार I त्रुटियों को रोकने के लिए पर्याप्त सावधानी बरतने के बिना। हालांकि, यह दिलचस्प है कि आप ऐसे लोगों को जानते हैं जिनकी EDA पर नकारात्मक राय है। यदि वे इसे प्रारंभिक आंकड़ों में नहीं करना चाहते हैं, तो जब वे ईडीए (या ईडीए-जैसे) काम करने में सहज महसूस करते हैं?
राबर्ट स्मिथ

मेरा अनुभव है कि गैर-सांख्यिकीय शोधकर्ताओं को "कई तुलनात्मक समस्याएं हैं" सुनने के लिए उपयोग किया जाता है और इसलिए जब वे मेरे पास डेटा लेकर आते हैं, तो वे यह कहने के लिए उत्सुक होते हैं कि वे प्रारंभिक डेटा के साथ भी, कई तुलना करने से बचना चाहते हैं। बेशक, समस्या की एक पूरी समझ यह होगी कि आप सीडीए अध्ययन में कई तुलनाओं से बचना चाहते हैं।
एबी एबी

मै समझता हुँ। यह अधिक समझ में आता है।
रॉबर्ट स्मिथ

5

ऐसा लगता है कि पहले से परिकल्पना किए बिना किसी भी खोजपूर्ण प्रक्रिया का आयोजन किया जाता है, जिसमें सहज परिकल्पना उत्पन्न होती है।

मैं इस कथन पर गुस्सा करता हूँ और इसे थोड़ा अलग ढंग से व्यक्त करता हूँ: यदि कोई सही अशक्त परिकल्पना का उपयोग नहीं करता है, तो डेटा के आधार पर परीक्षण करने के लिए एक परिकल्पना का चयन करना परीक्षण को कमजोर करता है। प्रकृति लेख का जोर, अनिवार्य रूप से है, यह विश्लेषकों के लिए आसान है कि वे उन सभी तुलनाओं की अनदेखी कर सकें, जिनकी वे अन्वेषण के दौरान तुलना कर रहे हैं।

प्रकृति ने एंड्रयू जेलमैन को उद्धृत किया, लेकिन सिर्फ इस विषय के बारे में एरिक लोकेन के साथ अपने कागज का उल्लेख नहीं किया । अंश:

जब हम यहां चर्चा करने वाले कुछ पत्रों के संबंध में कई तुलनाओं की आलोचना करते हैं, तो शोधकर्ता कभी जवाब नहीं देते हैं कि उन्होंने अपने डेटा प्रसंस्करण और डेटा विश्लेषण के सभी विवरणों को समय से पहले चुना था; बल्कि, वे दावा करते हैं कि उन्होंने जो डेटा देखा , उसके लिए उन्होंने केवल एक विश्लेषण किया । इस रक्षा के रूप में सहज ज्ञान युक्त, यह कई तुलनाओं की मौलिक लगातार चिंता का समाधान नहीं कर सकता है।

एक और:

ऐसा नहीं है कि शोधकर्ताओं ने सैकड़ों विभिन्न तुलनाएं कीं और उन लोगों को चुना जो सांख्यिकीय रूप से महत्वपूर्ण थे। बल्कि, वे अपने दिमाग में कुछ हद तक एक विचार के साथ शुरू करते हैं कि प्रदर्शन की तुलना क्या है, और वे उस विचार को डेटा के प्रकाश में परिष्कृत करते हैं। उन्होंने लाल और गुलाबी रंग में एक पैटर्न देखा, और उन्होंने रंगों को संयोजित किया।

संक्षेप:

वैज्ञानिक से लेकर सांख्यिकीय परिकल्पना तक एक-से-कई मानचित्रण हैं।

और एक और, मेरा जोर:

हमारे द्वारा चर्चा किए गए सभी मामलों में, प्रकाशित विश्लेषण में एक कहानी है जो वैज्ञानिक परिकल्पनाओं के अनुरूप है जो काम को प्रेरित करती है, लेकिन अन्य डेटा पैटर्न (जो नमूना आकार दिए गए हैं, आसानी से संयोग से हो सकते हैं) स्वाभाविक रूप से आगे बढ़ेंगे। विभिन्न डेटा विश्लेषण (उदाहरण के लिए, बातचीत के बजाय मुख्य प्रभावों पर ध्यान केंद्रित करना, या तुलना करने के लिए डेटा सबसेट का एक अलग विकल्प) जो समान रूप से अनुसंधान परिकल्पनाओं का समर्थन करने के लिए इस्तेमाल किया जा सकता है। परिणाम यह है, जैसा कि हमने कहीं और लिखा है, यादृच्छिक पैटर्न के उत्पादन और प्रचार के लिए एक प्रकार की मशीन।

संक्षेप में, यह नहीं है कि ईडीए "सहज परिकल्पना" की ओर जाता है; यह उसी परिकल्पना के साथ एक परिकल्पना का परीक्षण कर रहा है जिसने संकेत दिया है कि परिकल्पना के लिए सहज निष्कर्ष हो सकते हैं।

आप इस बाधा को जीतने में रुचि रखते हैं, Gelman एक और है कागज उनका तर्क है इन समस्याओं के कई एक बायेसियन ढांचे में गायब हो जाते हैं कि, और Loken संदर्भ "पूर्व प्रकाशन प्रतिकृति" के साथ anecdotally के पहले खंड में वर्णित के रूप में कागज इस पत्र


धन्यवाद। बहुत ही रोचक। मैं कई तुलनाओं पर गेलमैन के पेपर पर एक नज़र डालूंगा।
रॉबर्ट स्मिथ

3

लगभग परिभाषा के अनुसार, हाँ, बेशक सीडीए के बिना ईडीए टेक्सास के शार्पशूटर को आकर्षित करता है।

पीपी


धन्यवाद। हां, एक सुधार की आवश्यकता होगी। मुझे नहीं लगता कि इसे ध्यान में रखना बहुत आम है।
रॉबर्ट स्मिथ

3

बस पहले से ही महान जवाबों को जोड़ने के लिए: एक पूर्ण सीडीए के बीच एक मध्य जमीन है और सिर्फ आपके ईडीए परिणामों को अंकित मूल्य पर स्वीकार करना है। एक बार जब आप ब्याज की एक संभावित विशेषता (या परिकल्पना) पा लेते हैं, तो आप क्रॉस-वेलिडेशन (सीवी) या बूटस्ट्रैप सिमुलेशन प्रदर्शन करके इसकी मजबूती की भावना प्राप्त कर सकते हैं। यदि आपके निष्कर्ष केवल कुछ प्रमुख टिप्पणियों पर निर्भर करते हैं, तो सीवी या बूटस्ट्रैप यह दिखाएगा कि कई गुना (सीवी) या बूस्टअप नमूने देखे गए फीचर को पुन: पेश करने में विफल होते हैं।

यह एक मूर्खतापूर्ण तरीका नहीं है, लेकिन एक पूर्ण सीडीए के लिए जाने से पहले इसकी एक अच्छी मध्यवर्ती जांच है (या उद्देश्यपूर्ण रूप से आपके प्रारंभिक डेटा पूल से "सत्यापन सेट" को पकड़े हुए)।


0

डेटा मॉडल चयन के लिए सबसे कठोर मानदंड वह डिग्री है जो डेटा के कोलमोगोरोव कॉम्प्लेक्सिटी का अनुमान लगाता है - जो उस डिग्री को कहने के लिए है जो इसे दोषरहित रूप से डेटा को संपीड़ित करता है। यह, सिद्धांत रूप में, अकेले खोजपूर्ण डेटा विश्लेषण से परिणाम कर सकता है।

देख " एल्गोरिथ्म जनरेटिव मॉडल द्वारा कारण deconvolution "

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.