डेटा "अन्वेषण" बनाम डेटा "स्नूपिंग" / "यातना"?


30

कई बार मैं "डेटा स्नूपिंग" (यहां एक मनोरंजक उदाहरण ) के खिलाफ अनौपचारिक चेतावनी भर आया हूं , और मुझे लगता है कि मेरे पास मोटे तौर पर एक सहज विचार है कि इसका क्या मतलब है, और यह समस्या क्यों हो सकती है।

दूसरी ओर, "खोजपूर्ण डेटा विश्लेषण" आंकड़ों में एक पूरी तरह से सम्मानजनक प्रक्रिया लगती है, कम से कम इस तथ्य से देखते हुए कि उस शीर्षक के साथ एक पुस्तक अभी भी एक क्लासिक के रूप में श्रद्धा से उद्धृत है।

मेरे काम की लाइन में मैं अक्सर "डेटा स्नूपिंग" जैसे बड़े पैमाने पर दिखता हूं, या शायद इसे "डेटा टॉर्चर " के रूप में वर्णित किया जाता है , हालांकि ऐसा करने वालों को पूरी तरह से उचित और अप्रमाणिक अन्वेषण के रूप में एक ही गतिविधि दिखाई देती है। "।

यहाँ विशिष्ट परिदृश्य है: महंगा प्रयोग किया जाता है (बाद के विश्लेषण के बारे में अधिक विचार किए बिना), मूल शोधकर्ता इकट्ठे आंकड़ों में "कहानी" को आसानी से नहीं समझ सकते हैं, किसी को कुछ "सांख्यिकीय विज़ार्ड" लागू करने के लिए लाया जाता है, और जो , हर तरह से डेटा को स्लाइस और डिसाइड करने के बाद , अंत में इससे कुछ पबलीशबल "कहानी" निकालने का प्रबंधन करता है।

बेशक, अंतिम रिपोर्ट / पेपर में आमतौर पर कुछ "सत्यापन" फेंका गया है, यह दिखाने के लिए कि सांख्यिकीय विश्लेषण अप-एंड-अप पर है, लेकिन इसके पीछे धुंधला-प्रकाशित-सभी-लागत वाला रवैया मुझे संदेहपूर्ण छोड़ देता है।

दुर्भाग्य से, डेटा विश्लेषण के do's और don'ts की मेरी सीमित समझ मुझे इस तरह के अस्पष्ट संदेह से परे जाने से रोकती है, इसलिए मेरी रूढ़िवादी प्रतिक्रिया मूल रूप से ऐसे निष्कर्षों की उपेक्षा करना है।

मेरी आशा है कि न केवल अन्वेषण और स्नूपिंग / यातना के बीच अंतर की बेहतर समझ है, बल्कि इससे भी महत्वपूर्ण बात यह है कि जब उस रेखा को पार कर लिया गया है, तो यह पता लगाने के लिए सिद्धांतों और तकनीकों का बेहतर समझ मुझे इस तरह के निष्कर्षों का मूल्यांकन करने की अनुमति देगा। एक तरह से जो कम-से-कम इष्टतम विश्लेषणात्मक प्रक्रिया के लिए जिम्मेदार हो सकता है, और इस तरह कंबल अविश्वास की मेरी सरल-सामान्य प्रतिक्रिया से परे जाने में सक्षम हो सकता है।


EDIT: बहुत ही रोचक टिप्पणियों और उत्तरों के लिए आप सभी का धन्यवाद। उनकी सामग्री को देखते हुए, मुझे लगता है कि मैंने अपने प्रश्न को अच्छी तरह से समझाया नहीं होगा। मुझे उम्मीद है कि यह अपडेट मामलों को स्पष्ट करेगा।

यहां मेरा प्रश्न यह चिंता करता है कि मैं अपने डेटा को यातना देने से बचने के लिए क्या करूं (हालांकि यह एक ऐसा सवाल है जो मुझे भी रुचिकर बनाता है), बल्कि यह कहना चाहिए: मुझे एक तथ्य के बारे में पता होना चाहिए कि मैं कैसे परिणाम (या मूल्यांकन) करूं? इस तरह के "डेटा यातना।"

उन (अधिक दुर्लभ) मामलों में स्थिति अधिक दिलचस्प हो जाती है, जिसमें, इसके अलावा, मैं प्रकाशन के लिए प्रस्तुत किए जाने से पहले ऐसे "निष्कर्षों" पर एक राय देने की स्थिति में हूं।

इस बिंदु पर सबसे मैं क्या कर सकते हैं की तरह कहते हैं कुछ है "मैं नहीं जानता कि कितना बल मैं मैं क्या मान्यताओं और प्रक्रियाओं है कि उन्हें हो रही में चला गया के बारे में पता दिया, इन निष्कर्षों को दे सकते हैं।" यह भी कहने लायक होने के लिए बहुत अस्पष्ट है। इस तरह की अस्पष्टता से परे जाना मेरी पोस्ट की प्रेरणा थी।

निष्पक्ष होने के लिए, यहाँ मेरी शंकाएँ विचारणीय रूप से संदिग्ध सांख्यिकीय विधियों पर आधारित हैं। वास्तव में, मैं उत्तरार्द्ध को और अधिक गहरी समस्या के परिणाम के रूप में देखता हूं: प्रयोगात्मक डिजाइन के प्रति एक घुड़सवार दृष्टिकोण का एक संयोजन एक स्पष्ट प्रतिबद्धता के साथ परिणाम प्रकाशित करने के रूप में वे खड़े होते हैं (यानी बिना किसी और प्रयोगों के)। बेशक, अनुवर्ती परियोजनाओं को हमेशा कल्पना की जाती है, लेकिन यह केवल एक आउट-ऑफ-द-क्वेश्चन है कि एक भी पेपर नहीं निकलेगा, कहते हैं, "100,000 नमूनों से भरा एक रेफ्रिजरेटर।"

आंकड़े इस सर्वोच्च उद्देश्य को पूरा करने की दिशा में एक चित्र के रूप में सामने आते हैं। आँकड़ों पर कुंडी लगाने का एकमात्र औचित्य (जैसा कि वे पूरे परिदृश्य में हैं) यह है कि "प्रकाशन-पर-सभी-लागत" की धारणा के लिए एक ललाट चुनौती केवल व्यर्थ है।

वास्तव में, मैं ऐसी स्थितियों में केवल एक प्रभावी प्रतिक्रिया के बारे में सोच सकता हूं: कुछ सांख्यिकीय परीक्षण (अतिरिक्त प्रयोग की आवश्यकता नहीं) का प्रस्ताव करना जो वास्तव में विश्लेषण की गुणवत्ता का परीक्षण करता है। लेकिन मैं सिर्फ इसके लिए आंकड़ों में चोप्स नहीं है। मेरी आशा (भोलेपन में भोले) को यह पता लगाना था कि मैं क्या अध्ययन कर सकता हूं जो मुझे इस तरह के परीक्षणों के साथ आने में सक्षम कर सकता है ...

जैसा कि मैंने यह लिखा है कि यह मेरे ऊपर है कि अगर यह पहले से मौजूद नहीं है, तो दुनिया आंकड़ों की एक नई उप-शाखा का उपयोग कर सकती है, जो "डेटा-टॉर्चर" का पता लगाने और उजागर करने के लिए तकनीकों के लिए समर्पित है। (बेशक, मेरा मतलब यह नहीं है कि "यातना" रूपक द्वारा दूर किया जा रहा है: मुद्दा "डेटा-टॉर्चर" प्रति-से नहीं है, लेकिन यह "खतरनाक" निष्कर्ष "हो सकता है।"


1
@BakakP यह उद्धरण यहाँ छह उत्तरों में दिखाई देता है, जिसमें आँकड़े चुटकुले और आँकड़े उद्धरण सूत्र शामिल हैं। (उत्तरार्द्ध प्रासंगिक कोटेशन के लिए एक अच्छा स्रोत है, तो आप कभी भी कुछ नीचे शिकार कर रहे हैं।)
whuber

7
मुझे नहीं लगता कि 'डेटा स्नूपिंग' और 'खोजपूर्ण डेटा विश्लेषण' में उपयोग की जाने वाली तकनीकों के बीच कोई अंतर है - पूर्व शब्द का अपमानजनक उपयोग एक खोजपूर्ण विश्लेषण के लिए भ्रामक रूप से एक पुष्टिकरण विश्लेषण के रूप में प्रस्तुत किया गया है।
Scortchi - को पुनः स्थापित मोनिका

8
फेनमैन, जिस पुस्तक में आप संदर्भ देते हैं, पहले से ही इस प्रश्न का उत्तर देता है: "यदि वह इस परिकल्पना का परीक्षण करना चाहता है [अन्वेषण के माध्यम से], ... उसे एक और प्रयोग करना होगा।" क्या आप चिंताओं से पूछ रहे हैं कि क्या फेनमैन बहुत अधिक चरम ("थोड़ा अतिरंजना") हो सकता है: किस हद तक, यदि बिल्कुल, परिकल्पना के औपचारिक परीक्षण को उसी डेटा की खोज के द्वारा विकसित किए जाने पर उचित ठहराया जा सकता है ?
whuber

2
@ व्हाइट: व्यवहार में यह और भी अधिक नाटकीय है, क्योंकि अक्सर अलग-अलग डेटा के साथ परीक्षण किया जाता है, लेकिन एक ही प्रयोगात्मक सेटअप या प्रकार के प्रयोग से अनजाने में समान परिणाम हो सकते हैं।
जनवरी

1
@ जंगल: जो मेरे विचार से आपके डेटा / प्रयोगों पर निर्भर करता है। उदाहरण के लिए जैविक / चिकित्सा अनुसंधान पर विचार करें। मेरे द्वारा देखे जाने वाले आंकड़ों के लिए, सबसे बड़ा बदलाव आमतौर पर रोगियों (विषयों) के बीच होता है। नए रोगियों के साथ प्रयोग को दोहराने से समान परिणाम प्राप्त होंगे, लेकिन व्यवहार में यह अक्सर ऐसा नहीं होता है (यानी रोगियों के पहले सेट पर विकसित मॉडल के पूर्वानुमान परिणाम अपेक्षा से बहुत अधिक खराब होते हैं, जिसका अर्थ है कि ओवरफिटिंग की संभावना है, इसलिए पहले प्रयोग में डेटा "प्रताड़ित" था)
cbeleites मोनिका

जवाबों:


22

एक भेद है जो कभी-कभी पर्याप्त ध्यान नहीं देता है, अर्थात् परिकल्पना पीढ़ी बनाम परिकल्पना परीक्षण , या अन्वेषण विश्लेषण बनाम परिकल्पना परीक्षण। आपको अपने विचार / परिकल्पना के साथ दुनिया की सभी गंदी चालों की अनुमति है। लेकिन जब आप बाद में इसका परीक्षण करते हैं, तो आपको अपने प्यारों को बेरहमी से मारना चाहिए।

मैं हर समय उच्च थ्रूपुट डेटा के साथ काम करने वाला एक जीवविज्ञानी हूं, और हां, मैं इस "स्लाइसिंग और डिंगिंग" को अक्सर करता हूं। प्रयोग किए गए अधिकांश मामलों को सावधानीपूर्वक डिज़ाइन नहीं किया गया था; या हो सकता है कि जिन लोगों ने इसकी योजना बनाई थी, वे सभी संभावित परिणामों के लिए जिम्मेदार नहीं थे। या योजना बनाते समय सामान्य दृष्टिकोण "चलो देखते हैं कि वहाँ क्या है"। हम महंगे, मूल्यवान और अपने आप में दिलचस्प डेटा सेट के साथ समाप्त होते हैं जो मैं फिर एक कहानी के साथ आने के लिए चारों ओर घूमता हूं।

लेकिन फिर, यह केवल एक कहानी है (संभव सोते समय)। आपके द्वारा दिलचस्प कोणों के एक जोड़े का चयन करने के बाद - और यहाँ महत्वपूर्ण बिंदु है - आपको इसे न केवल स्वतंत्र डेटा सेट या स्वतंत्र नमूनों के साथ परीक्षण करना होगा, बल्कि अधिमानतः एक स्वतंत्र दृष्टिकोण , एक स्वतंत्र प्रायोगिक प्रणाली के साथ।

इस अंतिम चीज का महत्व - एक स्वतंत्र प्रयोगात्मक सेटअप, न केवल माप या नमूनों का स्वतंत्र सेट - अक्सर कम करके आंका जाता है। हालांकि, जब हम महत्वपूर्ण अंतर के लिए 30,000 चर का परीक्षण करते हैं, तो अक्सर ऐसा होता है कि एक ही कोहर्ट से समान (लेकिन अलग-अलग) नमूने और एक ही विधि के साथ विश्लेषण करने पर हम पिछले सेट के आधार पर परिकल्पना को अस्वीकार नहीं करेंगे। लेकिन फिर हम एक अन्य प्रकार के प्रयोग और एक अन्य सहवास की ओर मुड़ते हैं, और हमारे निष्कर्ष एक पद्धतिगत पूर्वाग्रह का परिणाम होते हैं या उनकी प्रयोज्यता में सीमित होते हैं।

यही कारण है कि वास्तव में एक परिकल्पना या एक मॉडल को स्वीकार करने के लिए हमें कई स्वतंत्र शोधकर्ताओं द्वारा अक्सर कई पत्रों की आवश्यकता होती है।

इसलिए मुझे लगता है कि इस तरह के डेटा यातना ठीक है, जब तक आप इस भेद को ध्यान में रखते हैं और याद करते हैं कि आप क्या कर रहे हैं, आप किस वैज्ञानिक प्रक्रिया के स्तर पर हैं। जब तक आपके पास डेटा का एक स्वतंत्र सत्यापन है, तब तक आप 2 चरणों या चाँद को फिर से परिभाषित कर सकते हैं । इसे चित्र पर लगाने के लिए:

यहां छवि विवरण दर्ज करें

दुर्भाग्य से, ऐसे लोग हैं जो कई प्रयोगों के बाद एक पेपर को राउंड अप करने के लिए माइक्रोएरे का आदेश देते हैं और कोई कहानी नहीं उभरती है, इस उम्मीद के साथ कि उच्च थ्रूपुट विश्लेषण कुछ दिखाता है। या वे पूरी परिकल्पना परीक्षण बनाम पीढ़ी की बात के बारे में भ्रमित हैं।


मुझे लगता है कि जो मैंने "परिकल्पना पीढ़ी" के रूप में देखा है, उस पर कसना कर सकता हूं, लेकिन मैं जिन जोड़तोड़ों के बारे में बात कर रहा हूं, वह सबसे निश्चित रूप से "प्रताड़ित" डेटा से प्राप्त परिणामों को प्रकाशित करना है, और उच्चतम में ऐसा करने के लिए। -विपरीत पत्रिका जो पेपर को स्वीकार करेगी। कहने की जरूरत नहीं है कि ऐसे कागजात कभी भी उनके निष्कर्षों की यातनापूर्ण उत्पत्ति का सुझाव नहीं देते हैं। वास्तव में, AFAICT, लेखक इससे परेशान नहीं हैं। और फिर भी, मुझे लगता है कि इस तरह के कागजात के अधिकांश पाठक निष्कर्षों पर भारी छूट देंगे यदि वे जानते थे कि वास्तव में कितना डेटा-यातना उन्हें मिल रही है ...
kjo

1
@kjo: परिकल्पना पीढ़ी वैज्ञानिक प्रक्रिया का एक हिस्सा है जिसे निश्चित रूप से प्रकाशित किया जा सकता है। तो वह कोई कारण नहीं है।
cbeleites मोनिका का समर्थन करता है

@January: आप DoE का उल्लेख करना भूल गए "हम सभी नमूने ले सकते हैं - वे वैसे भी बहुत कम होंगे" - जो कि सबसे अधिक बार होने वाला DoE I मुठभेड़ है।
केबेलाइट्स मोनिका

@ कुलीन: ठीक है, मैं सामान्य रूप से इस रवैये की आलोचना करने का सपना नहीं देखूंगा; आम तौर पर प्रयोग प्रतिकृति की एक बड़ी संख्या से लाभान्वित हो सकते हैं। लेकिन मैं मानता हूं कि अक्सर प्रयोगवादी भौतिक रूप से कई स्थितियों (नमूना प्रकार, उपभेदों, प्रकार, वर्ग आदि) को केवल शारीरिक रूप से संभव बनाते हैं, विश्लेषण को एक बुरा सपना बनाते हैं और कभी-कभी पूरी तरह से प्रश्न को अस्पष्ट करते हैं।
जनवरी

12

हरमन फ्रीडमैन, मेरे पसंदीदा प्रोफेसर इन ग्रेड स्कूल, कहा करते थे

"यदि आप आश्चर्यचकित नहीं हैं, तो आपने कुछ भी नहीं सीखा है"

एक प्राथमिकता परिभाषित परिकल्पना के सबसे कठोर परीक्षण को छोड़कर किसी भी चीज का सख्त परहेज आपकी आश्चर्य की क्षमता को गंभीर रूप से सीमित कर देता है।

मुझे लगता है कि महत्वपूर्ण बात यह है कि हम जो कर रहे हैं उसके बारे में ईमानदार हैं। यदि हम अत्यधिक खोजपूर्ण मोड में हैं, तो हमें ऐसा कहना चाहिए। इसके विपरीत अंत में, एक प्रोफेसर ने मुझे बताया कि उसके छात्र ने अपनी परिकल्पनाओं को बदलने के लिए कहा क्योंकि मूल महत्वपूर्ण नहीं पाए गए थे।


4
पहले से परिभाषित किसी परिकल्पना को कठोरता से परखने में कुछ भी गलत नहीं है और अगले प्राथमिकता वाले परिकल्पनाओं का कठोरता से परीक्षण करने के लिए सुझाव देने के लिए एक ही डेटा को स्नूपिंग करना। और अगर हम थोड़ा और खोजपूर्ण मोड में हैं, तो हमें ऐसा कहना चाहिए - बस कहें कि हमने वास्तव में क्या किया है - और दूसरों को यह तय करने दें कि कितना बड़ा नमक वे हमारे परिणाम लेना चाहते हैं, लेकिन उनकी वैधता के बारे में हम आश्वस्त हो सकते हैं अपने आप को। मैं ईमानदारी से जोर देने के लिए इस जवाब को एक से अधिक वोट देना चाहूंगा।
Scortchi - को पुनः स्थापित मोनिका

7

मुझे कुछ बिंदु जोड़ने दें:

  • सबसे पहले, परिकल्पना पीढ़ी विज्ञान का एक महत्वपूर्ण हिस्सा है। और गैर-भविष्य कहनेवाला (खोजपूर्ण / वर्णनात्मक) परिणाम प्रकाशित किया जा सकता है।

  • IMHO की परेशानी प्रति सेगमेंट में नहीं है कि डेटा एक्सप्लोरेशन का उपयोग डेटा सेट पर किया जाता है और उन निष्कर्षों के कुछ हिस्सों को ही प्रकाशित किया जाता है। समस्याएं हैं

    • वर्णन नहीं किया गया है कि कितना आज़माया गया है
    • तब निष्कर्ष निकालना जैसे कि अध्ययन कुछ पूर्वानुमान मॉडल / एक परिकल्पना परीक्षण अध्ययन के लिए एक सत्यापन अध्ययन था
  • विज्ञान और विधि विकास सिर्फ परिकल्पना पीढ़ी की तुलना में कहीं अधिक सामान्य तरीके से पुनरावृत्ति प्रक्रियाएं हैं - परीक्षण - नई परिकल्पना पैदा करना - परीक्षण करना .... IMHO यह पेशेवर निर्णय का विषय है कि किस स्तर पर किस तरह का उचित आचरण आवश्यक है (उदाहरण देखें नीचे)।

मैं क्या करूं:

  • लोगों को आशावादी पूर्वाग्रह के बारे में जागरूक करने का प्रयास करें जिसके परिणामस्वरूप
    जब मेरे पास मौका होता है, मैं लोगों को यह भी दिखाता हूं कि कितना अंतर होता है (जो ज्यादातर उसी समस्या के निचले स्तर के साथ संभव है, उदाहरण के लिए आंतरिक प्रदर्शन के साथ रोगी-स्वतंत्र रूप से मान्य डेटा की तुलना करें हाइपर-पैरामीटर ऑप्टिमाइज़ेशन रूटीन का अनुमान, जैसे कि SVM पैराटर्स के लिए ग्रिड सर्च, "संयुक्त मॉडल" जैसे कि PCA-LDA, और इसी तरह। वास्तविक डेटा ड्रेजिंग के लिए वास्तव में संभव नहीं है, क्योंकि अभी तक, किसी ने मुझे बनाने के लिए पैसे नहीं दिए थे। एक समझदार आकार के अध्ययन की एक सच्ची प्रतिकृति ...)
  • उन कागजात के लिए, जिनके बारे में मैं आश्वस्त हूं: निष्कर्ष की सीमाओं की चर्चा पर जोर देते हैं। सुनिश्चित करें कि अध्ययन की अनुमति से निष्कर्ष अधिक सामान्य तरीके से तैयार नहीं किए गए हैं।
  • सहकर्मी को अध्ययन के विषय के बारे में अपने विशेषज्ञ ज्ञान और डेटा पीढ़ी की प्रक्रिया का उपयोग करने के लिए प्रोत्साहित करने के लिए यह तय करने के लिए कि महंगा प्रदर्शन करने के बजाय डेटा का इलाज कैसे करें (नमूना आकार के संदर्भ में आपको ठीक से करने की आवश्यकता होगी) का अनुकूलन मॉडल- "हाइपर" -पैरामीटर (जैसे कि किस तरह के प्री-प्रोसेसिंग को उपयोग करना है)।
  • समानांतर में: लोगों को इस बात से अवगत कराने का प्रयास करें कि यह अनुकूलन व्यवसाय कितना महंगा है अगर इसे ठीक से किया जाए (चाहे इसे अन्वेषण कहा जाए या अप्रासंगिक नहीं है, अगर गलत तरीके से किया जाता है, तो इसके समान परिणाम होंगे जैसे डेटा ड्रेजिंग), जैसे बीलाइट्स, सी और न्युजबॉएर। , U. और Bocklitz, T. और Krafft, C. और Popp, J .: वर्गीकरण मॉडल के लिए नमूना आकार की योजना। गुदा चिम अधिनियम, 2013, 760, 25-33। DOI: 10.1016 / j.aca.2012.11.007
    ने arXiv पर पांडुलिपि स्वीकार किया: 1211.1323
  • यहाँ एक अध्ययन है जो इस अंधी कोशिश को भी लगभग निरर्थक पाता है, जैसे
    जे। एंगेल, जे। गेरेटज़ेन, ई। सिजिमेस्का, जेजे जानसन, जी। डाउनी, एल। ब्लैंचेट, एलएमसी ब्यूडेन्स: प्री-प्रोसेसिंग में रुझान के साथ टूट ?, एनालिटिकल केमिस्ट्री में ट्रैक ट्रेंड, 2013, 50, 96-106। DOI: 10.1016 / j.trac.2013.04.015
    (उन्होंने पूर्व-प्रसंस्करण चरणों के संयोजन की एक बड़ी संख्या की कोशिश की और पाया कि बहुत कम मॉडल बेहतर मॉडल हैं जो पूर्व-प्रसंस्करण नहीं है)

  • इस बात पर ज़ोर दें कि मैं अपने डेटा को ज़रूरत से ज़्यादा यातना नहीं दे रहा हूँ:
    उदाहरण :

    सभी प्रीप्रोसेसिंग को विशेष रूप से स्पेक्ट्रोस्कोपिक ज्ञान का उपयोग करके तय किया गया था, और कोई डेटा-चालित प्रीप्रोसेसिंग नहीं किया गया था।

    (विभिन्न) सिद्धांत विकास के लिए उदाहरण के रूप में एक ही डेटा का उपयोग कर एक अनुवर्ती कागज

    स्पेक्ट्रोस्कोपिक ज्ञान द्वारा सभी पूर्व-प्रसंस्करण का निर्णय लिया गया था, कोई भी डेटा-चालित कदम शामिल नहीं थे और कोई पैरामीटर अनुकूलन नहीं किया गया था। हालांकि, हमने जाँच की कि एलआर प्रशिक्षण के लिए पूर्व-प्रसंस्करण के रूप में 25 अव्यक्त चर पर स्पेक्ट्रा के एक पीएलएस प्रक्षेपण [45] की भविष्यवाणी में मामूली परिवर्तन से अधिक नहीं हुआ (पूरक आंकड़ा S.2 देखें)।

    क्योंकि इस बीच PLS के पूर्व-प्रसंस्करण वाले मॉडलों की तुलना करने के लिए मुझसे (CILS पत्रिका के संपादक द्वारा एक सम्मेलन में) स्पष्ट रूप से पूछा गया था।

  • व्यावहारिक दृष्टिकोण लें: उदाहरण के लिए ऊपर दिए गए एस्ट्रोसाइटोमा के अध्ययन में, उदाहरण के लिए, मैंने अभी भी डेटा को देखने के बाद कुछ बिंदु तय किए (जैसे कि तीव्रता थ्रेशोल्ड नमूने के बाहर से लिए गए माप से मेल खाती है - जिसे तब त्याग दिया गया था)। अन्य निर्णय जो मैं जानता हूं कि यह अनियंत्रित है (रैखिक बनाम द्विघात आधारभूत: उस प्रकार के डेटा के साथ मेरा अनुभव बताता है कि यह वास्तव में बहुत अधिक परिवर्तन नहीं करता है - जो कि समान प्रकार के विभिन्न डेटा पर जैस्पर एंगेल के साथ सही समझौते में भी है, इसलिए मैं डेटा को देखकर आधारभूत के प्रकार को तय करने से एक बड़े पूर्वाग्रह की उम्मीद नहीं करूंगा (कागज एक तर्क देता है कि क्यों यह समझदार है)।
    हमने जो अध्ययन किया, उसके आधार पर अब हम कह सकते हैं कि आगे क्या करना चाहिए और क्या बदलना चाहिए। और क्योंकि हम अभी भी विधि विकास के एक प्रारंभिक प्रारंभिक चरण में हैं ( पूर्व-विवो नमूनों को देखते हुए), यह सभी "होमवर्क" से गुजरने के लायक नहीं है, जो कि इन-विवो में उपयोग किए जाने से पहले अंततः आवश्यक होगा । एस्ट्रोसाइटोमा ग्रेडिंग के वर्तमान चरण में, एग्जाम को दोबारा सेट करना बाहरी परीक्षण सेट की तुलना में अधिक समझदार विकल्प है। मैं अभी भी इस बात पर जोर देता हूं कि किसी बिंदु पर वास्तव में बाहरी सत्यापन अध्ययन की आवश्यकता होगी, क्योंकि कुछ प्रदर्शन विशेषताओं को केवल उस तरह से मापा जा सकता है (उदाहरण के लिए उपकरण के बहाव / यह साबित करना कि हम इन के लिए सही कर सकते हैं)। लेकिन अभी जबकि हम अभी भी पूर्व-विवो के साथ खेल रहे हैंनमूने और बड़ी समस्या के अन्य भागों को हल कर रहे हैं (लिंक किए गए पत्रों में: सीमावर्ती मामलों से कैसे निपटें), एक उचित पूर्व-विवो सत्यापन अध्ययन से उपयोगी ज्ञान में लाभ प्रयास के लायक होने तक बहुत कम है (IMHO: जब तक कि डेटा ड्रेजिंग के कारण पूर्वाग्रह को मापने के लिए ऐसा किया गया)।

  • मैंने एक बार सांख्यिकीय और रिपोर्टिंग मानकों के बारे में एक तर्क पढ़ा, और इस तरह के एक पत्रिका के लिए आवश्यक होने का फैसला किया जाना चाहिए (जो याद नहीं है) जिसने मुझे आश्वस्त किया: वहां व्यक्त विचार यह था कि संपादकों को प्रयास करने की कोई आवश्यकता नहीं है इस पर सहमत हों और कुछ मानक लागू करें (जिससे बहुत व्यर्थ चर्चा होगी) क्योंकि:

    • जो उचित तकनीकों का उपयोग करता है, वह आमतौर पर बहुत ही जागरूक / अभिमानी होता है और (और चाहिए) इसलिए विस्तार से रिपोर्ट करता है कि क्या किया गया था।
    • यदि एक निश्चित बिंदु (उदाहरण के लिए डेटा ड्रेजिंग, मरीज के स्तर पर स्वतंत्र रूप से सत्यापन नहीं) को स्पष्ट रूप से नहीं बताया गया है, तो समीक्षकों / पाठकों के लिए डिफ़ॉल्ट धारणा यह है कि अध्ययन उस प्रश्न में उचित सिद्धांतों का पालन नहीं करता है (संभवतः इसलिए कि उन्होंने ऐसा नहीं किया था ' टी बेहतर जानते हैं)

4

कभी-कभी आपके द्वारा "डेटा टॉर्चर" के रूप में देखी जाने वाली चीजें वास्तव में नहीं होती हैं। यह हमेशा पहले से स्पष्ट नहीं है कि आप डेटा के साथ क्या करने जा रहे हैं, यह देने के लिए कि आप क्या देखते हैं, प्रयोग के वास्तविक परिणाम हैं।

उदाहरण के लिए, किसी निर्णय कार्य के लिए प्रतिक्रिया समय डेटा के साथ, आप अक्सर ऐसे समय को अस्वीकार करना चाहते हैं जो निर्णय के बारे में नहीं हैं (यानी, जब वे इतनी तेजी से जा रहे हैं तो वे स्पष्ट रूप से सिर्फ अनुमान लगा रहे हैं और निर्णय नहीं कर रहे हैं)। आप आरटी के खिलाफ निर्णय की सटीकता को प्लॉट कर सकते हैं यह देखने के लिए कि आम तौर पर अनुमान कहां हो रहा है। लेकिन जब तक आपने उस विशेष प्रतिमान का परीक्षण नहीं किया है, तब तक आपके पास यह जानने का कोई तरीका नहीं है कि कटऑफ कहाँ हैं (समय में, सटीकता नहीं)। कुछ पर्यवेक्षकों के लिए ऐसी प्रक्रिया डेटा को प्रताड़ित करने की तरह दिखती है, लेकिन जब तक इसका सीधे तौर पर परिकल्पना परीक्षणों से कोई लेना-देना नहीं है (आप इसे परीक्षणों के आधार पर समायोजित नहीं कर रहे हैं) तो यह डेटा को प्रताड़ित नहीं कर रहा है।

एक प्रयोग के दौरान डेटा स्नूपिंग ठीक है जब तक कि यह सही तरीके से नहीं किया जाता है। संभवतः अपने प्रयोग को एक ब्लैक बॉक्स में रखना अनैतिक है और केवल तभी विश्लेषण करना है जब नियोजित संख्याओं को चलाया गया हो। कभी-कभी यह बताना कठिन होता है कि प्रयोग के मुद्दे हैं जब तक आप डेटा को नहीं देखते हैं और आपको जल्द से जल्द कुछ देखना चाहिए। डेटा झांकना दृढ़ता से नापसंद है क्योंकि यह देखने के लिए समान है कि पी <0.05 और जारी रखने का निर्णय ले रहा है। लेकिन बहुत सारे मानदंड हैं जिनके द्वारा आप संग्रह जारी रखने का निर्णय ले सकते हैं जो आपकी त्रुटि दरों के लिए हानिकारक नहीं है।

मान लें कि आप यह सुनिश्चित करना चाहते हैं कि आपका विचरण अनुमान किसी ज्ञात संभावना सीमा के भीतर है। छोटे नमूनों में बहुत दूर के अनुमान हो सकते हैं ताकि आप अतिरिक्त डेटा एकत्र करें जब तक कि आपको पता न हो कि नमूना अधिक प्रतिनिधि है। निम्नलिखित सिमुलेशन में मैं प्रत्येक स्थिति में विचरण की अपेक्षा करता हूं। 1. मैं वास्तव में कुछ पागल करने वाला हूं और प्रत्येक समूह को 10 नमूनों के लिए स्वतंत्र रूप से नमूना देता हूं और तब तक विषयों को जोड़ता हूं जब तक कि विचरण 1 के करीब नहीं हो जाता।

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

इसलिए, मैं सिर्फ नमूने के साथ बोनट चला गया हूं और अपने संस्करण को उम्मीद के करीब बना रहा हूं और मैं अभी भी अल्फा को ज्यादा प्रभावित नहीं करता (यह 0.05 से थोड़ा कम है)। N जैसे कुछ और अवरोध प्रत्येक समूह में समान होने चाहिए और 30 से अधिक नहीं हो सकते हैं और 0.05 पर अल्फा बहुत अधिक सही है। लेकिन एसई का क्या? क्या होगा अगर मैंने इसके बजाय एसई को एक दिया मूल्य बनाने की कोशिश की? यह वास्तव में एक दिलचस्प विचार है क्योंकि मैं सीआई की चौड़ाई अग्रिम में स्थापित कर रहा हूं (लेकिन स्थान नहीं)।

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

फिर से, अल्फा ने एक छोटी सी राशि को बदल दिया, भले ही मैंने एन को डेटा स्नूपिंग के आधार पर मूल 10 से 46 तक घूमने की अनुमति दी हो। इससे भी महत्वपूर्ण बात यह है कि प्रत्येक प्रयोग में एसई सभी एक संकीर्ण सीमा में आते हैं। यदि यह एक चिंता है तो इसे ठीक करने के लिए एक छोटा सा अल्फा समायोजन करना आसान है। मुद्दा यह है कि कुछ डेटा स्नूपिंग कोई नुकसान नहीं करता है और लाभ भी ला सकता है।

(BTW, जो मैं दिखा रहा हूं वह कुछ जादुई गोली नहीं है। आप वास्तव में लंबे समय तक ऐसा करने वाले विषयों की संख्या को कम नहीं करते हैं क्योंकि अलग-अलग एन के सिमुलेशन के लिए शक्ति औसत एन के सिमुलेशन के लिए लगभग उसी तरह है। )

उपरोक्त में से कोई भी एक प्रयोग शुरू होने के बाद विषयों को जोड़ने पर हाल के साहित्य का खंडन नहीं करता है। उन अध्ययनों में उन्होंने सिमुलेशन को देखा जहां आपने पी-वैल्यू कम करने के लिए एक परिकल्पना परीक्षण करने के बाद विषयों को जोड़ा। यह अभी भी खराब है और असाधारण रूप से अल्फा को बढ़ा सकता है। इसके अलावा, मुझे वास्तव में जनवरी और पीटर फ्लॉम के उत्तर पसंद हैं। मैं सिर्फ यह बताना चाहता था कि आप इसे एकत्र करते समय डेटा को देख रहे हैं, और यहां तक ​​कि एकत्रित करते समय एक नियोजित एन को बदलना, जरूरी नहीं कि खराब चीजें हों।


इनमें से कोई भी चीज़ आपके परीक्षण के आँकड़ों के नमूना वितरण को प्रभावित नहीं करने के अर्थ में 'ठीक' है। निश्चित रूप से आश्चर्यजनक आश्चर्य की बात है बेशक (cf @ पीटर का जवाब), लेकिन वे कुछ हद तक आपके प्रयोग की पुष्टित्मक प्रकृति को पतला करते हैं, जिससे 'स्वतंत्रता की शोधकर्ता डिग्री' बढ़ जाती है। यह आश्चर्य से बचने के लिए ठीक है कि हम प्रोटोकॉल को ठीक करने के लिए पायलट अध्ययन करते हैं, और पहले से ही नियमों को रोकना परिभाषित करते हैं, उन्हें विश्लेषण में ध्यान में रखते हैं। लक्ष्य एक अच्छी तरह से परिभाषित प्रक्रिया है जिसे आपके परिणामों की वैधता को प्रदर्शित करने के लिए स्वतंत्र रूप से दोहराया जा सकता है।
Scortchi - को पुनः स्थापित मोनिका

आप खुद को सिमुलेशन चलाने के लिए स्वतंत्र महसूस कर सकते हैं लेकिन एक विचरण आधारित रोक नियम (एक उचित न्यूनतम एन पर) का अल्फा पर कोई प्रभाव नहीं होगा और एक अपेक्षित शक्ति उत्पन्न करेगा। तुम भी एक एसई आधारित रोक नियम हो सकता है और लगातार एसई मिल और उन अल्फा, या बीटा को प्रभावित नहीं करेगा। आपके पास बस एक pरोक नियम नहीं हो सकता है । एन को संशोधित करने की सभी आलोचनाएं एक परिकल्पना परीक्षण के बाद करने के बारे में हैं (इसमें अन्य चीजें भी शामिल होनी चाहिए)। ऐसी क्षमता है कि यह प्रलोभन का कारण बनता है ... लेकिन मैं इसे अनदेखा कर रहा हूं।
जॉन

प्रतिक्रिया समय वितरण के लिए, आप सुझाव दे रहे हैं कि पायलट के आधार पर फिक्स्ड कट प्वाइंट को चुनना बेहतर है, बजाए इसके कि जब प्रत्येक विषय लॉजिस्टिक रिग्रेशन के आधार पर अनुमान लगा रहा हो और अपने स्वयं के कट प्वाइंट का उपयोग करें? (बेशक सटीकता में कटौती बिंदु तय हो गया है, बस प्रतिक्रिया समय एक नहीं है)।
जॉन

(1) वैरिएनस-आधारित रोक नियम: यह विचरण अनुमान को प्रभावित करता है, और इसलिए त्रुटि दर को प्रभावित कर सकता है जब प्रयोग का विश्लेषण किया जाता है जैसे कि नमूना आकार पहले से तय किया गया था। आपकी टिप्पणी में दिए गए "एक उचित न्यूनतम एन से परे" के कैविटी के बीच एक तनाव है और आपके उत्तर में "छोटे नमूने के आकार" को संदर्भित किया गया है; निस्संदेह आपके पास यह जानने के लिए सांख्यिकीय घोंसला है कि सन्निकटन क्या अच्छा है जब, लेकिन हर कोई नहीं करता है। अधिक आम तौर पर, एक पहुंच से बाहर का दृष्टिकोण स्पष्ट रूप से प्रयोग से पहले रोक नियम को स्पष्ट रूप से परिभाषित करना है।
Scortchi - को पुनः स्थापित मोनिका

(२) रिएक्शन टाइम डिस्ट्रीब्यूशन: नहीं (हालाँकि मैंने माना है कि मन में कुछ ऐसा ही था); मेरा सुझाव था कि जो भी विधि अविश्वसनीय टिप्पणियों को हटाने के लिए उपयोग की जाती है, उसे पायलट अध्ययन से बेहतर ढंग से विकसित किया जाएगा, और फिर एक पुष्टिकरण प्रयोग में लगाया जाएगा।
Scortchi - को पुनः स्थापित मोनिका

0

यह वास्तव में असंतुलित सोच की एक सांस्कृतिक समस्या है, जहां प्रकाशन पूर्वाग्रह सकारात्मक परिणामों के पक्ष में जाता है और हमारे प्रतिस्पर्धी स्वभाव को संपादकों और शोधकर्ताओं को रुचि के परिणामों का उत्पादन करने की आवश्यकता होती है जो उपन्यास या विवादास्पद हैं, उदाहरण के लिए, अर्थ में किसी और के परिणामों को दोहराते हुए। चिकित्सा अनुसंधान में इस समस्या के निवारण के लिए काफी प्रगति की जा रही है, परीक्षण के अनिवार्य पंजीकरण और परिणामों के प्रकाशन के साथ परिणाम को भी सार्वजनिक किया जाना चाहिए। मैं समझता हूं कि असफल अनुसंधान के लिए पत्रिकाओं में प्रकाशन व्यावहारिक नहीं हो सकता है, लेकिन उनमें से एक सार्वजनिक रूप से उपलब्ध डेटाबेस रखने की योजना है। असामान्य परिणाम जिन्हें दोहराया नहीं जा सकता है वे जरूरी नहीं कि दुष्कर्म का परिणाम हो, क्योंकि शायद 50 के साथ,

विभिन्न तरीकों का उपयोग करना आवश्यक नहीं है या तो एक समाधान है। उदाहरण के लिए, क्या केमिस्ट विभिन्न परिस्थितियों में विभिन्न तरीकों से अभिकर्मकों को मिलाएगा और पाठ्यक्रम के परिणाम के समान परिणाम की उम्मीद करेगा?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.