शोधकर्ता 1 1000 प्रतिगमन चलाता है, शोधकर्ता 2 केवल 1 चलाता है, दोनों को समान परिणाम मिलते हैं - क्या उन्हें अलग-अलग निष्कर्ष निकालना चाहिए?


12

कल्पना कीजिए कि एक शोधकर्ता एक डेटासेट खोज रहा है और 1000 अलग-अलग पंजीकरण चला रहा है और वह उनके बीच एक दिलचस्प संबंध पाता है।

अब एक और शोधकर्ता की कल्पना करें कि समान डेटा केवल 1 प्रतिगमन चलाता है, और यह पता चलता है कि यह वही है जिसे दूसरे शोधकर्ता ने खोजने के लिए 1000 प्रतिगमन लिया था। शोधकर्ता 2 शोधकर्ता 1 को नहीं जानता है।

क्या शोधकर्ता 1 को शोधकर्ता 2 की तुलना में अलग-अलग निष्कर्ष निकालना चाहिए? क्यों? उदाहरण के लिए, क्या शोधकर्ता को 1 तुलनात्मक सुधार करना चाहिए, लेकिन शोधकर्ता 2 को नहीं करना चाहिए?

यदि शोधकर्ता 2 ने आपको अपना एकल प्रतिगमन पहले दिखाया, तो आप क्या निष्कर्ष निकालेंगे? यदि उसके बाद शोधकर्ता 1 ने आपको अपने परिणाम दिखाए, तो क्या आपको अपना अनुमान बदलना चाहिए? यदि हां, तो यह क्यों मायने रखता है?

पुनश्च 1 : यदि काल्पनिक शोधकर्ताओं के बारे में बात करना समस्या को अमूर्त बना देता है, तो इस बारे में सोचें: कल्पना करें कि आपने उपलब्ध सर्वोत्तम विधि का उपयोग करते हुए, अपने पेपर के लिए सिर्फ एक रिग्रेशन चलाया। फिर एक अन्य शोधकर्ता ने एक ही डेटा के साथ 1000 अलग-अलग रजिस्टरों का पता लगाया, जब तक कि वह ठीक वही प्रतिगमन नहीं मिला जो आपने चलाया था । क्या आपको दो अलग-अलग संदर्भ बनाने चाहिए? क्या साक्ष्य दोनों मामलों के लिए समान है या नहीं? यदि आपको अन्य शोधकर्ता परिणामों का पता था, तो क्या आपको अपना अनुमान बदलना चाहिए? जनता को दो अध्ययनों के साक्ष्य का आकलन कैसे करना चाहिए?

पुनश्च 2: यदि संभव हो तो कृपया विशिष्ट होने और गणितीय / सैद्धांतिक औचित्य प्रदान करने का प्रयास करें!


1
एक वैध तुलना होने के लिए आपको सभी अशक्त और वैकल्पिक परिकल्पनाओं को निर्दिष्ट करने की आवश्यकता है। शोधकर्ता 2 केवल 1 परिकल्पना का परीक्षण कर सकता है, जबकि शोधकर्ता 1 संभवतः 1000 में से 1 प्रकार 1 त्रुटि न करने की संभावना को नियंत्रित करना चाहता है। यदि वह एक साथ निष्कर्ष है जिसे आप बनाना चाहते हैं तो आपको पी-मूल्य समायोजन करना होगा। शोधकर्ता 2 के पास एक परीक्षण है और समायोजन की कोई आवश्यकता नहीं है। शोधकर्ता 1 के लिए आप एक ही डेटा के लिए अलग-अलग मॉडल फिट कर रहे हैं या प्रत्येक 1000 डेटा सेट में से एक मॉडल फिट है?
माइकल आर। चेर्निक

1
@MichaelChernick केवल एक डेटासेट है। शोधकर्ता 1 एक ही डेटासेट के लिए 1000 मॉडल फिट करता है जब तक कि वह उसे पसंद नहीं करता। शोधकर्ता 2 केवल 1 फिट। दोनों शोधकर्ता एक ही डेटा का उपयोग करते हैं। तो क्या आप कहेंगे कि इन दो शोधकर्ताओं को सटीक डेटासेट के साथ अलग-अलग चीजों को समाप्त करना होगा? शोधकर्ता 2 को अपने विश्लेषण के बारे में सही तरीके से आश्वस्त होना चाहिए, जबकि शोधकर्ता 1 को कई तुलनाओं के कारण अपने पी-मूल्य / आत्मविश्वास अंतराल को बढ़ाना चाहिए?
सांख्यिकीविज्ञानी

यदि आपने मेरे तर्क का अनुसरण किया है तो वे इस अर्थ में करते हैं कि केवल शोधकर्ता 2 एकल परिकल्पना का परीक्षण कर रहा है, जबकि शोधकर्ता 1 1000 परिकल्पनाओं का परीक्षण कर रहा है और जिन सभी परिकल्पनाओं का उन्होंने परीक्षण किया है उनके लिए नियंत्रण करने की आवश्यकता है .. इसमें दो अलग-अलग समस्याएं शामिल हैं। अभी भी अस्पष्ट है जिसका अर्थ है "केवल एक दिलचस्प संबंध ढूंढना"। हो सकता है कि आपको लगता है कि आपने एक विरोधाभासी स्थिति उत्पन्न की है। मुझे नहीं लगता कि आपके पास है।
माइकल आर। चेर्निक

1
@MichaelChernick यह कैसे एक ही मॉडल के लिए एक समान विरोधाभास नहीं है जिसमें एक ही मॉडल दो अलग-अलग निष्कर्षों को जन्म देता है? यदि आप दो अलग-अलग पेपर पढ़ते हैं, तो आप क्या निष्कर्ष निकालेंगे?
सांख्यिकीविज्ञानी

1
@MichaelChernick मैंने किया, और मुझे लगता है कि आप परेशान हैं कि यह सही है --- सटीक एक ही डेटा, एक ही मॉडल के साथ, दो अलग-अलग निष्कर्षों के लिए अग्रणी। उत्तर पर मेरी टिप्पणियाँ देखें।
सांख्यिकीविद्

जवाबों:


3

यहाँ आपके प्रश्न पर मेरा "बायेसियन" तिरछा है। मुझे लगता है कि आपने एक ऐसी स्थिति का वर्णन किया है जहां दो अलग-अलग पूर्व सूचना वाले लोगों को एक ही डेटासेट दिए जाने पर एक अलग उत्तर / निष्कर्ष प्राप्त करना चाहिए। एक और अधिक कुंद / चरम उदाहरण यह माना जाता है कि हमारे पास एक "शोधकर्ता 1 बी" है, जो कि प्रतिगमन मॉडल के मापदंडों और निष्कर्षों का अनुमान लगाने के लिए होता है। रजिस्टरों को चलाना वैचारिक रूप से अनुमान लगाने से बहुत दूर नहीं है।1000

मुझे लगता है कि क्या हो रहा है ... हम उपरोक्त प्रश्न से शोधकर्ताओं की पूर्व जानकारी के बारे में क्या सीखते हैं ? - शोधकर्ता 1 शायद मॉडल के लिए एक फ्लैट से पहले है शोधकर्ता 2 है ब्याज की मॉडल के लिए एक तेज पूर्व - (मान है मॉडल वे दोनों फिट)P(Mk|I1)=11000P(M1|I2)=1M1

यह स्पष्ट रूप से एक सरलीकरण है, लेकिन आप यहां देख सकते हैं, हम पहले से ही बिना किसी डेटा के शोधकर्ता 2 के निष्कर्षों पर बहुत अधिक भार डालते हैं। लेकिन आप देखते हैं, एक बार जब वे दोनों डेटा खाते हैं, तो शोधकर्ता 1 की लिए संभावना बढ़ जाएगी ... (... हम यह जानते हैं क्योंकि यह "बेहतर" था। " से अधिक अन्य मॉडल ...)। शोधकर्ता 2 के बाद के हिस्से अब और ध्यान केंद्रित नहीं कर सकते, यह पहले से ही बराबर है । हम नहीं जानते कि विकल्प के आधार पर डेटा ने कितना समर्थन किया है । हम यह भी नहीं जानते कि कैसे विभिन्न मॉडल शोधकर्ता के महत्वपूर्ण निष्कर्षों को बदल देते हैं। उदाहरण के लिए, मान लीजिए कि सभीM1P(M1|DI)>>P(M1|I)9991M11000मॉडल में एक सामान्य शब्द होता है, और उस चर के लिए सभी प्रतिगमन पैरामीटर से अधिक होते हैं (जैसे सभी मॉडल के लिए)। तब काफी सकारात्मक प्रभाव के समापन के साथ कोई समस्या नहीं है, भले ही कई मॉडल फिट थे।10000pvalue<108

आप यह भी नहीं कहते कि डेटासेट कितना बड़ा है, और यह मायने रखता है! यदि आप टिप्पणियों और कोवरिएट / भविष्यवाणियों / स्वतंत्र चर के साथ एक डेटासेट के बारे में बात कर रहे हैं , तो शोधकर्ता 1 शायद अभी भी मॉडल के बारे में काफी अनिश्चित होगा। हालांकि, यदि शोधकर्ता 1 , टिप्पणियों का उपयोग कर रहा है , तो यह निर्णायक रूप से मॉडल का निर्धारण कर सकता है।10 2 , 000 , 000100102,000,000

दो लोगों के साथ मौलिक रूप से कुछ भी गलत नहीं है जो अलग-अलग जानकारी के साथ शुरू होते हैं, और एक ही डेटा को देखने के बाद अलग-अलग निष्कर्ष जारी रखते हैं। हालाँकि ... एक ही डेटा को देखने से उन्हें और करीब लाया जाएगा, बशर्ते उनका "मॉडल स्पेस" ओवरलैप हो और डेटा इस "ओवरलैपिंग क्षेत्र" का समर्थन करता है।


तो आपके दावे का मूल हिस्सा यह है कि उन्हें अलग-अलग निष्कर्ष निकालना चाहिए क्योंकि उनके पास अलग-अलग पुजारी हैं, और इसलिए नहीं कि उन्होंने "डेटा का पता लगाया", कितना सही है?
सांख्यिकीविद्

वैसे, आप सबूतों का आकलन कैसे करेंगे ? क्या आप इस बात की परवाह करेंगे कि कितने मॉडल शोधकर्ता 1 फिट हैं? यदि हां, तो क्यों?
सांख्यिकीविज्ञानी

मैं जरूरी फिट मॉडल की संख्या के बारे में परवाह नहीं है, लेकिन मॉडल का इस्तेमाल किया जा रहा है या नहीं, यह निश्चितता की डिग्री के साथ जाना जाता है। जैसा कि मैंने संक्षेप में उल्लेख किया है, मैं जानना चाहूंगा कि क्या उचित विकल्प थे। उदाहरण के लिए, यदि शोधकर्ता 1 ने एक "लाइन बॉल" निर्णय लिया, जो एक चर को गिरा / जोड़ा जा रहा है, तो मैं उस उल्लेख को देखना चाहूंगा।
संभाव्यता

1
आप उस उल्लेख को क्यों देखना चाहेंगे, जो आपके पूर्व को किसी तरह बदल देगा? क्या आप उससे पहले आपके लिए प्रॉक्सी के रूप में उपयोग कर रहे हैं? यह मेरे लिए स्पष्ट नहीं है कि आप जो मैपिंग कर रहे हैं। किसी विशेष शोधकर्ता के कारण आपके अनुमान के लिए क्यों मायने रखते हैं, क्योंकि यह डेटा बनाने की प्रक्रिया को बिल्कुल प्रभावित नहीं करता है?
सांख्यिकीविद्

1
हम शोधकर्ता के बाहरी होने के लिए डेटासेट पर विचार कर रहे हैं, उन्होंने इसे एकत्र नहीं किया, और दोनों शोधकर्ता एक ही डेटा का उपयोग करते हैं। ऐसा लगता है कि कारणों को मनोविज्ञान में दोहराया नहीं जा सकता क्योंकि वे सिर्फ ढीले महत्व की थ्रेशोल्ड का उपयोग करते हैं क्योंकि सबूत के मानक कई पागल परिकल्पना का न्याय करने के लिए किसी भी उचित व्यक्ति / वैज्ञानिक उन्हें एक हास्यास्पद हास्यास्पद पाएंगे। हमारे मामले को यहां लें, अगर हमारे उदाहरण में परिकल्पना का परीक्षण किया गया है, तो यह एक ऐसी शक्ति प्रदान करने वाला कुछ हास्यास्पद है, क्या इससे कोई फर्क पड़ेगा कि हम 1 या 1000 प्रतिगमन भाग गए?
सांख्यिकीविज्ञानी

7

सांख्यिकीय व्याख्या बहुत कम स्पष्ट है, जो आप पूछ रहे हैं, गणितीय उपचार।

गणित स्पष्ट रूप से परिभाषित समस्याओं के बारे में है। उदाहरण के लिए, एक आदर्श पासे को रोल करना, या कलश से गेंद निकालना।

सांख्यिकी को गणित लागू किया जाता है जहां गणित एक दिशानिर्देश प्रदान करता है लेकिन इसका (सटीक) समाधान नहीं है।

इस मामले में यह स्पष्ट है कि परिस्थितियाँ एक महत्वपूर्ण भूमिका निभाती हैं। यदि हम एक प्रतिगमन करते हैं और फिर शक्ति को व्यक्त करने के लिए (पी) कुछ पी मान की गणना करते हैं तो पी मूल्य की व्याख्या (आंकड़े) और मूल्य क्या है?

  • 1 शोधकर्ता द्वारा किए गए 1000 प्रतिगमन के मामले में परिणाम बहुत अधिक कमजोर है क्योंकि इस प्रकार की स्थिति तब होती है जब हमारे पास वास्तव में कोई सुराग नहीं होता है और केवल डेटा की खोज कर रहे हैं। पी मूल्य केवल एक संकेत है कि कुछ हो सकता है।

    इसलिए शोधकर्ता द्वारा किए गए प्रतिगमन में पी मूल्य स्पष्ट रूप से कम मूल्य का है। और यदि शोधकर्ता 1 या शोधकर्ता 1 के परिणामों का उपयोग करने वाला कोई व्यक्ति प्रतिगमन के साथ कुछ करना चाहता है, तो पी मूल्य को सही करने की आवश्यकता है। (और अगर आपने सोचा कि शोधकर्ता 1 और शोधकर्ता 2 के बीच का अंतर पर्याप्त नहीं है, तो बस उन तरीकों की भीड़ के बारे में सोचें जो शोधकर्ता 1 कई तुलनाओं के लिए पी मान को सही कर सकते हैं)

  • शोधकर्ता 2 द्वारा किए गए एकल प्रतिगमन के मामले में परिणाम बहुत मजबूत सबूत है। लेकिन ऐसा इसलिए है क्योंकि प्रतिगमन स्वयं पर खड़ा नहीं होता है। हमें उन कारणों को शामिल करना होगा जिनके कारण शोधकर्ता 2 ने केवल एक ही प्रतिगमन किया। ऐसा इसलिए हो सकता है क्योंकि उसके पास पहले से ही विश्वास करने के लिए अच्छे (अतिरिक्त) कारण थे कि एकल प्रतिगमन डेटा के लिए एक अच्छा मॉडल है।

  • शोधकर्ता 1 और 2 द्वारा किए गए प्रतिगमन की स्थापना बहुत अलग है, और यह अक्सर नहीं होता है कि आप एक ही समस्या के लिए एक ही समय में दोनों का सामना करते हैं । अगर ऐसा है तो या तो

    • शोधकर्ता 2 बहुत भाग्यशाली था

      यह इतना असामान्य नहीं है, और हमें साहित्य की व्याख्या करते समय इसके लिए बेहतर सुधार करना चाहिए, साथ ही साथ हमें शोध की कुल तस्वीर के प्रकाशन में सुधार करना चाहिए। यदि शोधकर्ता 2 जैसे एक हजार शोधकर्ता हैं, और हम केवल उनमें से एक को एक सफलता प्रकाशित करते हुए देखेंगे, तो क्योंकि हमने अन्य 999 शोधकर्ताओं की असफलताओं को नहीं देखा, हम गलती से मान सकते हैं कि हमारे पास शोधकर्ता जैसा मामला नहीं था 1

    • शोधकर्ता 1 इतना स्मार्ट नहीं था और उसने कुछ प्रतिगमन के लिए अविश्वसनीय रूप से शानदार खोज की, जबकि वह संभवतः शुरू से ही जानता था कि यह एक होना चाहिए था, और वह एक मजबूत परीक्षण कर सकता था।

      बाहरी लोगों के लिए जो शोधकर्ता 1 से अधिक होशियार हैं (शुरू से अतिरिक्त 999 प्रतिगमन की परवाह नहीं करते हैं) और काम के बारे में पढ़ते हैं, वे परिणामों के महत्व को अधिक ताकत दे सकते हैं, हालांकि अभी भी उतने मजबूत नहीं हैं जितना वह करेंगे। शोधकर्ता का परिणाम २।

      हालांकि शोधकर्ता १ ९९९ अतिरिक्त अतिरिक्त प्रतिगमन के लिए सही होने पर बहुत अधिक रूढ़िवादी हो सकता है, हम इस तथ्य को नजरअंदाज नहीं कर सकते हैं कि अनुसंधान ज्ञान के निर्वात में किया गया था और यह टाइप १ की तुलना में टाइप १ के भाग्यशाली शोधकर्ता को खोजने की अधिक संभावना है। 2।

एक दिलचस्प संबंधित कहानी: खगोल विज्ञान में, जब वे उच्च सटीकता के साथ ब्रह्मांडीय पृष्ठभूमि को मापने के लिए एक बेहतर साधन की योजना बना रहे थे, तो ऐसे शोधकर्ता थे जिन्होंने केवल आधा डेटा जारी करने का तर्क दिया था। ऐसा इसलिए है क्योंकि डेटा इकट्ठा करने के लिए केवल एक शॉट है। एक बार जब सभी रेजिस्टेंस दर्जनों अलग-अलग शोधकर्ताओं द्वारा किए गए हैं (और सिद्धांतकार की अविश्वसनीय भिन्नता और रचनात्मकता के कारण, निश्चित रूप से हर संभव, यादृच्छिक, डेटा में टक्कर के लिए कुछ फिट है), एक प्रदर्शन करने की कोई संभावना नहीं है सत्यापित करने के लिए नया प्रयोग (जब तक कि आप एक नया ब्रह्मांड बनाने में सक्षम न हों)।


1
+1 @MartijnWeterings के लिए जैसा कि मैंने अपनी टिप्पणियों में कहा था कि समस्या गणितीय रूप से अच्छी तरह से पेश नहीं की गई थी। मुझे यह आभास हुआ कि ओपी ने सोचा कि विरोधाभास है क्योंकि क्योंकि दोनों शोधकर्ता एक ही मॉडल विकल्प के लिए नेतृत्व करेंगे, लेकिन एक 1000 प्रतिगमन करने वाले को कई तुलनात्मक मुद्दे की आवश्यकता के कारण दंडित किया जाता है। मैं इसे एक विरोधाभास के रूप में नहीं देखता (स्पष्ट नहीं है लेकिन मुझे लगता है कि ओपी ने किया था)। आपने बहुत ही खूबसूरती से लिखा और सही उत्तर दिया जो सहज रूप से यह भी बताता है कि दोनों मामले अलग-अलग क्यों हैं। मुझे लगता है कि ओपी को आपके जवाब की जाँच करनी चाहिए!
माइकल आर। चेरिक

@MichaelChernick आपकी टिप्पणियाँ केस / समस्या को संभालने के लिए पर्याप्त हो सकती , लेकिन मुझे इसका जवाब एक मज़बूत 'सांख्यिकी गणित' स्वाद के साथ देना उपयोगी लगा । आवश्यक 'गणितीय / सैद्धांतिक औचित्य' से दूर जाना , और यह स्वीकार करना कि सांख्यिकीय शब्द और समस्याएं गणितीय समस्याओं की तुलना में अधिक अस्पष्ट हैं, प्रश्न में अस्पष्टता को और अधिक स्पष्ट करता है।
सेक्स्टस एम्पिरिकस

1
इसके अलावा, मुझे पता है कि यह आम बात है, लेकिन क्या आपको यह कहने में कोई परेशानी नहीं है कि एक परिणाम दूसरे की तुलना में "मजबूत सबूत" है, जब वे एक ही डेटा बनाने की प्रक्रिया से सटीक मॉडल और डेटा हैं? केवल यह बात अलग है कि किसी तीसरे पक्ष ने डेटा को कितना देखा और इसका समस्या के बारे में डीजीपी या आपकी पूर्व धारणाओं से कोई संबंध नहीं होना चाहिए। उदाहरण के लिए, शोधकर्ता 2 विश्लेषण को शोधकर्ता 1 की अज्ञानता से दागी जानी चाहिए?
सांख्यिकीविद्

1
@MartijnWeterings डेटा की व्याख्या के लिए शोधकर्ता की मंशा क्यों होनी चाहिए? यदि आप इसे एक विशेषज्ञ के रूप में एक आम आदमी के रूप में प्रयोग कर रहे हैं, तो यह ठीक है। लेकिन डेटा का विश्लेषण करने वाले वैज्ञानिक के लिए, ऐसा लगता है कि शोधकर्ता के इरादे का सबूतों की आपकी व्याख्या पर कोई असर नहीं होना चाहिए।
15

1
तो ऐसा लगता है कि आप शोधकर्ता के व्यवहार को अपने पूर्व के लिए एक प्रॉक्सी के रूप में उपयोग कर रहे हैं । यदि शोधकर्ता ने 1000 प्रतिगमन चलाए, तो यह उस विशिष्ट परिकल्पना से पहले एक निम्न के अनुरूप होगा। अगर वह सिर्फ 1 भागता है, तो यह उस परिकल्पना पर एक उच्च पूर्व के अनुरूप होगा। यदि आपके पास दो मामले थे, तो आप यह नहीं जानते कि कौन सा उपयोग करना है।
सांख्यिकीविज्ञानी 15'17

1

लघु कहानी: आपके पास आपके प्रश्न का उत्तर देने के लिए पर्याप्त जानकारी नहीं है क्योंकि हम उपयोग किए गए तरीकों या एकत्र किए गए डेटा के बारे में कुछ भी नहीं जानते हैं।

लंबे उत्तर ... असली सवाल यह है कि क्या प्रत्येक शोधकर्ता कर रहा है:

  • कठोर विज्ञान
  • कठोर छद्म विज्ञान
  • डेटा की खोज
  • डेटा ड्रेजिंग या पी-हैकिंग

उनके तरीके उनके परिणामों की व्याख्या की ताकत निर्धारित करेंगे। ऐसा इसलिए है क्योंकि कुछ तरीके दूसरों की तुलना में कम ध्वनि वाले हैं।

कठोर विज्ञान में हम एक परिकल्पना विकसित करते हैं, भ्रमित चर की पहचान करते हैं, हमारी परिकल्पना के बाहर चर के लिए नियंत्रण विकसित करते हैं, परीक्षण विधियों की योजना बनाते हैं, हमारी विश्लेषणात्मक कार्यप्रणाली की योजना बनाते हैं, परीक्षण करते हैं / डेटा एकत्र करते हैं, और फिर डेटा का विश्लेषण करते हैं। (ध्यान दें कि परीक्षण होने से पहले विश्लेषणात्मक तरीकों की योजना बनाई गई है)। यह सबसे कठोर है क्योंकि हमें डेटा और विश्लेषण को स्वीकार करना चाहिए जो परिकल्पना से सहमत नहीं है। इस तथ्य को कुछ दिलचस्प पाने के लिए तरीकों को बदलना स्वीकार्य नहीं है। निष्कर्षों से किसी भी नई परिकल्पना को फिर से उसी प्रक्रिया से गुजरना पड़ता है।

छद्म विज्ञान में हम अक्सर उन आंकड़ों को लेते हैं जो पहले से ही एकत्र हैं। नैतिक रूप से इसका उपयोग करना अधिक कठिन है क्योंकि परिणामों में पूर्वाग्रह जोड़ना आसान है। हालांकि, नैतिक विश्लेषकों के लिए वैज्ञानिक पद्धति का पालन करना अभी भी संभव है। हालांकि उचित नियंत्रण स्थापित करना मुश्किल हो सकता है और इस पर शोध और ध्यान देने की आवश्यकता है।

डेटा की खोज विज्ञान पर आधारित नहीं है। कोई विशिष्ट परिकल्पना नहीं है। भ्रमित करने वाले कारकों का प्राथमिक मूल्यांकन नहीं है। इसके अलावा, एक ही डेटा का उपयोग करके विश्लेषण को वापस जाना और फिर से करना मुश्किल है, क्योंकि परिणाम पूर्व ज्ञान या मॉडलिंग द्वारा दागी जा सकते हैं और सत्यापन के लिए उपयोग करने के लिए कोई नया डेटा नहीं है। खोजपूर्ण विश्लेषण से मिले संभावित संबंधों को स्पष्ट करने के लिए कठोर वैज्ञानिक प्रयोग की सिफारिश की गई है।

डेटा ड्रेजिंग या पी-हैकिंग वह जगह है जहां "विश्लेषक" अप्रत्याशित या अज्ञात उत्तर की उम्मीद में कई परीक्षण करता है या परिणाम प्राप्त करने के लिए डेटा में हेरफेर करता है। परिणाम सरल संयोग हो सकते हैं, परिवर्तनशील चर (ओं) के परिणाम हो सकते हैं, या सार्थक प्रभाव आकार या शक्ति नहीं हो सकते हैं।

प्रत्येक समस्या के लिए कुछ उपाय हैं, लेकिन उन उपायों का सावधानीपूर्वक मूल्यांकन किया जाना चाहिए।


1
मेरा मानना ​​है कि आप प्रश्न पर अनावश्यक शोर जोड़ रहे हैं। मान लें कि उन्होंने उपलब्ध सर्वोत्तम तरीकों का इस्तेमाल किया। डेटा उनके द्वारा एकत्र नहीं किया गया था, लेकिन एक सांख्यिकीय एजेंसी द्वारा, इसलिए उनका डेटा संग्रह पर कोई नियंत्रण नहीं था। अंतर केवल इतना है कि प्रत्येक शोधकर्ता ने डेटा की खोज की। उनमें से एक ने बहुत खोजबीन की, दूसरे ने केवल एक बार खोजबीन की। दोनों को एक ही डेटा के साथ एक ही अंतिम मॉडल मिलता है। क्या उन्हें अलग-अलग निष्कर्ष निकालना चाहिए? और यह कैसे आपके प्रभाव को प्रभावित करना चाहिए ?
सांख्यिकीविज्ञानी

यह अतिरिक्त शोर नहीं है। गणित गणित है। यदि मॉडल समान हैं तो वे समान हैं। आप मॉडल की व्याख्या कैसे करते हैं यह आपकी समस्या में शामिल अन्य चर के सभी पर निर्भर है। यदि आप अन्य सभी संदर्भों को अनदेखा करते हैं और उत्तर को डिजाइन या प्रयोग सरल करते हैं, तो दोनों मॉडल समान रूप से गणितीय रूप से प्रदर्शन करते हैं और दोनों वैज्ञानिक रूप से कमजोर हैं।
एडम सैम्पसन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.