हम 'प्रजनन योग्य अनुसंधान' को कैसे परिभाषित कर रहे हैं?


50

यह अब कुछ सवालों में आया है, और मैं कुछ के बारे में सोच रहा हूँ। क्या पूरे डेटा को मूल डेटा की उपलब्धता और प्रश्न में कोड पर ध्यान केंद्रित करते हुए "पुनरावृत्ति" की ओर ले जाया गया है?

मुझे हमेशा सिखाया गया था कि प्रतिलिपि प्रस्तुत करने योग्यता का मूल रूप से आवश्यक नहीं था, जैसा कि मैंने इसे संदर्भित किया है, रन पर क्लिक करने और समान परिणाम प्राप्त करने की क्षमता। डेटा-एंड-कोड दृष्टिकोण ऐसा लगता है कि डेटा सही हैं - कि डेटा के संग्रह में कोई दोष नहीं है (अक्सर वैज्ञानिक धोखाधड़ी के मामले में असत्य रूप से गलत है)। यह कई स्वतंत्र नमूनों की खोज की प्रतिकृति की बजाय लक्ष्य आबादी के एक एकल नमूने पर केंद्रित है।

फिर जोर जमीन पर से अध्ययन की नकल करने के बजाय विश्लेषण को फिर से चलाने में सक्षम क्यों है?

नीचे टिप्पणी में उल्लिखित लेख यहां उपलब्ध है


अच्छा प्रश्न ! मैंने अपने उत्तर में डोनो के पेपर का संदर्भ दिया, लेकिन प्रतिलिपि प्रस्तुत करने योग्य शोध के बारे में आपके लिखित संदर्भ क्या हैं?
रॉबिन जिरार्ड

रेइटर और किन्नी के पास इस महीने के अंक में महामारी विज्ञान के एक अंक का विषय है, जिसे 'शेयरिंग कॉन्फिडेंशियल डेटा फॉर रिसर्च पर्पस: ए प्राइमर' कहा जाता है, जो उन परिस्थितियों में कोड और डेटा उपलब्ध कराने में मदद करता है, जहां आप सिर्फ acsv फ़ाइल को टॉस नहीं कर सकते। और यह सुनिश्चित करने की आवश्यकता है कि गोपनीयता बरकरार रहे।
फोमाइट

@EpiGrad, "चूंकि यह महीना" बीत चुका है, लेख का लिंक होना मददगार होगा। सीवी और विज्ञान / डेटा विश्लेषण में योगदान देने वाले एक महान प्रश्न पूछने के लिए धन्यवाद!
गंग -

@ गुंग कौन सा लेख है?
फोमाइट

@EpiGrad अभी ऊपर, रेइटर और किन्नी। +1 btw
गुंग - फिर से बहाल करें मोनिका

जवाबों:


41

"प्रतिलिपि प्रस्तुत करने योग्य विश्लेषण के रूप में" प्रतिकारक अनुसंधान

Reproducible अनुसंधान एक शब्द है जिसका उपयोग कुछ शोध डोमेन में विशेष रूप से विश्लेषण करने के लिए किया जाता है

  • कोड कच्चे डेटा और मेटा-डेटा को संसाधित डेटा में बदल देता है,
  • कोड डेटा पर विश्लेषण चलाता है, और
  • कोड एक रिपोर्ट में विश्लेषण को शामिल करता है।

जब इस तरह के डेटा और कोड साझा किए जाते हैं, तो यह अन्य शोधकर्ताओं को निम्नलिखित की अनुमति देता है:

  • मूल शोधकर्ताओं द्वारा रिपोर्ट नहीं किए गए विश्लेषण करते हैं
  • मूल शोधकर्ताओं द्वारा किए गए विश्लेषणों की शुद्धता की जांच करें

इस प्रयोग को स्वेव जैसी तकनीकों की चर्चा में देखा जा सकता है । उदाहरण के लिए, फ्रेडरिक लेइस्क स्वेव के संदर्भ में लिखते हैं कि "डेटा या विश्लेषण बदलने पर रिपोर्ट स्वचालित रूप से अपडेट की जा सकती है, जो वास्तव में प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान के लिए अनुमति देता है।" यह CRAN Task View on Reproducible Research में भी देखा जा सकता है जिसमें कहा गया है कि "प्रतिलिपि अनुसंधान का लक्ष्य डेटा विश्लेषण और प्रयोगात्मक डेटा के लिए विशिष्ट निर्देशों को बाँधना है ताकि छात्रवृत्ति को फिर से बनाया जा सके, बेहतर ढंग से समझा और सत्यापित किया जा सके।"

"प्रजनन शक्ति" शब्द का व्यापक उपयोग

Reproducibility विज्ञान का एक मूल उद्देश्य है। यह नया नहीं है। शोध रिपोर्टों में विधि और परिणाम अनुभाग शामिल होते हैं, जिन्हें यह रेखांकित करना चाहिए कि डेटा कैसे उत्पन्न, संसाधित और विश्लेषण किया गया था। एक सामान्य नियम यह है कि प्रदान किए गए विवरण पर्याप्त रूप से सक्षम शोधकर्ता को उपलब्ध कराई गई जानकारी लेने और अध्ययन को दोहराने के लिए सक्षम करने के लिए पर्याप्त होना चाहिए।

रिप्रोड्यूसबिलिटी भी प्रतिकृति और सामान्यीकरण की अवधारणाओं से निकटता से संबंधित है।

इस प्रकार, शब्द "प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान", जिसे सचमुच लिया जाता है, जैसा कि स्वेव जैसी प्रौद्योगिकियों पर लागू किया गया है, एक मिथ्या नाम है, यह देखते हुए कि यह एक प्रासंगिक व्यापकता को कवर करता है। इसके अलावा, जब ऐसी तकनीकों का उपयोग नहीं करने वाले शोधकर्ताओं को स्वेव जैसी प्रौद्योगिकियां पेश की जाती हैं, तो ऐसे शोधकर्ता अक्सर आश्चर्यचकित होते हैं जब मैं इस प्रक्रिया को "प्रजनन योग्य अनुसंधान" कहता हूं।

"प्रजनन योग्य अनुसंधान" से बेहतर शब्द

यह देखते हुए कि स्वेव जैसे संदर्भों में "प्रजनन योग्य अनुसंधान" का उपयोग केवल प्रजनन योग्य अनुसंधान के एक पहलू से संबंधित है, शायद एक वैकल्पिक शब्द को अपनाया जाना चाहिए। संभावित विकल्पों में शामिल हैं:

उपरोक्त सभी शब्द एक अधिक सटीक प्रतिबिंब हैं जो स्वेव-जैसे विश्लेषणों को आकर्षित करते हैं। प्रतिकारक विश्लेषण छोटा और मीठा होता है। "डेटा" या "सांख्यिकीय" जोड़ना आगे चीजों को स्पष्ट करता है, लेकिन यह शब्द को लंबे और संकीर्ण दोनों बनाता है। इसके अलावा, "सांख्यिकीय" का एक संकीर्ण और व्यापक अर्थ है, और निश्चित रूप से संकीर्ण अर्थ के भीतर, डेटा प्रोसेसिंग का अधिकांश भाग सांख्यिकीय नहीं है। इस प्रकार, "प्रजनन योग्य विश्लेषण" शब्द से निहित चौड़ाई के अपने फायदे हैं

यह केवल प्रतिलिपि प्रस्तुत करने योग्यता के बारे में नहीं है

"प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान" शब्द के साथ अन्य अतिरिक्त मुद्दा स्वेव जैसी प्रौद्योगिकियों का उद्देश्य सिर्फ "पुनरुत्पादकता" नहीं है। कई परस्पर संबंधित उद्देश्य हैं:

  • reproducibility
    • क्या एक ही परिणाम के साथ कच्चे डेटा को अंतिम रिपोर्ट में बदलने के लिए विश्लेषण आसानी से किया जा सकता है?
  • यथार्थता
    • क्या डेटा विश्लेषण शोधकर्ता के इरादों के अनुरूप है?
    • क्या शोधकर्ता के इरादे सही हैं?
  • खुलापन
    • पारदर्शिता, जवाबदेही
      • क्या अन्य प्रदर्शन किए गए विश्लेषणों की सटीकता की जांच और सत्यापन कर सकते हैं?
    • एक्स्टेंसिबिलिटी, मॉडिफिबिलिटी
      • क्या अन्य लोग नए शोध कार्य बनाने के लिए डेटा, विश्लेषण, या दोनों को संशोधित, विस्तारित, पुन: उपयोग और मैश कर सकते हैं?

एक तर्क है कि प्रतिलिपि प्रस्तुत करने योग्य विश्लेषण को सही विश्लेषण को बढ़ावा देना चाहिए, क्योंकि विश्लेषण का एक लिखित रिकॉर्ड है जिसे जांचा जा सकता है। इसके अलावा यदि डेटा और कोड साझा किया जाता है, तो यह जवाबदेही बनाता है जो शोधकर्ताओं को उनके विश्लेषण की जांच करने के लिए प्रेरित करता है, और अन्य शोधकर्ताओं को सुधारों को नोट करने में सक्षम बनाता है।

Reproducible विश्लेषण भी खुले अनुसंधान के आसपास की अवधारणाओं के साथ निकटता से फिट बैठता है। बेशक, एक शोधकर्ता स्वेव जैसी तकनीकों का उपयोग सिर्फ अपने लिए कर सकता है। ओपन रिसर्च के सिद्धांत अधिक पुन: उपयोग और जवाबदेही को सक्षम करने के लिए डेटा और विश्लेषण कोड को साझा करने को प्रोत्साहित करते हैं।

यह वास्तव में "प्रतिलिपि प्रस्तुत करने योग्य" शब्द के उपयोग की आलोचना नहीं है। इसके बजाय, यह सिर्फ इस बात पर प्रकाश डालता है कि स्वैव जैसी तकनीकों का उपयोग करना आवश्यक है, लेकिन खुले वैज्ञानिक अनुसंधान लक्ष्यों को प्राप्त करने के लिए पर्याप्त नहीं है।


2
(+1) शानदार उत्तर, बहुत अच्छे अंक। मैं इस बात से सहमत हूं कि हमें स्वेव और दोस्तों को प्रतिलिपि प्रस्तुत करने योग्य विश्लेषण करना चाहिए ।
NRH

1
(+1) अच्छा अवलोकन। लेकिन मैं यह नोट करूंगा कि 'कच्चा डेटा' शब्द अस्पष्ट है और भ्रामक हो सकता है - डेटा को आम तौर पर उस चरण से पहले संसाधित किया जाता है जिस पर इसे 'कच्चा' माना जाता है, यदि केवल इसे मशीन में लाने के लिए।
डेविड लेबॉयर

@Jeromy Anglim यह एक महान जवाब है, और "प्रजनन योग्य अनुसंधान" के शब्दार्थ के बारे में मुझे क्या कीड़े के मूल में मिलता है - इसका उपयोग एक प्रक्रिया का वर्णन करने के लिए किया जाता है जो केवल डेटा पीढ़ी की प्रक्रिया पूरी होने के बाद होता है। मुझे शब्द "रिप्रोड्यूसियल एनालिसिस" का विचार पसंद है।
फोमाइट

+1 @Jeromy Anglim, मैंने हाल ही में एक लेखक से संपर्क किया कि क्या वह Rप्रकाशन में उपयोग किए जाने वाले कोड को साझा कर सकता है , लेखक ने इसे करने से इनकार कर दिया और मुझे प्रकाशन की ओर इशारा किया। आपकी राय में, क्या आप इसे प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान के लिए खुलेपन की कमी के रूप में मानेंगे या यह पत्रिका में कार्यप्रणाली को स्पष्ट करने और अन्य कार्यक्रम को स्वयं कोड करने के लिए पर्याप्त है? साभार
फोरकास्टर

11

एक आसान-से-निष्पादित रूप में विश्लेषण के लिए डेटा और कोड तक पहुंच होना प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान के लिए एक साइन योग्यता है । एक बार जब आप यह सत्यापित कर लेते हैं कि विश्लेषण कार्य करता है, तो आप अपने स्वयं के कोड / डेटा को स्थानापन्न कर सकते हैं जहाँ आप मूल लेखक के बारे में संदेह कर रहे हैं। मैं कहता हूं कि मेरे द्वारा पढ़े गए अधिकांश आँकड़े युक्त कार्यप्रणाली में कम से कम एक हिस्सा कार्यप्रणाली का है जो अस्पष्ट है। इन विश्लेषणों को पुन: पेश करने के मेरे प्रयास अक्सर असफल (और हमेशा समय लेने वाली) होते हैं, लेकिन यह कहना बहुत मुश्किल है कि क्या यह धोखाधड़ी, मानवीय त्रुटि, या (बहुत अधिक संभावना है) के कारण लेखक की तुलना में इन अस्पष्टताओं का समाधान करना मेरे लिए बहुत मुश्किल है। इसलिए, एक पेपर के लिए डेटा + कोड होना यह गारंटी नहीं देता है कि इसके निष्कर्ष सही हैं, लेकिन इससे उन्हें आलोचना करना या उनका विस्तार करना आसान हो जाता है।

इसके अलावा, "प्रजनन योग्य अनुसंधान" डिग्री की बात है। इसलिए प्रजनन योग्य अनुसंधान आंदोलन को अनुसंधान को प्रोत्साहित करने के रूप में देखा जा सकता है जो कि मानक से अधिक "प्रतिलिपि प्रस्तुत करने योग्य" है, बजाय इसके कि अनुसंधान कुछ न्यूनतम सीमा को पूरा करने की मांग करता है। मुझे लगता है कि "डेटा और कोड जारी करना" अब प्रचलन में है क्योंकि यह एक अपेक्षाकृत आसान और गैर-धमकी भरा कदम है।


9

सब कुछ फिर से चलाने में सक्षम होना प्रजनन योग्य अनुसंधान के लिए एक प्रारंभिक बिंदु है। यह दिखाने की अनुमति देता है कि आप वास्तव में उसी प्रक्रिया का उपयोग कर रहे हैं। उसके बाद -और उसके बाद ही- आप अपने सहकर्मी के शोध को आगे बढ़ा सकते हैं। दूसरे शब्दों में, सख्त पुनरुत्पादकता को उस समय के रूप में नहीं माना जाना चाहिए जिस पर अनुसंधान आगे बढ़ रहा है, लेकिन एक मील का पत्थर के रूप में, एक आम सहमति , जिस पर लोग सहमत हैं। आगे प्राप्त करने के लिए मौलिक नहीं है?

इसके अलावा, डोनोहो (धारा 2 "घोटाले" पढ़ें) की चर्चा के अनुसार, प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान का उद्देश्य भी दिए गए कोड की मजबूती का परीक्षण करना है। पहले कोड के साथ खेलकर, स्लिगथ संशोधन करना जो कागज में नहीं किया गया था (क्योंकि हम 30 आंकड़े के साथ कागज नहीं चाहते हैं ...)। मुझे लगता है कि कूड़े में प्रजनन योग्य अनुसंधान की अवधारणा में मजबूत मजबूत मील का पत्थर होने का विचार है। इसमें लगभग आगे जाने का विचार है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.