आर का उपयोग करके प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान के पूर्ण मूल उदाहरण


71

प्रश्न: क्या आर के उपयोग से प्रजनन योग्य अनुसंधान के कोई अच्छे उदाहरण हैं जो स्वतंत्र रूप से ऑनलाइन उपलब्ध हैं?

आदर्श उदाहरण: विशेष रूप से, आदर्श उदाहरण प्रदान करेगा:

  • कच्चा डेटा (और आदर्श रूप से मेटा डेटा की व्याख्या करने वाला डेटा),
  • डेटा आयात, प्रसंस्करण, विश्लेषण और उत्पादन पीढ़ी सहित सभी आर कोड,
  • अंतिम आउटपुट को अंतिम दस्तावेज़ से जोड़ने के लिए स्वाइव या कुछ अन्य दृष्टिकोण,
  • एक प्रारूप में सभी जो आसानी से डाउनलोड करने योग्य और एक पाठक के कंप्यूटर पर संकलित है।

आदर्श रूप में, उदाहरण एक पत्रिका लेख या एक थीसिस होगा जहां एक सांख्यिकीय शिक्षण उदाहरण के विपरीत वास्तविक लागू विषय पर जोर दिया जाता है।

रुचि के कारण: मैं विशेष रूप से जर्नल लेखों और शोधपत्रों में लागू विषयों में रुचि रखता हूं, क्योंकि इन स्थितियों में, कई अतिरिक्त मुद्दे उत्पन्न होते हैं:

  • डेटा की सफाई और प्रसंस्करण से संबंधित समस्याएं उत्पन्न होती हैं,
  • मेटाडेटा के प्रबंधन से संबंधित समस्याएं,
  • पत्रिकाओं और शोधपत्रों में अक्सर टेबल और आंकड़ों की उपस्थिति और स्वरूपण के बारे में स्टाइल गाइड की अपेक्षाएं होती हैं,
  • कई पत्रिकाओं और शोध में अक्सर विश्लेषण की एक विस्तृत श्रृंखला होती है जो वर्कफ़्लो (यानी, विश्लेषण कैसे अनुक्रम करें) और प्रसंस्करण समय (जैसे, कैशिंग विश्लेषण के मुद्दे, आदि) के बारे में मुद्दे उठाती है।

पूर्ण कार्य करने वाले उदाहरणों को देखने से शोधार्थियों के लिए अच्छी शिक्षण सामग्री उपलब्ध हो सकती है।

जवाबों:


14

फ्रैंक हरेल कई वर्षों से कई, कई वर्षों से प्रजनन योग्य अनुसंधान और रिपोर्टों पर ढोल पीट रहे हैं। आप इस विकी पृष्ठ पर शुरू कर सकते हैं , जो प्रकाशित शोध सहित अन्य संसाधनों की काफी सूची देता है और चार्ल्स गीयर के पेज को भी कवर करता है।


11

जर्नल Biostatistics में Reproducibility के लिए एक एसोसिएट संपादक है, और इसके सभी लेख चिह्नित हैं:

पुनरुत्पादक अनुसंधान

हमारी प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान नीति जर्नल में पतंग के रूप में चिह्नित डी के लिए है यदि वे डेटा जिस पर वे स्वतंत्र रूप से उपलब्ध हैं, सी यदि लेखकों का कोड स्वतंत्र रूप से उपलब्ध है, और आर यदि डेटा और कोड दोनों उपलब्ध हैं, और हमारे रिप्रोड्यूसबिलिटी के लिए एसोसिएट एडिटर पेपर में परिणामों को पुन: पेश करने के लिए इनका उपयोग करने में सक्षम है। डेटा और कोड को जर्नल की वेबसाइट पर इलेक्ट्रॉनिक रूप से पूरक सामग्री के रूप में प्रकाशित किया जाता है।

http://biostatistics.oxfordjournals.org/

कितना अच्छा विचार है?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract पूरक में एक आर पैकेज के साथ आता है जो विश्लेषण करता है - अभी तक इसे खुद करने की कोशिश नहीं की है। इसके अलावा, यह नहीं पता कर सकते हैं कि खुलेपन की रेटिंग कहाँ निर्दिष्ट की गई है। सहयोगी संपादक को कुछ सवालों के साथ ईमेल कर रहा हूँ ...

[संपादित करें]

रोजर पेंग के सहयोगी संपादक ने मुझे बताया कि पीडीएफ को प्राप्त किए बिना प्रतिलिपि लेखों को खोजने का शायद कोई तरीका नहीं है। उन्होंने मुझे इस ओर इशारा किया, जिस पर एक अच्छा बड़ा 'आर' है (जिसका अर्थ फिल्मों की तरह आर-रेटेड नहीं है) प्रतिलिपि प्रस्तुत करने के लिए:

http://biostatistics.oxfordjournals.org/content/10/3/409.abstract

बेशक पत्रिका ही स्वतंत्र नहीं है ... # फ़ेल

बैरी


1
यह देखने के लिए बहुत अच्छा है कि एक पत्रिका प्रतिलिपि प्रस्तुत करने योग्यता को प्राथमिकता दे। क्या आपने आर को चिह्नित किए गए लेखों का कोई अच्छा उदाहरण देखा है?
जेरोमे एंग्लीम

1
वे इसे प्रकाशन के लिए प्राथमिकता नहीं देते हैं, मुझे लगता है कि वे इसे उजागर करना चाहते हैं। मैं एक उदाहरण के साथ अपना उत्तर संपादित करूंगा।
स्पेल्डमैन

10

रसायन चिकित्सा के NCI60 पूर्ववर्तियों की अपरिवर्तनशीलता

यह एक प्रतिलिपि प्रस्तुत करने योग्य विश्लेषण है जो एक पेपर के प्रतिलिपि प्रस्तुत करने योग्यता की कमी को दर्शाता है जो समाचार में रहा है। अप्रासंगिक कागज के झूठे निष्कर्ष के आधार पर एक नैदानिक ​​परीक्षण को निलंबित कर दिया गया था, फिर से लगाया गया था, फिर से निलंबित कर दिया गया था ... यह समाचार में प्रतिलिपि प्रस्तुत करने योग्य विश्लेषण का एक अच्छा उदाहरण है।


10

मेरे शोध पत्रों के पेज पर कुछ ऐसे उदाहरण हैं । (मुझे नए सदस्य के रूप में एक से अधिक हाइपरलिंक पोस्ट करने की अनुमति नहीं है। इसलिए मैं उस साइट पर केवल कागजात का वर्णन करूंगा।)

(1) "मेकिंग इफेक्ट्स मेनिफेस्ट इन रैंडमाइज्ड एक्सपेरिमेंट्स" में आर के विगनेट सिस्टम का उपयोग किया गया है।

(2) "एक क्लस्टर रैंडमाइज़्ड-आउट-द-वोट अभियान के लिए प्रभाव को प्रस्तुत करना" एक अधिक जटिल पेपर था जिसमें कुछ समय के सिमुलेशन का उपयोग किया गया था। हमने मेकफाइल आधारित प्रणाली का उपयोग किया और इसे डाटावर्स पर पोस्ट किया

(3) "एचएलएम के लिए ईडीए" मेरा शुरुआती प्रयास था। यहाँ मैं सिर्फ डेटा और संबंधित Sweave फ़ाइलों को एक टैरबॉल में रखता हूँ।

हमारे जेएएसए संग्रह को बनाते समय एक समस्या यह थी कि सीआरएएन पैकेज के संस्करण और चूक बदल गए थे। तो, उस संग्रह में, हम उन पैकेजों के संस्करणों को भी शामिल करते हैं जिनका हमने उपयोग किया था। विगनेट आधारित प्रणाली शायद टूट जाएगी क्योंकि लोग अपने पैकेजों को बदलते हैं (यह सुनिश्चित नहीं करते कि पैकेज के भीतर अतिरिक्त पैकेजों को कैसे शामिल किया जाए)।

अंत में, मुझे आश्चर्य है कि जब आर खुद बदलता है तो मुझे क्या करना है। क्या उत्पादन करने के तरीके हैं, कहते हैं, एक आभासी मशीन जो कागज के लिए उपयोग किए जाने वाले संपूर्ण कम्प्यूटेशनल वातावरण को पुन: पेश करती है जैसे कि वर्चुअल मशीन विशाल नहीं है?

वैसे भी, मुझे उम्मीद है कि ये उदाहरण मदद करते हैं। कम से कम वे इस क्षेत्र में मेरे कुछ प्रयोग दिखाते हैं।

(यहाँ कुछ सादे पाठ हाइपरलिंक हैं।)

  [२]: http://jakebowers.org/manifesteffects-compendium-howto.txt
  [३]: http://hdl.handle.net/1902.1/12174
  [४]: http://hdl.handle.net/1902.1/13376

आप कुछ दिलचस्प सवाल उठाते हैं। मैंने आपको उद्धृत करते हुए एक अलग प्रश्न पोस्ट किया है: सांख्यिकी.स्टैकएक्सचेंज.com
जेरोमी एंग्लीम

9

Koenker और Zeileis अपेक्षाकृत पूर्ण उदाहरण के साथ एक वेबपेज प्रदान करते हैं। वे साँझा करते है:

  • Rnw (स्विवे कोड)
  • विश्लेषण कोड
  • अंतिम पीडीएफ
  • संस्करण नियंत्रण मुद्दों की चर्चा

8

हमने माइक्रोएरे डेटा का विश्लेषण करते समय आर / बायोकॉन्टर का उपयोग करने का तरीका बताते हुए एक पेपर लिखा। कागज को स्वेव में लिखा गया था और ग्राफ़ उत्पन्न करने के लिए उपयोग किए जाने वाले सभी कोड को पूरक सामग्री के रूप में शामिल किया गया है।

गिलेस्पी, सीएस, लेई, जी।, बॉयज, आरजे, ग्रीनल, ए जे, विल्किंसन, डीजे, 2010. बायोकॉन्टर का उपयोग करके खमीर समय पाठ्यक्रम माइक्रोएरे डेटा का विश्लेषण: खमीर 2 Affymetrix गिरफ्तारी BMC अनुसंधान नोट्स, 3:81 का उपयोग कर एक केस अध्ययन


7

स्वेवे पर चार्ल्स गीयर के पेज का एक थीसिस से एक उदाहरण है, जो आपकी कुछ आवश्यकताओं को पूरा करता है (कच्चा डेटा बस एक आर पैकेज से है, लेकिन आर / स्विवे कोड और अंतिम पीडीएफ उपलब्ध हैं):

यूं जू सुंग की थीसिस में सिद्धांत पर एक पेपर, मिसिंग डेटा मॉडल (प्रीप्रिंट) के लिए मोंटे कार्लो लिक्विलाइलेंस इन्वेंशन में कंप्यूटिंग उदाहरण शामिल थे। पेपर में हर नंबर और हर प्लॉट स्वेव में किए गए एक "पूरक सामग्री" दस्तावेज़ से लिया जाना चाहिए (कट-एंड-पेस्ट, मुझे स्वीकार करना चाहिए)।

( स्रोत फ़ाइल "एक पेपर के लिए अनुपूरक सामग्री" खंड के तहत जुड़ा हुआ है।)

मुझे पता है कि मैंने पहले भी ReproducibleResearch.net सामग्री पृष्ठ ब्राउज़ करते हुए कम से कम एक R उदाहरण दिया है , लेकिन दुर्भाग्य से इसे बुकमार्क नहीं किया।


5

साइमन जैकमैन के पास एक सर्वेक्षण के परिणामों का विश्लेषण करने का एक विशेष रूप से उपयोगी उदाहरण है: "9/11 के 10 साल बाद अमेरिकी और ऑस्ट्रेलियाई"। इसमें तालिकाओं और आंकड़ों को एकीकृत करने के कई उदाहरण हैं।

उन्होंने इस ब्लॉग पोस्ट के माध्यम से स्वेव दस्तावेज और पीडीएफ रिपोर्ट बनाई है ।

जबकि कच्चे डेटा की आपूर्ति नहीं की जाती है (जहां तक ​​मैं बता सकता हूं), इसलिए वास्तविक स्विवे उदाहरणों को चलाना संभव नहीं है, मुझे लगता है कि स्वेव कोड का अध्ययन करने से एक निष्पक्ष बिट सीखा जा सकता है।


5

नील सॉन्डर्स ने एक सम्मेलन से जुड़े ऑनलाइन इंटरैक्शन का विश्लेषण किया। कई गुण जो इसे एक उपयोगी उदाहरण बनाते हैं, उनमें शामिल हैं:

  • Rnw फ़ाइल प्रदान की गई है
  • रेखांकन का उपयोग कर उत्पन्न होते हैं ggplot
  • अच्छा आकार और आसानी से समझ में आने वाला डोमेन

सामग्री यहाँ उपलब्ध हैं:


4

सांख्यिकीय सॉफ्टवेयर जर्नल को भी देखें ; वे स्वेव में कागज बनाने को प्रोत्साहित करते हैं।


नहीं, औपचारिक रूप से नहीं - LaTeX सबमिशन को प्रोत्साहित करता है लेकिन यदि आप निर्देश पृष्ठ को देखते हैं तो इसमें Sweave शब्द नहीं है। लेखक इसका उपयोग करते हैं और / या आर कोड को कागज के साथ शिप करते हैं, लेकिन पैकेज इग्नेट्स के बारे में यह इकोन शेन की बात है।
डर्क एडल्डबुलेटेल

ठीक है, अभी भी ज्यादातर सबमिटर इसका इस्तेमाल करते हैं (जर्नल शैली में स्वेवेस्टी भी शामिल है); मुख्य समस्या यह है कि वहाँ कोई Rnws प्रकाशित कर रहे हैं, अभी भी स्वेव द्वारा किए गए कागज स्टैंगल आउटपुट के साथ आते हैं।

4

मैंने अतीत में अच्छे लोगों को पाया है और मैं उन्हें खोदने के बाद एक बार पोस्ट करूंगा, लेकिन कुछ सामान्य सामान्य सुझाव:

  1. आप कीवर्ड और ext: rnw के साथ Google खोज करके कुछ दिलचस्प उदाहरण प्राप्त करने में सक्षम हो सकते हैं (जो स्विफ्ट एक्सटेंशन के साथ फ़ाइलों की खोज करेंगे)। यहाँ एक उदाहरण खोज है । मेरी खोज से यह तीसरा परिणाम है: http://www.ne.su.se/paper/araietal_source.Rnw । यहाँ मेरी खोज से एक और उदाहरण है: http://www.stat.umn.edu/geyer/gdor/
  2. कई आर पैकेजों में दिलचस्प विगनेट्स होते हैं जो अनिवार्य रूप से एक ही चीज़ की राशि होते हैं। एक उदाहरण: https://r-forge.r-project.org/scm/viewvc.php/paper/maxLone.Rnw

4

रॉबर्ट जेंटलमैन ने "रेप्रोड्यूसीबल रिसर्च: ए बायोइनफॉरमैटिक्स केस स्टडी" नामक एक पेपर लिखा

यह आर पैकेज के रूप में विश्लेषण के एक छोटे सेट को लागू करता है और स्वेव का उपयोग करता है। इसमें स्वेव के उपयोग की चर्चा भी आम तौर पर की जाती है।

उपयोग की गई सभी फ़ाइलों और फ़ोल्डरों की एक संग्रह फ़ाइल के लिए लेख पृष्ठ के "संबंधित फाइलें" अनुभाग देखें ।

संदर्भ:

  • जेंटलमैन, रॉबर्ट (2005) "रिप्रोड्यूसियल रिसर्च: ए बायोइनफॉरमैटिक्स केस स्टडी," स्टेटिक एप्लीकेशन इन जेनेटिक्स एंड मॉलिक्यूलर बायोलॉजी: वॉल्यूम। 4: इस्स। 1, अनुच्छेद 2।
  • DOI: 10.2202 / 1544-6115.1034
  • यहाँ उपलब्ध है: http://www.bepress.com/sagmb/vol4/iss1/art2

4

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

एक अच्छा कागज, मेरा एक लैब मेट द्वारा। हमारा पीआई बहुत खुश था जब प्रशंसक मेल जैसा कुछ इसके लिए आया था। अब समूह के सभी प्रकाशनों में LaTeX / Sweave के पूरक तरीके हैं। कुछ कागजात, यह भी तय नहीं कर सकते हैं कि लाईक्स / स्वेव या फोल्ड में खदान को रखना है या सिर्फ स्वाइप में पूरक करना है)।


3

उदाहरणों और प्रथाओं की तलाश करना सीखने का एक अच्छा तरीका है, लेकिन मैं सिर्फ यह उल्लेख करना चाहता था कि प्रतिलिपि प्रस्तुत करने की क्षमता में न केवल तकनीकी / स्क्रिप्ट रेरन पक्ष है, बल्कि कोड शैली और संरचना पहलू भी है, मुख्य कार्यों में साइड इफेक्ट्स का कम से कम होना आदि। चेम्बर्स बुक सॉफ़्टवेयर फॉर डेटा एनालिसिस अधिक गहराई से तकनीकों को समझने की अनुमति देता है जो आर कोड स्तर पर विश्वसनीयता और प्रतिलिपि प्रस्तुत करने योग्य मुद्दों से बचने में मदद करता है।


2

यदि आपको अभी भी एक पूरी तरह से REPRODUCIBLE विश्लेषण प्लस पेपर के एक महान उदाहरण की आवश्यकता है, तो इस रेपो का उपयोग करें

@Jscamac ने अपने विश्लेषण को असभ्य बनाकर एक महान काम किया और मैंने इसे व्यक्तिगत रूप से मान्य किया।

आप दुबला कर सकते हैं कि आर-विशिष्ट कार्यों का उपयोग कैसे करें जैसे कि पैकेज remakeप्रतिलिपि प्रस्तुत करने योग्यता सुनिश्चित करने के लिए।

देखो / गणना के पूरा होने में लगभग एक घंटे लगते हैं।

इसके सभी स्क्रिप्ट और आंकड़ों के साथ अंत में एक लाटेक्स पेपर का उत्पादन करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.