संसाधन गहन कंप्यूटिंग के लिए मल्टीकोर, एसएनओडब्ल्यू या क्यूडीए पैकेज के साथ आर का उपयोग कौन करता है?


16

इस फ़ोरम में आप में से कौन मल्टीकोर , स्नो पैकेज या CUDA के साथ "> R का उपयोग करता है , इसलिए उन्नत गणनाओं के लिए, जिन्हें वर्कस्टेशन CPU की तुलना में अधिक शक्ति की आवश्यकता होती है? किस हार्डवेयर पर आप इन स्क्रिप्ट की गणना करते हैं? घर / काम पर या क्या आप करते हैं? डेटा सेंटर पहुंच कहीं?

इन सवालों की पृष्ठभूमि निम्नलिखित है: मैं वर्तमान में अपना एम.एससी लिख रहा हूँ। आर और उच्च प्रदर्शन कम्प्यूटिंग के बारे में थीसिस और वास्तव में आर का उपयोग करने वाले एक मजबूत ज्ञान की आवश्यकता है। मैंने पढ़ा है कि आर के पास 2008 में 1 मिलियन उपयोगकर्ता थे, लेकिन इस विषय पर मेरे द्वारा पाए जाने वाले एकमात्र उपयोगकर्ता आँकड़े कम-से-कम हैं, इसलिए मुझे आपके लिए आशा है जवाब!

साभार हेनरिक


एक संभावित संबंधित प्रश्न, आंकड़े ।stackexchange.com/ questions/ 825 /
chl

जवाबों:


6

मैं एक जीवविज्ञानी हूं जो कई प्रवासी प्रजातियों की जनसंख्या की गतिशीलता पर अंतर-वार्षिक जलवायु परिवर्तन के प्रभावों को मॉडल करता है। मेरे डेटासेट बहुत बड़े हैं (स्थानिक रूप से गहन डेटा) इसलिए मैं अपने EC कोड multicoreको Amazon EC2 सर्वर पर उपयोग करके चलाता हूं । यदि मेरा कार्य विशेष रूप से गहन है, तो मैं एक हाई मेमोरी क्वाड्रपल एक्स्ट्रा लार्ज उदाहरण चुनूंगा जो 26 सीपीयू यूनिट, 8 कोर और 68 जी रैम के साथ आता है। इस मामले में मैं आमतौर पर 4-6 स्क्रिप्ट एक साथ चलाता हूं, जिनमें से प्रत्येक एक काफी बड़े डेटा सेट के माध्यम से काम कर रहा है। छोटे कार्यों के लिए, मैं 4-6 कोर और लगभग 20 गीगा रैम के साथ सर्वर का चयन करता हूं।

मैं इन उदाहरणों को लॉन्च करता हूं (आमतौर पर स्पॉट इंस्टेंस क्योंकि वे सस्ते होते हैं, लेकिन कभी भी समाप्त कर सकते हैं मौजूदा दर जो मैंने भुगतान करने के लिए चुना है) से अधिक है, स्क्रिप्ट को कई घंटों तक चलाएं, और फिर एक बार मेरी स्क्रिप्ट समाप्त होने के बाद उदाहरण को समाप्त करें। मशीन इमेज (अमेज़ॅन मशीन इमेज) के रूप में, मैंने किसी को उबंटू स्थापित करने के लिए ले लिया, आर को अपडेट किया, मेरे पैकेज स्थापित किए, और बचाया कि मेरे एस 3 स्टोरेज स्पेस पर मेरे निजी एएमआई के रूप में।

मेरी व्यक्तिगत मशीन एक डुअलकोर मैकबुक प्रो है और इसमें मल्टीकोर कॉल के लिए कठिन समय है। यदि आपके अन्य प्रश्न हैं, तो ईमेल करने के लिए स्वतंत्र महसूस करें।


क्या आप pls बता सकते हैं कि आपके डेटा सेट का आकार क्या है।
सनकूलसु

ज़रूर। मैं वर्तमान में जिन डेटासेटों के साथ काम कर रहा हूं, वे ~ 14 गिग्स
माईसौरा

4

चूंकि आप पूछते हैं, मैं मल्टीकोर बैकएंड के साथ फोरच पैकेज का उपयोग कर रहा हूं । मैं इसका उपयोग एक नेहल बॉक्स पर कई रैम के साथ कई कोर पर एक शर्मनाक समानांतर कार्यभार को विभाजित करने के लिए करता हूं । यह हाथ में काम के लिए बहुत अच्छी तरह से काम करता है।


आपके उत्तर के लिए धन्यवाद! क्या आप अपने काम / शैक्षणिक अनुसंधान के लिए या खुद के पीसी पर खुद की परियोजनाओं के लिए गणना करते हैं?
हेनरिक

यह एक वाणिज्यिक सेटिंग में किया जाता है। इस कार्य के लिए, मैं 32GB RAM और RAIDed डिस्क के साथ एक एकल इंटेल बॉक्स का उपयोग कर रहा हूं (मुख्य कठिनाई बहुत सारे डेटा है, जबकि प्रसंस्करण स्वयं बहुत कम्प्यूटेशनल रूप से मांग नहीं कर रहा है।)
NPE

ठीक है @aix, आप कितनी बार ये गणना करते हैं। क्या आप पूरे दिन या अधिक बेकार बॉक्स चला रहे हैं?
हेनरिक

@NPE को क्विक क्वेश्चन: आप किस सिस्टम में डेटा स्टोर करते हैं? क्या आप एक डेटाबेस बैक-एंड का उपयोग करते हैं?
nassimhddd

3

मैं अकादमी में काम करता हूं और मशीन लर्निंग एल्गोरिदम के कुछ भारी बेंचमार्क के लिए मल्टीकोर का उपयोग कर रहा हूं, ज्यादातर हमारे ओपर्टन आधारित सूर्य नक्षत्र और कुछ छोटे समूहों पर; वे भी बल्कि समानांतर रूप से समानांतर समस्याएं हैं, इसलिए मल्टीकोर की मुख्य भूमिका स्मृति उपयोग के गुणन के बिना नोड पर गणना का प्रसार करना है।


हमारे यहाँ हैम्बर्ग में हमेशा एक समस्या है कि अकादमिक डेटा केंद्रों के लिए प्रतीक्षा समय वास्तव में लंबा है। क्या यह आपके लिए समान है?
हेनरिच

@ हाइनरिक मैं एक प्रकार के अकादमिक डेटा केंद्र के लिए काम करता हूं, इसलिए मुझे ऐसी समस्याएं नहीं हैं (- गंभीरता से, वारसा में वैज्ञानिक सीपीयू समय की आपूर्ति मांग से बड़ी है, इसलिए मेरा मानना ​​है कि अनुदान प्राप्त करना काफी आसान है। और मुझे लगता है कि आप डी ग्रिड या EGEE की कोशिश करनी चाहिए, मेरे अनुभव सामान्य रूप में है कि ग्रिड बहुत underused रहे हैं।

ओह। यह दिलचस्प है। Dow आप जानते हैं कि इन एक्सटेंशन्स में R का इस्तेमाल किस तरह के व्यवसायों में किया जाता है?
हेनरिक

2

मैं ठीक डेटा समानांतर प्रसंस्करण के लिए एचपीसी क्लस्टर और CUDA पर पाठ्यक्रम समानांतरीकरण के लिए बर्फ और बर्फबारी का उपयोग करता हूं। मैं एपिडेमियोलॉजी में हूं जो बीमारी का प्रसारण मॉडलिंग करता है। इसलिए मैं दोनों का उपयोग करता हूं।


आपकी जानकारी के लिए शुक्रिया। आप पाठ्यक्रम समानांतरकरण के साथ क्या मतलब है?
हेनरिक

कोर्स समांतरकरण MCMC परिवर्तन के स्वतंत्र रन की तरह कुछ होगा। यानी, बहुत बड़े चक जो बिना थ्रेड्स के समानांतर समानांतर चल सकते हैं। ठीक अनाज का एक उदाहरण संभावना की गणना कर रहा है जहां गणना डेटा बिंदुओं पर स्वतंत्र रूप से की जा सकती है।
एंड्रयू रेड
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.