R की मेमोरी बाधाएं क्या हैं?


10

" एप्लाइड प्रिडिक्टिव मॉडलिंग " की समीक्षा में एक समीक्षक कहता है :

एक समालोचना मेरे पास सांख्यिकीय शिक्षा (एसएल) शिक्षाशास्त्र है जो विभिन्न मॉडलिंग तकनीकों के मूल्यांकन में अभिकलन प्रदर्शन विचारों की अनुपस्थिति है। बूटस्ट्रैपिंग और क्रॉस-वेलिडेशन ऑन ट्यून / टेस्ट मॉडल के लिए इसके चरणों के साथ, एसएल काफी गणना-गहन है। उस री-सैंपलिंग में जोड़ें, जो बैगिंग और बूस्टिंग जैसी तकनीकों में अंतर्निहित है, और आपके पास बड़े डेटा सेटों की निगरानी सीखने के लिए कम्प्यूटेशन नर्क के दर्शक हैं। वास्तव में, आर की मेमोरी बाधाओं को मॉडल के आकार पर काफी गंभीर सीमाएं लगाती हैं जो यादृच्छिक जंगलों जैसे शीर्ष प्रदर्शन करने वाले तरीकों से फिट हो सकती हैं। यद्यपि SL छोटे डेटा सेटों के खिलाफ मॉडल प्रदर्शन को कैलिब्रेट करने के लिए एक अच्छा काम करता है, लेकिन यह निश्चित रूप से बड़े डेटा के लिए कम्प्यूटेशनल लागत बनाम प्रदर्शन को समझना अच्छा होगा।

आर की मेमोरी बाधाएं क्या हैं, और क्या वे उन मॉडलों के आकार पर गंभीर सीमाएं लगाते हैं जो यादृच्छिक जंगलों जैसे शीर्ष प्रदर्शन करने वाले तरीकों से फिट हो सकते हैं ?


जवाबों:


10

जैसा कि कॉन्स्टेंटिन ने कहा है, आर सिस्टम की मेमोरी यानी रैम में अपनी सारी गणना करता है। इसलिए, आर। आर। में अभिकलन गहन संचालन के लिए RAM क्षमता एक बहुत ही महत्वपूर्ण बाधा है। इस बाधा को पार करते हुए, HDFS सिस्टम में इन दिनों डेटा संग्रहीत किया जा रहा है, जहाँ डेटा को मेमोरी पर लोड नहीं किया जाता है और इसके बजाय प्रोग्राम चलाया जाता है, प्रोग्राम डेटा में चला जाता है इस प्रकार मेमोरी की बाधाओं पर काबू पाने के लिए ऑपरेशन करता है। RHadoop ( https://github.com/RevolutionAnalytics/RHadoop/wiki ) वह कनेक्टर है जिसे आप ढूंढ रहे हैं।

एल्गोरिदम पर प्रभाव के लिए आ रहा है जो कम्प्यूटेशनल गहन हैं, रैंडम फॉरेस्ट / डिसीजन ट्रीज / एनसेम्बल विधियां काफी मात्रा में डेटा (मेरे अनुभव में न्यूनतम 50,000 अवलोकन) बहुत अधिक मेमोरी लेती हैं और काफी धीमी हैं। इस प्रक्रिया को गति देने के लिए, समानांतरकरण जाने का मार्ग है और समानांतर रूप से Hadoop में उपलब्ध है! वह जगह है, जहां Hadoop वास्तव में कुशल है।

इसलिए, यदि आप पहनावा के तरीकों के लिए जा रहे हैं, जो कि गहन हैं और धीमे हैं, तो आप एचडीएफएस सिस्टम पर कोशिश करना चाहेंगे, जो काफी बेहतर प्रदर्शन देता है।


1
+1 मौजूदा उत्तर पर सुधार करने के लिए समय निकालने के लिए धन्यवाद, और मेरी राय में आपका उत्तर अब बेहतर उत्तर है, मैंने आपके उत्तर को उत्तर के रूप में चुना है। चीयर्स!
ब्लंडर

जवाब देने के लिए खुशी है!
बिंगा

8

आर सभी संगणना-इन-मेमोरी का प्रदर्शन करता है ताकि आप एक डेटासेट पर ऑपरेशन नहीं कर सकें जो उपलब्ध रैम राशि से बड़ा है। हालाँकि कुछ पुस्तकालय ऐसे हैं जो R का उपयोग करके बिगडाटा प्रसंस्करण की अनुमति देते हैं और Hadoop जैसे बिगडाटा प्रसंस्करण के लिए लोकप्रिय पुस्तकालयों में से एक है।


3

यह समालोचना अब उचित नहीं है:

हालांकि यह सच है कि अधिकांश मानक और सबसे सम्मानित आर लाइब्रेरीज़ इन-मेमोरी गणनाओं तक सीमित थे, डेटा से निपटने के लिए विशिष्ट पुस्तकालयों की संख्या बढ़ रही है जो मेमोरी में फिट नहीं होते हैं।
उदाहरण के लिए, बड़े डेटासेट पर यादृच्छिक जंगलों के लिए, आपके पास पुस्तकालय है bigrf। अधिक जानकारी यहाँ: http://cran.r-project.org/web/packages/bigrf/

विकास का एक अन्य क्षेत्र है हडूप जैसे बड़े डेटा वातावरणों के लिए आर की कनेक्टिविटी, जो संभावनाओं की एक और दुनिया खोलती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.