आर - ट्यूटोरियल, सर्वोत्तम प्रथाओं, आदि में बड़े डेटा सेट को संभालना


11

मैं एक आर नॉब हूं, जो आर। में बड़े डेटा सेट पर विभिन्न प्रकार के विश्लेषण करने के लिए आवश्यक है। इसलिए इस साइट और अन्य जगहों पर घूमते समय, यह मुझे दिखाई दिया कि यहां बहुत सारे गूढ़ और कम प्रसिद्ध मुद्दे हैं - जैसे कौन सा पैकेज कब, क्या परिवर्तन करना है (नहीं) डेटा आदि पर लागू होता है।

मैं बस सोच रहा हूं कि क्या कोई पुस्तक / ट्यूटोरियल / मार्गदर्शिका है जो इस सब को ध्वस्त करती है और सूचना को व्यवस्थित तरीके से प्रस्तुत करती है? मैं चारों ओर देखने के बजाय ऐसा करना पसंद करता हूं, और ऑनलाइन विभिन्न स्रोतों से जानकारी एकत्र करना चाहता हूं।

अग्रिम में धन्यवाद।


2
यह एक शुरुआत हो सकती है: cran.r-project.org/web/views/HighPerformanceComputing.html
रोमन Luštrik

1
यह कुछ उदाहरणों को साझा करने में मदद कर सकता है कि आप किस तरह का विश्लेषण करना चाहते हैं और आपका डेटा कैसा दिखता है। सरल आँकड़े जैसे साधन या जटिल प्रतिगमन? 200 चर एक हजार पंक्तियों, या 4 चर और 20 लाख पंक्तियों के पार?
पौलहुर्लुक

1
यदि आपके पास वास्तव में "बड़े" डेटासेट हैं, तो आपको संभवतः रिलेशनल डेटाबेस पर एक नज़र डालनी चाहिए। इसके लिए एक प्रारंभिक बिंदु "आर डेटा आयात / निर्यात" मैनुअल हो सकता है कि आरएनबी के साथ जहाज आर वेबसाइट के "मैनुअल" अनुभाग के माध्यम से भी उपलब्ध है।

1
पहला, महत्वपूर्ण सवाल: बड़े से आपका क्या मतलब है, और आप क्या करना चाहते हैं?
Fomite

जवाबों:


3

यहाँ बड़े डेटा सेट के इस विषय पर मैंने R के साथ कुछ ब्लॉग पोस्ट किए हैं। ff और bigmemory जैसे कुछ पैकेज हैं जो फ़ाइल स्वैपिंग और मेमोरी आवंटन का उपयोग करते हैं। अन्य पैकेजों के एक जोड़े को sqldf, RMySQL और RSQLite जैसे डेटाबेस से कनेक्टिविटी का उपयोग करते हैं।

बिग डेटा को संभालने के लिए संदर्भ

ODBC के साथ R में बिग डेटा लॉजिस्टिक रिग्रेशन

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.