मैं दूसरा @ suncoolsu टिप्पणी करूंगा: आपके डेटा सेट की आयामीता एकमात्र मानदंड नहीं है जो आपको किसी विशिष्ट सॉफ़्टवेयर की ओर उन्मुख करना चाहिए। उदाहरण के लिए, यदि आप सिर्फ अव्यवस्थित क्लस्टरिंग करने या पीसीए का उपयोग करने की योजना बना रहे हैं, तो कई समर्पित उपकरण हैं जो बड़े डेटा सेट के साथ सामना करते हैं, जैसा कि आमतौर पर जीनोमिक अध्ययनों में पाया जाता है।
अब, R (64 बिट्स) बड़े डेटा को बहुत अच्छी तरह से हैंडल करता है, और आपके पास अभी भी रैम एक्सेस के बजाय डिस्क स्टोरेज का उपयोग करने का विकल्प है, लेकिन R के साथ CRAN टास्क व्यू हाई-परफॉर्मेंस और पैरेलल कंप्यूटिंग देखें । मानक GLM आसानी से 20,000 अवलोकन को समायोजित करेगा। (लेकिन यह भी गति-गति देखें ) उचित समय के भीतर, जैसा कि नीचे दिखाया गया है:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
अधिक ठोस चित्रण देने के लिए, मैंने बड़े आनुवंशिक डेटा (800 व्यक्ति x 800k एसएनपी) को संसाधित करने और उनका विश्लेषण करने के लिए आर का उपयोग किया , जहां मुख्य सांख्यिकीय मॉडल कई covariates (2 मिनट) के साथ स्तरीकृत जीएलएम था, जिसे कुशल आर और संभव के लिए धन्यवाद दिया गया था। स्नेपमेट्रिक्स पैकेज में सी कोड उपलब्ध हैं (तुलना में, एक ही तरह के मॉडल ने समर्पित सी ++ सॉफ्टवेयर ( पलक ) का उपयोग करते हुए लगभग 8 मिनट लिया । मैंने एक नैदानिक अध्ययन (12k रोगियों x 50 चर के ब्याज) पर काम किया और आर आपकी आवश्यकताओं के अनुरूप है। भी। अंत में, जहां तक मुझे पता है, lme4 पैकेज एकमात्र सॉफ्टवेयर है जो मिश्रित-प्रभाव मॉडल को असंतुलित और बड़े डेटा सेट के साथ फिट करने की अनुमति देता है (जैसा कि बड़े पैमाने पर शैक्षिक मूल्यांकन में मामला है)।
Stata / SE एक अन्य सॉफ्टवेयर है जो बड़े डेटा सेट को संभाल सकता है । एसएएस और एसपीएसएस फ़ाइल आधारित सॉफ्टवेयर हैं, इसलिए वे बड़ी मात्रा में डेटा को संभालेंगे। डेटामाइनिंग के लिए सॉफ्टवेयर की तुलनात्मक समीक्षा डेटा माइनिंग टूल्स में उपलब्ध है : सीआरएम के लिए कौन सा सबसे अच्छा है । विज़ुअलाइज़ेशन के लिए, वहाँ भी बहुत सारे विकल्प हैं; शायद एक अच्छी शुरुआत बड़े डेटासेट के ग्राफिक्स है: एक मिलियन ( पी मुर्रे द्वारा जेएसएस में समीक्षा की गई), और इस साइट पर सभी संबंधित थ्रेड्स की कल्पना ।