सांख्यिकी और डेटा खनन सॉफ्टवेयर उपकरण बड़े डेटासेट से निपटने के लिए


27

वर्तमान में मुझे लगभग 20M रिकॉर्ड का विश्लेषण करना है और भविष्यवाणी मॉडल का निर्माण करना है। अब तक मैंने स्टैटिस्टिका, एसपीएसएस, रैपिडमाइनर और आर। की कोशिश की है। इनमें से स्टेटिस्टिका डेटा माइनिंग से निपटने के लिए सबसे उपयुक्त प्रतीत होती है और रैपिडमाइनर यूजर इंटरफेस भी बहुत काम आता है, लेकिन ऐसा लगता है कि स्टैटिस्टिका, रैपिडमाइनर और एसपीएसएस केवल छोटे डेटासेट के लिए उपयुक्त हैं। ।

क्या कोई बड़े डेटासेट के लिए एक अच्छा उपकरण सुझा सकता है?

धन्यवाद!


6
क्या आप pls कुछ अधिक विशिष्ट हो सकते हैं? आप वास्तव में मेरा डेटा क्या चाहते हैं और आप इसे कैसे करना चाहते हैं? मैंने आपके समान आकार के रिकॉर्ड का विश्लेषण करने के लिए R का उपयोग किया है, और यह बिल्कुल भी बुरा अनुभव नहीं था।
सनकूलू

यह प्रश्न जल्दी से दिनांकित होने जा रहा है। ऐसे उपकरणों में नवीनतम के लिए अर्ध-वार्षिक राउंडअप (विकी) होना अच्छा होगा।
आइटर

जवाबों:


19

मैं दूसरा @ suncoolsu टिप्पणी करूंगा: आपके डेटा सेट की आयामीता एकमात्र मानदंड नहीं है जो आपको किसी विशिष्ट सॉफ़्टवेयर की ओर उन्मुख करना चाहिए। उदाहरण के लिए, यदि आप सिर्फ अव्यवस्थित क्लस्टरिंग करने या पीसीए का उपयोग करने की योजना बना रहे हैं, तो कई समर्पित उपकरण हैं जो बड़े डेटा सेट के साथ सामना करते हैं, जैसा कि आमतौर पर जीनोमिक अध्ययनों में पाया जाता है।

अब, R (64 बिट्स) बड़े डेटा को बहुत अच्छी तरह से हैंडल करता है, और आपके पास अभी भी रैम एक्सेस के बजाय डिस्क स्टोरेज का उपयोग करने का विकल्प है, लेकिन R के साथ CRAN टास्क व्यू हाई-परफॉर्मेंस और पैरेलल कंप्यूटिंग देखें । मानक GLM आसानी से 20,000 अवलोकन को समायोजित करेगा। (लेकिन यह भी गति-गति देखें ) उचित समय के भीतर, जैसा कि नीचे दिखाया गया है:

> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
   user  system  elapsed
  0.361   0.018    0.379

अधिक ठोस चित्रण देने के लिए, मैंने बड़े आनुवंशिक डेटा (800 व्यक्ति x 800k एसएनपी) को संसाधित करने और उनका विश्लेषण करने के लिए आर का उपयोग किया , जहां मुख्य सांख्यिकीय मॉडल कई covariates (2 मिनट) के साथ स्तरीकृत जीएलएम था, जिसे कुशल आर और संभव के लिए धन्यवाद दिया गया था। स्नेपमेट्रिक्स पैकेज में सी कोड उपलब्ध हैं (तुलना में, एक ही तरह के मॉडल ने समर्पित सी ++ सॉफ्टवेयर ( पलक ) का उपयोग करते हुए लगभग 8 मिनट लिया । मैंने एक नैदानिक ​​अध्ययन (12k रोगियों x 50 चर के ब्याज) पर काम किया और आर आपकी आवश्यकताओं के अनुरूप है। भी। अंत में, जहां तक ​​मुझे पता है, lme4 पैकेज एकमात्र सॉफ्टवेयर है जो मिश्रित-प्रभाव मॉडल को असंतुलित और बड़े डेटा सेट के साथ फिट करने की अनुमति देता है (जैसा कि बड़े पैमाने पर शैक्षिक मूल्यांकन में मामला है)।

Stata / SE एक अन्य सॉफ्टवेयर है जो बड़े डेटा सेट को संभाल सकता है । एसएएस और एसपीएसएस फ़ाइल आधारित सॉफ्टवेयर हैं, इसलिए वे बड़ी मात्रा में डेटा को संभालेंगे। डेटामाइनिंग के लिए सॉफ्टवेयर की तुलनात्मक समीक्षा डेटा माइनिंग टूल्स में उपलब्ध है : सीआरएम के लिए कौन सा सबसे अच्छा है । विज़ुअलाइज़ेशन के लिए, वहाँ भी बहुत सारे विकल्प हैं; शायद एक अच्छी शुरुआत बड़े डेटासेट के ग्राफिक्स है: एक मिलियन ( पी मुर्रे द्वारा जेएसएस में समीक्षा की गई), और इस साइट पर सभी संबंधित थ्रेड्स की कल्पना


@chl: क्या आपने अभी तक 64-बिट आर के लिए एक प्रभावी समानांतर कंप्यूटिंग समाधान पाया है? जब मैं पिछले देखा (देर से इस गर्मी में) केवल गैर वाणिज्यिक लोगों केवल 32-बिट आर में काम करने के लिए दिखाई दिया
whuber

1
@ शुभंकर नहीं। मुझे बड़े आनुवांशिक डेटा सेटों को प्रबंधित करने के लिए पिछले साल 64 बिट्स पर स्विच करना पड़ा था, लेकिन हमने जिन सांख्यिकीय मॉडल का इस्तेमाल किया, वे समानांतरीकरण के लिए नहीं कहते हैं (जहाँ तक मुझे पता है)। मुझे लगा कि R के लिए एक OpenMP बाइंडिंग है, लेकिन आगे इसकी जांच नहीं की। मुझे पता है कि क्रांति विश्लेषिकी ने इस अर्थ में प्रयास किया है ( j.mp/d7dFb5 ), लेकिन अभी भी 32 बिट्स में (यह संभवत: जिसे आपने संदर्भित किया है)। मैंने इस बीच R / समानांतर ( rparallel.org ) पाया , लेकिन मुझे नहीं पता कि यह कितना विश्वसनीय / परिपक्व है।
16:14

@chl मैंने उन सभी की कोशिश की, लेकिन उनमें से कोई भी काम नहीं कर सका।
whuber

@Whuber: आप खिड़कियों या एक निक्स बॉक्स (मैक, लिनक्स, ...) पर हैं
user603

2
मैं आपको ubuntu (google 'डाउनलोड ubuntu') इंस्टॉल करने और वर्चुअल-बॉक्स ( youtube.com/watch?v=KXgKnd-u2R4 ) के माध्यम से ubuntu के भीतर से अपनी विंडोज़-केवल ऐप चलाने के लिए सलाह दूंगा । R और लेटेक्स संपादक एक आकर्षण की तरह ubuntu पर चलते हैं।
user603

8

अपाचे महाउट पैमाने पर अधिकांश एल्गोरिदम 20M रिकॉर्ड से परे हैं, यहां तक ​​कि उच्च-आयामी डेटा के साथ भी। यदि आपको केवल एक भविष्यवाणी मॉडल बनाने की आवश्यकता है, तो Vowpal Wabbit (http://hunch.net/~vw/) जैसे विशिष्ट उपकरण हैं जो आसानी से एक मशीन पर अरबों रिकॉर्ड बना सकते हैं।


महान ... मैं उस के बारे में पता नहीं था!
chl

7

नहीं है RHIPE पैकेज (आर Hadoop एकीकरण)। आर में बड़ी मात्रा में डेटा का विश्लेषण करने के लिए इसे (अपवादों के साथ) बहुत आसान बना सकते हैं।


क्या आपको इसमें सफलता मिली है? यदि हाँ, तो किस प्रकार के आवेदन के लिए?
chl

हाँ, RHIPE महान है। मेरे कुछ दोस्त इंटरनेट ट्रैफ़िक डेटा का विश्लेषण करने के लिए इसका उपयोग करते हैं। उनका एक उद्देश्य ब्रेक-इन प्रयासों को मॉडल करना है। ऐसे मामलों में डेटा बहुत बड़ा है, पेटाबाइट्स आम है!
sunooloolsu

4

आपके मन में किस तरह के मॉडल हैं, यह जाने बिना एक अच्छा जवाब देना मुश्किल है।

रेखीय प्रतिगमन के लिए, मैंने आर में बिगलैम पैकेज का सफलतापूर्वक उपयोग किया है।


4

जब से आप बड़े डेटासेट से अनुमानित मॉडल बना रहे हैं, तो आपको Google के BigQuery (Dremel के साथ बड़े डेटासेट विश्लेषण पर Google के शोध पत्र से प्रौद्योगिकी का एक होस्ट किया गया संस्करण) से लाभ हो सकता है । आप उदाहरण के लिए, एक भविष्य कहनेवाला वर्ग में घूस के लिए CSV के रूप में क्वेरी परिणाम निर्यात कर सकते हैं।

BigQuery में एक WebUI है जो आपको प्रश्न और निर्यात परिणाम चलाने की अनुमति देता है। BigQuery के बीटा (v1) संस्करण में एक आर क्लाइंट दिखाया गया है, और उत्पादन संस्करण (v2) में अंततः एक आर क्लाइंट भी होगा।


3

हमने 32 जीबी रैम और 4 कोर के साथ ईसी 2 उदाहरण में 64-बिट आर का उपयोग करके 3.5 एम टिप्पणियों और 44 विशेषताओं का प्रशिक्षण दिया। हमने यादृच्छिक जंगलों का उपयोग किया और यह अच्छी तरह से काम किया। ध्यान दें कि हमें प्रशिक्षण से पहले डेटा को प्रीप्रोसेस / हेरफेर करना था।


3

एसएएस एंटरप्राइज माइनर संस्करण 6.2 में 20 मिलियन टिप्पणियों को संभालने में कोई समस्या नहीं होगी, और विभिन्न प्रकार के मॉडल जो आपकी स्थिति के अनुकूल हो सकते हैं। एसएएस के साथ मुद्दा आमतौर पर हालांकि लागत है। एसएएस ईएम क्या कर सकता है इसका सारांश यहां दिया गया है: एसएएस ईएम 6.2: नया क्या है


0

क्या आप ScaVis ( http://jwork.org/scavis ) को देख सकते हैं ? मैंने 20M नहीं देखा, लेकिन आप इसे जांचने का प्रयास कर सकते हैं।


0

RHIPE एक महान समाधान है, और मैं शायद इस एक को चुनूंगा , अगर यह समस्या है! लेकिन क्या आपने NCSS पर विचार किया है? जहाँ तक मुझे पता है, नवीनतम संस्करण 10 इन मॉडलों का निर्माण कर सकता है। पूर्ण क्रिया। बहुत महंगा है, लेकिन कई दूरस्थ डेस्कटॉप सेवाओं पर आप केवल एक छोटे से शुल्क के लिए ऐप चला सकते हैं, लेकिन मुझे पता नहीं है .. बल्कि इसे देखें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.