कौन सी मशीन लर्निंग एल्गोरिदम को हडूप / मैप-कम का उपयोग करके बढ़ाया जा सकता है


9

स्केलेबल मशीन लर्निंग एल्गोरिदम इन दिनों चर्चा की तरह लग रहे हैं। हर कंपनी बड़े डेटा की कमी नहीं कर रही है । क्या कोई पाठ्यपुस्तक है जो इस बात पर चर्चा करती है कि मैप-रिड्यूस जैसे समानांतर आर्किटेक्चर का उपयोग करके किस मशीन लर्निंग एल्गोरिदम को स्केल किया जा सकता है, और कौन सा एल्गोरिदम नहीं हो सकता है? या कुछ प्रासंगिक कागजात?

जवाबों:



4

Vowpal Wabbit, एक बहुत तेज़ मशीन लर्निंग प्रोग्राम है जो ऑनलाइन ग्रेडिएंट डिसेंट लर्निंग पर केंद्रित है, इसका उपयोग Hadoop के साथ किया जा सकता है: http://arxiv.org/abs/1110.4198 हालांकि, मैंने इसे कभी इस तरह से उपयोग नहीं किया है। अगर मैं इसे सही तरीके से समझता हूं, तो यह वास्तव में विश्वसनीयता के लिए Hadoop का उपयोग करता है और Vowpal Wabbit प्रक्रियाओं को डेटा प्रदान करता है। यह अधिकतर संचार करने के लिए MPI के AllReduce जैसी किसी चीज़ का उपयोग करता है।


4

जैसा कि जिमी लिन और क्रिस डायर मैपराड्यूस के साथ डेटा-इंटेंसिव टेक्स्ट माइनिंग पर अपनी पुस्तक के पहले अध्याय में बताते हैं , बड़े डेटा पैमानों पर, विभिन्न एल्गोरिदम का प्रदर्शन ऐसे परिवर्तित होता है कि प्रदर्शन अंतर लगभग गायब हो जाते हैं। इसका मतलब है कि एक बड़ा पर्याप्त डेटा सेट दिया गया है, जिस एल्गोरिथ्म का आप उपयोग करना चाहते हैं वह वह है जो कम्प्यूटेशनल रूप से कम खर्चीला है। यह केवल छोटे डेटा पैमानों पर है कि एल्गोरिदम के बीच प्रदर्शन के अंतर।

कहा जा रहा है, उनकी पुस्तक (ऊपर लिंक की गई) और आनंद राजारमन, जुएर लेसकॉव, और जेफरी डी। उल्मैन द्वारा बड़े पैमाने पर डेटासेट का खनन , शायद दो किताबें हैं जो आप अच्छी तरह से देखना चाहते हैं, खासकर जब वे सीधे MapReduce से संबंधित हैं डेटा माइनिंग उद्देश्यों के लिए।


1
".. बड़े पैमाने पर, विभिन्न एल्गोरिदम का प्रदर्शन अभिसरण करता है ..." मुझे यह नहीं पता था। इस उपयोगी अंतर्दृष्टि के लिए धन्यवाद। इसके अलावा, मैंने "बड़े पैमाने पर डेटासेट के खनन" पर ठोकर खाई और इसे बहुत उपयोगी पाया। दूसरी किताब पर भी गौर करेंगे।
निक

2

यदि आपके पास एक Hadoop क्लस्टर तक पहुंच है, तो मैं स्पार्क को एक नज़र दूंगा। https://spark.apache.org/


MLlib में स्काला, जावा, पायथन और R में उदाहरणों के साथ स्पार्क के लिए कई वितरित मशीन लर्निंग एल्गोरिदम शामिल हैं: spark.apache.org/docs/latest/ml-guide.html
Vadim Smolyakov

1

किसी ने भी निम्नलिखित कागज का उल्लेख नहीं किया है - http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (एंड्रयू एनजी लेखकों में से एक हैं)

पेपर स्वयं मल्टी-कोर मशीनों के लिए है, लेकिन यह अनिवार्य रूप से मशीन सीखने की समस्याओं को फिर से भरने के बारे में है ताकि वे मानचित्र-कम करने के पैटर्न को फिट कर सकें, और कंप्यूटर के एक क्लस्टर के लिए उपयोग किया जा सके। (यह देखने के लिए कि यह सामान्य रूप से एक अच्छा विचार क्यों नहीं है, आप इस पत्र को पढ़ना चाह सकते हैं - http://arxiv.org/pdf/1006.4990v1.pdf । इसका अच्छा अवलोकन है)।


इसके अलावा, Mahout एंड्रयू एनजी पेपर I को लागू करने का एक प्रयास था।
user48654

0

स्केलिंग अप मशीन लर्निंग : समानांतर और वितरित दृष्टिकोण जॉन लैंगफोर्ड एट द्वारा एक महान पुस्तक है। अल। जो पर्यवेक्षित और अनुपयोगी एल्गोरिदम के समानांतर कार्यान्वयन पर चर्चा करता है। यह MapReduce, डिसीजन ट्री एनसेंबल, समानांतर K- साधन, समानांतर SVM, विश्वास प्रचार और AD-LDA के बारे में बात करता है।

https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.