क्या मुझे डेटा साइंटिस्ट बनने के लिए Hadoop सीखना आवश्यक है?


38

एक आकांक्षी डेटा वैज्ञानिक यहाँ। मुझे Hadoop के बारे में कुछ भी पता नहीं है, लेकिन जैसा कि मैंने डाटा साइंस और बिग डेटा के बारे में पढ़ा है, मैं Hadoop के बारे में बहुत सारी बातें देखता हूं। क्या Hadoop को Data Scientist के लिए सीखना बिल्कुल आवश्यक है?


1
मेटा पर सवालों के इस वर्ग पर चर्चा की जा रही है। आप इस मेटा पोस्ट
आशीष्र

यह बिल्कुल आवश्यक नहीं है। यह सिर्फ एक टूल है। क्या आवश्यक है आंकड़ों और रैखिक बीजगणित की समझ। उपकरण का विकल्प माध्यमिक है।
विक्टर

इस मुफ्त ई-बुक को देखें और यह आपके प्रश्न का उत्तर देने की कोशिश करता है। अजवायन.com
data/

आईबीएम वॉटसन एनालिटिक्स, Google की बिगक्वारी और अन्य क्लाउड आधारित एनालिटिक्स पर मेरा एक समान प्रश्न है, क्या यह तकनीकें बेहतर हैं तो Hadoop और स्पार्क ..... मैं अभी Hadoop और स्पार्क सीखना शुरू कर रहा हूं और क्या मुझे वास्तव में Hadoop और स्पार्क सीखने की आवश्यकता है बड़ा डेटा एनालिटिक्स करें

जवाबों:


47

अलग-अलग लोग अलग-अलग चीजों के लिए अलग-अलग टूल का इस्तेमाल करते हैं। डेटा साइंस जैसे शब्द एक कारण से सामान्य हैं। एक डेटा वैज्ञानिक हडूप जैसे किसी विशेष उपकरण को सीखने के बिना एक संपूर्ण कैरियर खर्च कर सकता था। Hadoop का व्यापक रूप से उपयोग किया जाता है, लेकिन यह एकमात्र ऐसा प्लेटफ़ॉर्म नहीं है जो डेटा का प्रबंधन और हेरफेर करने में सक्षम है, यहां तक ​​कि बड़े पैमाने पर डेटा भी।

मैं कहूंगा कि एक डेटा वैज्ञानिक को MapReduce, वितरित सिस्टम, वितरित फ़ाइल सिस्टम और जैसी अवधारणाओं से परिचित होना चाहिए, लेकिन मैं किसी को ऐसी चीजों के बारे में नहीं जानने के लिए न्याय नहीं करूंगा।

यह एक बड़ा क्षेत्र है। ज्ञान का एक समुद्र है और अधिकांश लोग एक ही बूंद में सीखने और विशेषज्ञ होने में सक्षम हैं। एक वैज्ञानिक होने की कुंजी सीखने की इच्छा है और यह जानने की प्रेरणा है कि आप पहले से ही नहीं जानते हैं।

एक उदाहरण के रूप में: मैं एक दशक में एक विशेष वर्ग में कक्षा के प्रदर्शन के बारे में जानकारी रखने वाले सही व्यक्ति को सौ संरचित सीएसवी फाइलें सौंप सकता हूं। एक डेटा साइंटिस्ट कई मशीनों में गणना फैलाने की आवश्यकता के बिना डेटा से एक साल की शानदार अंतर्दृष्टि खर्च करने में सक्षम होगा। आप मशीन लर्निंग एल्गोरिदम लागू कर सकते हैं, इसे विज़ुअलाइज़ेशन का उपयोग करके विश्लेषण कर सकते हैं, इसे बाहरी डेटा के साथ जोड़ सकते हैं क्षेत्र के बारे में, जातीय मेकअप, समय के साथ पर्यावरण में परिवर्तन, राजनीतिक जानकारी, मौसम के पैटर्न, आदि। ये सभी मेरी राय में "डेटा विज्ञान" होंगे। । यह कुछ भी हो सकता है जैसे कि आपने कक्षा के बजाय छात्रों के पूरे देश में डेटा के परीक्षण के लिए कुछ भी सीखा और लागू किया, लेकिन यह अंतिम चरण जरूरी नहीं कि किसी को डेटा वैज्ञानिक बना दे।


10

पूर्व Hadoop इंजीनियर के रूप में, इसकी आवश्यकता नहीं है लेकिन यह मदद करता है। Hadoop सिर्फ एक प्रणाली है - जावा पर आधारित सबसे सामान्य प्रणाली और उत्पादों का एक पारिस्थितिकी तंत्र, जो समय पर ढंग से परिणाम प्राप्त करने के लिए एक विशेष तकनीक "मैप / रिड्यूस" को लागू करता है। Google पर Hadoop का उपयोग नहीं किया जाता है, हालांकि मैं आपको आश्वस्त करता हूं कि वे बड़े डेटा एनालिटिक्स का उपयोग करते हैं। C ++ में विकसित, Google अपने स्वयं के सिस्टम का उपयोग करता है। वास्तव में, Hadoop को उनके मानचित्र / Reduce और BigTable (HBase) Hadoop में श्वेत पत्र प्रकाशित करने के परिणामस्वरूप Google बनाया गया था।

डेटा वैज्ञानिक हडूप इंजीनियरों के साथ इंटरफेस करेंगे, हालांकि छोटे स्थानों पर आपको दोनों टोपी पहनने की आवश्यकता हो सकती है। यदि आप कड़ाई से डेटा वैज्ञानिक हैं, तो आप अपने विश्लेषिकी, आर, एक्सेल, झांकी, आदि के लिए जो कुछ भी उपयोग करते हैं, वह केवल एक छोटे से उपसमुच्चय पर काम करेगा, फिर हडूप से जुड़े पूर्ण डेटा सेट के खिलाफ चलाने के लिए परिवर्तित करना होगा।


8

आपको पहले यह स्पष्ट करना होगा कि "हाडोप सीखें" से आपका क्या मतलब है। यदि आप Hadoop का उपयोग करने का मतलब है, जैसे कि MapReduce में प्रोग्राम करना सीख रहे हैं, तो संभवतः यह एक अच्छा विचार है। लेकिन मूलभूत ज्ञान (डेटाबेस, मशीन लर्निंग, सांख्यिकी) समय बीतने के साथ बड़ी भूमिका निभा सकता है।


जाहिर तौर पर ज्यादातर लोग Hadoop का इस्तेमाल एनालिटिक्स के लिए कर रहे हैं। मैं जो सोच रहा हूं क्या मुझे ऐसा कुछ चाहिए या डेटाबेस, एमएल, सांख्यिकी के बारे में ज्ञान पर्याप्त है?
१२:२६ बजे १२:२४ पर पान्सु

5

हां, आपको एक ऐसा मंच सीखना चाहिए जो आपकी समस्या को डेटा समांतर समस्या के रूप में समझने में सक्षम हो। Hadoop एक है। अपनी साधारण आवश्यकताओं (गिनती, एकत्रीकरण, फ़िल्टरिंग आदि जैसे डिज़ाइन पैटर्न) के लिए आपको Hadoop की आवश्यकता होती है और अधिक जटिल मशीन लर्निंग सामान के लिए कुछ बायेसियन, SVM करने की आवश्यकता होती है, जिसके लिए आपको अपनी समस्या को हल करने के लिए Hadoop (अब Apache Spark) की आवश्यकता होती है। एक डेटा-समानांतर दृष्टिकोण।

तो Hadoop सीखने के लिए एक अच्छा प्लेटफ़ॉर्म है और आपके बैच प्रोसेसिंग जरूरतों के लिए वास्तव में महत्वपूर्ण है। न केवल हडॉप बल्कि आपको स्पार्क को भी जानना होगा (Mahout it is एल्गोरिदम का उपयोग स्पार्क) और ट्विटर स्टॉर्म (आपके वास्तविक समय की एनालिटिक्स जरूरतों के लिए)। यह सूची जारी रहेगी और विकसित होगी, यदि आप बिल्डिंग ब्लॉक्स (डिस्ट्रीब्यूटेड कम्प्यूटिंग, डेटा-पैरेलल प्रॉब्लम्स और इतने पर) के साथ अच्छे हैं और जानते हैं कि इस तरह का एक प्लेटफॉर्म (कहते हैं हडॉप) आपको दूसरों को गति देने के लिए काफी जल्दी होगा।


4

यह उस पर्यावरण / कंपनी पर दृढ़ता से निर्भर करता है जिसके साथ आप काम कर रहे हैं। मेरी नज़र में इस समय एक "बड़ा डेटा" प्रचार है और बहुत सारी कंपनियां हडूप आधारित समाधानों के साथ क्षेत्र में प्रवेश करने की कोशिश करती हैं - क्या हडूप भी एक चर्चा बनाता है लेकिन इसका हमेशा सबसे अच्छा समाधान नहीं है।

मेरे दिमाग में, एक अच्छा डेटा साइंटिस्ट सही सवाल पूछने में सक्षम होना चाहिए और तब तक पूछते रहना चाहिए जब तक कि उसके स्पष्ट व्हाट्सएप की वास्तव में जरूरत न हो। निश्चित रूप से एक अच्छे डेटासिस्टिस्ट की तुलना में - यह जानने की जरूरत है कि समस्या का समाधान कैसे किया जाए (या कम से कम किसी ऐसे व्यक्ति को जानें जो कर सकता है)। अन्यथा आपके हिस्सेदार निराश हो सकते हैं :-)

इसलिए, मैं यह कहना चाहूंगा कि Hadoop सीखना बिल्कुल आवश्यक नहीं है।


2

अगर आप डेटा साइंटिस्ट के रूप में काम करना चाहते हैं तो आपको Hadoop सीखना चाहिए, लेकिन हो सकता है Hadoop से शुरू करने से पहले आपको ETL या बिग डेटा के बारे में कुछ पढ़ना चाहिए ... यह पुस्तक एक अच्छा शुरुआती बिंदु हो सकती है: http://www.amazon.com / बिग डाटा-सिद्धांतों प्रथाओं-स्केलेबल / डी पी / 1617290343

आशा है कि यह मदद करता है और शुभकामनाएँ!


2

आप एक मशीन पर डेटा के लिए डेटा विज्ञान तकनीकों को लागू कर सकते हैं ताकि प्रश्न का उत्तर ओपी के रूप में हो, यह नहीं है।


1

डेटा साइंस एक ऐसा क्षेत्र है जो विभिन्न प्रकार के कौशल की मांग करता है। Hadoop का ज्ञान होना उनमें से एक है। डेटा साइंटिस्ट के मुख्य कार्यों में शामिल हैं:

  1. विभिन्न संसाधनों से डेटा इकट्ठा करना।
  2. डेटा की सफाई और पूर्व प्रसंस्करण।
  3. डेटा के सांख्यिकीय गुणों का अध्ययन।
  4. पूर्वानुमान और डेटा से अंतर्दृष्टि प्राप्त करने के लिए मशीन लर्निंग तकनीकों का उपयोग करना।
  5. आसान तरीके से निर्णय लेने वालों के लिए परिणामों का संचार करना।

उपरोक्त बिंदुओं में से Hadoop का ज्ञान अंक 1,2 और 3 के लिए उपयोगी है, लेकिन आपको डेटा विज्ञान के क्षेत्र में काम करने के लिए मजबूत गणितीय / सांख्यिकीय पृष्ठभूमि और कम्प्यूटेशनल तकनीकों का मजबूत ज्ञान भी होना चाहिए। इसके अलावा Hadoop एकमात्र ढांचा नहीं है जिसका उपयोग Data Science में किया जा रहा है। बिग डेटा इकोसिस्टम में चौखटे की एक सीमा होती है, जो किसी विशेष उपयोग के मामले के लिए विशिष्ट होती है। यह लेख प्रमुख बिग डेटा फ्रेमवर्क के बारे में परिचयात्मक सामग्री देता है जिसका उपयोग डेटा साइंस में किया जा सकता है:

http://www.codophile.com/big-data-frameworks-every-programmer-should-know/


1

मुझे लगता है कि लीनिंग हडोप फ्रेमवर्क (कठिन तरीका) डेटा साइंटिस्ट होने की आवश्यकता नहीं है। सभी बड़े डेटा प्लेटफार्मों पर सामान्य ज्ञान आवश्यक है। मैं इस पर अवधारणा जानने का सुझाव दूंगा और Hadoop से केवल एक भाग की जरूरत है MapReduce http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core-MapReduceTutorial.html

एक डेटा साइंटिस्ट क्लस्टर का निर्माण नहीं करता है, प्रशासन ... डेटा के साथ सिर्फ "जादू" करता है और परवाह नहीं करता है कि कहां से आ रहा है। "Hadoop" शब्द न केवल ऊपर के बेस मॉड्यूल को संदर्भित करता है, बल्कि "पारिस्थितिकी तंत्र", या अतिरिक्त सॉफ़्टवेयर पैकेजों का संग्रह भी है जो Hadoop के शीर्ष पर स्थापित किया जा सकता है, जैसे Apache Pig, Apache Hive, अपाचे HBase, अपाचे स्पार्क, और अन्य।

डेटा के साथ काम करने के लिए सबसे महत्वपूर्ण है प्रोग्रामिंग भाषा, गणित और आंकड़े (आपको डेटा से जुड़ने और आगे बढ़ने का एक तरीका खोजने की आवश्यकता होगी)। काश, मेरे पास कोई होता जो मुझे इस अवधारणा की ओर इशारा करता और लर्निंग फ्रेमवर्क पर हफ़्ते नहीं बिताता और स्क्रैच नोड्स और क्लस्टर्स से निर्माण करता, क्योंकि वह हिस्सा प्रशासक की भूमिका का है न कि डाटा इंजीनियर या डेटा साइंटिस्ट का। इसके अलावा एक बात: सभी बदल रहे हैं और विकसित हो रहे हैं लेकिन गणित, प्रोग्रामिंग, सांख्यिकी अभी भी आवश्यकताएं हैं।

एचडीएफ से डेटा तक पहुंच आवश्यक है, उदाहरण के लिए, PROC Hadoop, Hive, SparkContext या कोई अन्य ड्राइवर या पाइप (डेटा या संग्रहण के बिंदु के रूप में हडूप का इलाज करें :)

पहले से ही ऐसे उपकरण या ढांचे हैं जो संसाधन आवंटन और प्रबंधन, प्रदर्शन का ध्यान रखते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.