क्या अपाचे स्पार्क हडूप के बिना चल सकता है?


91

क्या स्पार्क और हडोप के बीच कोई निर्भरता है ?

यदि नहीं, तो क्या कोई विशेषता है जब मैं हडोप के बिना स्पार्क चलाऊंगा ?

जवाबों:


53

स्पार्क हडोप के बिना चल सकता है लेकिन इसकी कुछ कार्यक्षमता हडोप के कोड (जैसे कि लकड़ी की छत फ़ाइलों को संभालने) पर निर्भर करती है। हम मेसक और एस 3 पर स्पार्क चला रहे हैं जो स्थापित करने के लिए थोड़ा मुश्किल था, लेकिन एक बार किए गए वास्तव में अच्छी तरह से काम करता है (आप इसे यहां ठीक से सेट करने के लिए जो आवश्यक है उसका सारांश पढ़ सकते हैं )।

(संपादित करें) नोट: संस्करण 2.3.0 के बाद से स्पार्क ने कुबेरनेट्स के लिए मूल समर्थन भी जोड़ा


94

स्पार्क एक इन-मेमोरी वितरित कंप्यूटिंग इंजन है।

Hadoop वितरित भंडारण (के लिए एक रूपरेखा है HDFS ) और वितरित प्रसंस्करण ( यार्न )।

स्पार्क Hadoop घटकों के साथ या बिना चला सकते हैं (HDFS / YARN)


वितरित संग्रहण:

चूंकि स्पार्क की अपनी वितरित भंडारण प्रणाली नहीं है, इसलिए उसे वितरित कंप्यूटिंग के लिए इनमें से एक भंडारण प्रणाली पर निर्भर रहना पड़ता है।

S3 - गैर-जरूरी बैच की नौकरियां। S3 बहुत विशिष्ट उपयोग के मामलों में फिट बैठता है जब डेटा स्थानीयता महत्वपूर्ण नहीं है।

कैसेंड्रा - स्ट्रीमिंग डेटा विश्लेषण और बैच नौकरियों के लिए एक ओवरकिल के लिए बिल्कुल सही।

एचडीएफएस - डेटा इलाके पर समझौता किए बिना बैच की नौकरियों के लिए महान फिट।


वितरित प्रसंस्करण:

आप स्पार्क को तीन अलग-अलग मोडों में चला सकते हैं: स्टैंडअलोन, यार्न और मेसोस

वितरित भंडारण और वितरित प्रसंस्करण दोनों के बारे में विस्तृत विवरण के लिए एसई प्रश्न पर एक नजर डालें।

स्पार्क के लिए मुझे किस क्लस्टर प्रकार का चयन करना चाहिए?


23

डिफ़ॉल्ट रूप से, स्पार्क में भंडारण तंत्र नहीं है।

डेटा स्टोर करने के लिए, इसे तेज और स्केलेबल फ़ाइल सिस्टम की आवश्यकता है। आप S3 या HDFS या किसी अन्य फाइल सिस्टम का उपयोग कर सकते हैं। कम लागत के कारण Hadoop किफायती विकल्प है।

इसके अतिरिक्त यदि आप टैचियन का उपयोग करते हैं, तो यह Hadoop के साथ प्रदर्शन को बढ़ावा देगा। यह अपाचे स्पार्क प्रसंस्करण के लिए अत्यधिक अनुशंसित हैडोप है । यहाँ छवि विवरण दर्ज करें


6

हां, स्पार्क बिना हूप के चल सकता है। सभी कोर स्पार्क विशेषताएं काम करना जारी रखेंगी, लेकिन आप आसानी से एचडीएफएस आदि के माध्यम से क्लस्टर में सभी नोड्स के लिए अपनी सभी फाइलें (कोड और साथ ही डेटा) वितरित करने जैसी चीजों को याद करेंगे।


6

स्पार्क प्रलेखन के अनुसार, स्पार्क हडोप के बिना चल सकता है।

आप इसे बिना किसी संसाधन प्रबंधक के स्टैंडअलोन मोड के रूप में चला सकते हैं।

लेकिन अगर आप मल्टी-नोड सेटअप में चलना चाहते हैं , तो आपको एक संसाधन प्रबंधक जैसे YARN या मेसोस और एक वितरित फ़ाइल सिस्टम जैसे HDFS, S3 आदि की आवश्यकता होती है।


3

हां, आप हडोप के बिना स्पार्क स्थापित कर सकते हैं। यह थोड़ा मुश्किल होगा आप डेटा संग्रहण के रूप में S3 पर कॉन्फ़िगर करने के लिए लकड़ी की छत का उपयोग करने के लिए अर्नोन लिंक को संदर्भित कर सकते हैं। http://arnon.me/2015/08/spark-parquet-s3/

स्पार्क केवल प्रोसेसिंग करता है और यह कार्य करने के लिए डायनेमिक मेमोरी का उपयोग करता है, लेकिन डेटा को स्टोर करने के लिए आपको कुछ डेटा स्टोरेज सिस्टम की आवश्यकता होती है। यहाँ हडॉक स्पार्क के साथ भूमिका में आता है, यह स्पार्क के लिए भंडारण प्रदान करता है। स्पार्क के साथ Hadoop का उपयोग करने का एक और कारण वे खुले स्रोत हैं और दोनों अन्य डेटा संग्रहण प्रणाली की तुलना में आसानी से एक दूसरे के साथ एकीकृत कर सकते हैं। S3 जैसे अन्य संग्रहण के लिए, आपको इसे ऊपर दिए गए लिंक में उल्लिखित की तरह कॉन्फ़िगर करने के लिए मुश्किल होना चाहिए।

लेकिन Hadoop की अपनी प्रसंस्करण इकाई भी है जिसे Mapreduce कहा जाता है।

दोनों में अंतर जानना चाहते हैं?

इस लेख की जाँच करें: https://www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-who-wins-the-battle/83

मुझे लगता है कि यह लेख आपको समझने में मदद करेगा

  • क्या उपयोग करें,

  • कब उपयोग करें और

  • कैसे इस्तेमाल करे !!!


1

हां बिल्कुल। स्पार्क एक स्वतंत्र संगणना ढांचा है। Hadoop MapReduce कम्प्यूटेशन फ्रेमवर्क के साथ एक वितरण भंडारण प्रणाली (HDFS) है। स्पार्क एचडीएफएस, साथ ही किसी अन्य डेटा स्रोत जैसे कि पारंपरिक डेटाबेस (जेडीबीसी), काफ्का या स्थानीय डिस्क से डेटा प्राप्त कर सकता है।


1

हां, स्पार्क आपके द्वारा देखी जा सकने वाली अधिक जानकारी के लिए Hadoop इंस्टॉलेशन के साथ या उसके बिना भी चल सकता है - https://spark.apache.org/docs/latest/


0

हाँ चिंगारी Hadoop के बिना चल सकती है। आप Hadoop के साथ अपने स्थानीय मशीन में स्पार्क स्थापित कर सकते हैं। लेकिन स्पार्क लिबर प्री हैडॉप लाइब्रेरी के साथ आता है, जिसका उपयोग आपके स्थानीय मशीन पर इंस्टॉल करते समय किया जाता है।


-4

नहीं, काम शुरू करने के लिए पूर्ण विकसित Hadoop इंस्टॉलेशन की आवश्यकता है - https://issues.apache.org/jira/browse/SPARK-10944


1
यह गलत है, यह Hadoop के बिना वर्तमान संस्करणों में ठीक काम करता है।
क्रिस चैंबर्स

1
@ChrisChambers आप विस्तृत करना चाहते हैं? उस मुद्दे पर टिप्पणी कहती है "वास्तव में, स्पार्क को Hadoop कक्षाओं की आवश्यकता होती है, चाहे कोई भी बात हो", और डाउनलोड पृष्ठ पर या तो विशिष्ट Hadoop संस्करण के लिए पूर्व-निर्मित या उपयोगकर्ता-प्रदान किए गए Hadoop के साथ एक ही विकल्प होता है। और डॉक्स का कहना है कि "स्पार्क एचडीएफएस और यार्न के लिए हडॉप क्लाइंट लाइब्रेरीज़ का उपयोग करता है।" और यह निर्भरता वैकल्पिक नहीं लगती है।
निकोनिराह

1
@NikoNyrh सही। मैंने सिर्फ 'यूजर द्वारा प्रदान की गई हडूप' डाउनलोड कलाकृतियों को निष्पादित करने की कोशिश की और तुरंत स्टैक ट्रेस प्राप्त किया। मैं स्पार्क के क्लासपाथ को कोर हैडोप कक्षाओं से हटाने की भी इच्छा रखता हूं। लेकिन प्रोटोटाइप और परीक्षण उद्देश्यों के लिए, मैं सभी के डाउनलोड (120 कुछ एमबी) के आकार के अलावा कोई मुद्दा नहीं लेता हूं। ओह अच्छा। चीयर्स!
जेसुज़ ज़ाजुता

प्रश्न में स्टैक ट्रेस:$ ./spark-shell Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream at org.apache.spark.deploy.SparkSubmitArguments$$anonfun$mergeDefaultSparkProperties$1.apply(SparkSubmitArguments.scala:118) at org.apache.spark.deploy.SparkSubmitArguments$$anonfun$mergeDefault at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) ... 7 more
जेसुज़ ज़ाजुता
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.