प्रोग्रामिंग apache-spark

15

स्पार्क में डेटाफ्रेम, डेटासेट और आरडीडी के बीच अंतर

मैं बस सोच रहा हूँ एक के बीच अंतर क्या है RDDऔर DataFrame (स्पार्क 2.0.0 DataFrame के लिए एक मात्र प्रकार अन्य नाम है Dataset[Row]) अपाचे स्पार्क में? क्या आप एक को दूसरे में बदल सकते हैं?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

13

स्पार्क - रिपर्टिशन () बनाम कॉलेसस ()

लर्निंग स्पार्क के अनुसार ध्यान रखें कि आपके डेटा को पुन: प्रस्तुत करना एक काफी महंगा ऑपरेशन है। स्पार्क भी की एक अनुकूलित संस्करण है repartition()कहा जाता coalesce()है कि डेटा आंदोलन से बचने की अनुमति देता है, लेकिन केवल तभी जब आप RDD विभाजन की संख्या कम कर रहे हैं। …

254 apache-spark distributed-computing rdd

16

मानचित्र और फ़्लैटमैप के बीच अंतर और प्रत्येक के लिए एक अच्छा उपयोग मामला क्या है?

क्या कोई मुझे मानचित्र और फ़्लैटमैप के बीच का अंतर समझा सकता है और प्रत्येक के लिए एक अच्छा उपयोग मामला क्या है? "परिणाम को समतल करता है" क्या मतलब है? ये किस काम के लिए अच्छा है?

249 apache-spark

12

स्पार्क java.lang.OutOfMemoryError: जावा हीप स्पेस

मेरा क्लस्टर: 1 मास्टर, 11 दास, प्रत्येक नोड में 6 जीबी मेमोरी है। मेरी सेटिंग्स: spark.executor.memory=4g, Dspark.akka.frameSize=512 यहाँ समस्या है: सबसे पहले , मैंने एचडीएफएस से आरडीडी के लिए कुछ डेटा (2.19 जीबी) पढ़ा: val imageBundleRDD = sc.newAPIHadoopFile(...) दूसरा , इस RDD पर कुछ करें: val res = imageBundleRDD.map(data => …

228 out-of-memory apache-spark

7

टास्क सीरीज़ेबल नहीं: java.io.NotSerializableException जब कॉलिंग आउट फ़ंक्शन केवल क्लासेस पर नहीं वस्तुओं पर

किसी कार्य को बंद करने के बाद अजीब व्यवहार करना: जब फ़ंक्शन एक वस्तु में होता है तो सब कुछ काम कर रहा होता है जब समारोह एक कक्षा में हो: कार्य क्रमबद्ध नहीं: java.io.NotSerializableException: परीक्षण समस्या यह है कि मुझे एक कक्षा में अपने कोड की आवश्यकता है न …

224 scala serialization apache-spark typesafe

2

स्पार्क स्टैंडअलोन क्लस्टर में श्रमिक, निष्पादक, कोर क्या हैं?

मैंने क्लस्टर मोड अवलोकन पढ़ा और मैं अभी भी स्पार्क स्टैंडअलोन क्लस्टर और समानांतरवाद में विभिन्न प्रक्रियाओं को नहीं समझ सकता । कार्यकर्ता एक जेवीएम प्रक्रिया है या नहीं? मैंने भाग लिया bin\start-slave.shऔर पाया कि इसने कार्यकर्ता को जन्म दिया, जो वास्तव में एक जेवीएम है। उपरोक्त लिंक के अनुसार, …

219 apache-spark distributed-computing

5

कैश और हठ के बीच अंतर क्या है?

के संदर्भ में RDDदृढ़ता, के बीच मतभेद रहे हैं cache()और persist()चिंगारी में?

202 apache-spark distributed-computing rdd

13

स्पार्क डेटाफ़्रेम में पूर्ण स्तंभ सामग्री कैसे दिखाएं?

मैं DataFrame में डेटा लोड करने के लिए स्पार्क-सीएसवी का उपयोग कर रहा हूं। मैं एक साधारण क्वेरी करना चाहता हूं और सामग्री प्रदर्शित करता हूं: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() कॉल लगता है: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| …

201 apache-spark dataframe spark-csv output-formatting

13

Pyspark में डेटाफ्रेम कॉलम नाम कैसे बदलें?

मैं पांडा बैकग्राउंड से आता हूं और सीएसवी फाइलों के डेटा को डेटाफ्रेम में पढ़ने के लिए इस्तेमाल किया जाता है और फिर कॉलम के नाम को साधारण कमांड का उपयोग करके कुछ उपयोगी में बदल दिया जाता है: df.columns = new_column_name_list हालांकि, वही sqlContext का उपयोग करके बनाए गए …

201 python apache-spark pyspark pyspark-sql

8

अपाचे स्पार्क: कोर की संख्या बनाम निष्पादकों की संख्या

मैं YARN पर स्पार्क की नौकरी चलाते समय कोर की संख्या और निष्पादनकर्ताओं की संख्या के संबंध को समझने की कोशिश कर रहा हूं। परीक्षण वातावरण इस प्रकार है: डेटा नोड्स की संख्या: 3 डेटा नोड मशीन कल्पना: सीपीयू: कोर i7-4790 (कोर का #: 4, # धागे का: 8) RAM: …

194 hadoop apache-spark yarn

20

स्पार्क कंसोल पर प्रदर्शित होने वाले INFO संदेशों को कैसे रोकें?

मैं विभिन्न संदेशों को रोकना चाहूंगा जो स्पार्क शेल पर आ रहे हैं। मैंने log4j.propertiesइन संदेश को रोकने के लिए फ़ाइल को संपादित करने का प्रयास किया । यहाँ की सामग्री हैं log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: …

181 apache-spark log4j spark-submit

10

एक एकल RDD में कई पाठ फ़ाइलों को कैसे पढ़ें?

मैं एक hdfs स्थान से पाठ फ़ाइलों का एक गुच्छा पढ़ना चाहता हूं और चिंगारी का उपयोग करके एक पुनरावृत्ति में उस पर मानचित्रण करना चाहता हूं। JavaRDD<String> records = ctx.textFile(args[1], 1); एक समय में केवल एक फ़ाइल पढ़ने में सक्षम है। मैं एक से अधिक फ़ाइल पढ़ना और उन्हें …

179 apache-spark

2

स्काला बनाम पायथन के लिए स्पार्क प्रदर्शन

मैं स्काला के ऊपर अजगर को पसंद करता हूं। लेकिन, जैसा कि स्पार्क को मूल रूप से स्काला में लिखा गया है, मैं स्पष्ट कारणों से अपने कोड को स्काला में पायथन संस्करण की तुलना में तेजी से चलाने की उम्मीद कर रहा था। उस धारणा के साथ, मैंने कुछ …

178 scala performance apache-spark pyspark rdd

5

(क्यों) हमें कैश कॉल करने या RDD पर बने रहने की आवश्यकता है

जब एक लचीला वितरित डेटासेट (RDD) एक टेक्स्ट फ़ाइल या संग्रह (या किसी अन्य RDD) से बनाया जाता है, तो क्या हमें RDD डेटा को मेमोरी में स्टोर करने के लिए "कैश" या "लगातार" स्पष्ट रूप से कॉल करने की आवश्यकता है? या आरडीडी डेटा को डिफॉल्ट रूप से मेमोरी …

171 scala apache-spark rdd

6

जार को स्पार्क जॉब में जोड़ें - स्पार्क-सबमिट करें

सच ... इसकी काफी चर्चा हुई। हालांकि बहुत अस्पष्टता है और कुछ उत्तर दिए गए हैं ... जार / निष्पादक / ड्राइवर कॉन्फ़िगरेशन या विकल्पों में जार संदर्भों की नकल करना भी शामिल है। अस्पष्ट और / या छोड़े गए विवरण अस्पष्टता के बाद, अस्पष्ट, और / या छोड़े गए …

158 java scala apache-spark jar spark-submit

apache-spark पर टैग किए गए जवाब