apache-spark पर टैग किए गए जवाब

अपाचे स्पार्क एक खुला स्रोत वितरित डेटा प्रोसेसिंग इंजन है जो स्काला में लिखा गया है जो एक एकीकृत एपीआई और उपयोगकर्ताओं को डेटा सेट वितरित करता है। अपाचे स्पार्क के लिए मामलों का उपयोग अक्सर मशीन / गहरी सीखने, ग्राफ प्रसंस्करण से संबंधित होता है।

15
स्पार्क में डेटाफ्रेम, डेटासेट और आरडीडी के बीच अंतर
मैं बस सोच रहा हूँ एक के बीच अंतर क्या है RDDऔर DataFrame (स्पार्क 2.0.0 DataFrame के लिए एक मात्र प्रकार अन्य नाम है Dataset[Row]) अपाचे स्पार्क में? क्या आप एक को दूसरे में बदल सकते हैं?

13
स्पार्क - रिपर्टिशन () बनाम कॉलेसस ()
लर्निंग स्पार्क के अनुसार ध्यान रखें कि आपके डेटा को पुन: प्रस्तुत करना एक काफी महंगा ऑपरेशन है। स्पार्क भी की एक अनुकूलित संस्करण है repartition()कहा जाता coalesce()है कि डेटा आंदोलन से बचने की अनुमति देता है, लेकिन केवल तभी जब आप RDD विभाजन की संख्या कम कर रहे हैं। …

16
मानचित्र और फ़्लैटमैप के बीच अंतर और प्रत्येक के लिए एक अच्छा उपयोग मामला क्या है?
क्या कोई मुझे मानचित्र और फ़्लैटमैप के बीच का अंतर समझा सकता है और प्रत्येक के लिए एक अच्छा उपयोग मामला क्या है? "परिणाम को समतल करता है" क्या मतलब है? ये किस काम के लिए अच्छा है?
249 apache-spark 

12
स्पार्क java.lang.OutOfMemoryError: जावा हीप स्पेस
मेरा क्लस्टर: 1 मास्टर, 11 दास, प्रत्येक नोड में 6 जीबी मेमोरी है। मेरी सेटिंग्स: spark.executor.memory=4g, Dspark.akka.frameSize=512 यहाँ समस्या है: सबसे पहले , मैंने एचडीएफएस से आरडीडी के लिए कुछ डेटा (2.19 जीबी) पढ़ा: val imageBundleRDD = sc.newAPIHadoopFile(...) दूसरा , इस RDD पर कुछ करें: val res = imageBundleRDD.map(data => …

7
टास्क सीरीज़ेबल नहीं: java.io.NotSerializableException जब कॉलिंग आउट फ़ंक्शन केवल क्लासेस पर नहीं वस्तुओं पर
किसी कार्य को बंद करने के बाद अजीब व्यवहार करना: जब फ़ंक्शन एक वस्तु में होता है तो सब कुछ काम कर रहा होता है जब समारोह एक कक्षा में हो: कार्य क्रमबद्ध नहीं: java.io.NotSerializableException: परीक्षण समस्या यह है कि मुझे एक कक्षा में अपने कोड की आवश्यकता है न …

2
स्पार्क स्टैंडअलोन क्लस्टर में श्रमिक, निष्पादक, कोर क्या हैं?
मैंने क्लस्टर मोड अवलोकन पढ़ा और मैं अभी भी स्पार्क स्टैंडअलोन क्लस्टर और समानांतरवाद में विभिन्न प्रक्रियाओं को नहीं समझ सकता । कार्यकर्ता एक जेवीएम प्रक्रिया है या नहीं? मैंने भाग लिया bin\start-slave.shऔर पाया कि इसने कार्यकर्ता को जन्म दिया, जो वास्तव में एक जेवीएम है। उपरोक्त लिंक के अनुसार, …


13
स्पार्क डेटाफ़्रेम में पूर्ण स्तंभ सामग्री कैसे दिखाएं?
मैं DataFrame में डेटा लोड करने के लिए स्पार्क-सीएसवी का उपयोग कर रहा हूं। मैं एक साधारण क्वेरी करना चाहता हूं और सामग्री प्रदर्शित करता हूं: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() कॉल लगता है: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| …

13
Pyspark में डेटाफ्रेम कॉलम नाम कैसे बदलें?
मैं पांडा बैकग्राउंड से आता हूं और सीएसवी फाइलों के डेटा को डेटाफ्रेम में पढ़ने के लिए इस्तेमाल किया जाता है और फिर कॉलम के नाम को साधारण कमांड का उपयोग करके कुछ उपयोगी में बदल दिया जाता है: df.columns = new_column_name_list हालांकि, वही sqlContext का उपयोग करके बनाए गए …

8
अपाचे स्पार्क: कोर की संख्या बनाम निष्पादकों की संख्या
मैं YARN पर स्पार्क की नौकरी चलाते समय कोर की संख्या और निष्पादनकर्ताओं की संख्या के संबंध को समझने की कोशिश कर रहा हूं। परीक्षण वातावरण इस प्रकार है: डेटा नोड्स की संख्या: 3 डेटा नोड मशीन कल्पना: सीपीयू: कोर i7-4790 (कोर का #: 4, # धागे का: 8) RAM: …

20
स्पार्क कंसोल पर प्रदर्शित होने वाले INFO संदेशों को कैसे रोकें?
मैं विभिन्न संदेशों को रोकना चाहूंगा जो स्पार्क शेल पर आ रहे हैं। मैंने log4j.propertiesइन संदेश को रोकने के लिए फ़ाइल को संपादित करने का प्रयास किया । यहाँ की सामग्री हैं log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: …

10
एक एकल RDD में कई पाठ फ़ाइलों को कैसे पढ़ें?
मैं एक hdfs स्थान से पाठ फ़ाइलों का एक गुच्छा पढ़ना चाहता हूं और चिंगारी का उपयोग करके एक पुनरावृत्ति में उस पर मानचित्रण करना चाहता हूं। JavaRDD<String> records = ctx.textFile(args[1], 1); एक समय में केवल एक फ़ाइल पढ़ने में सक्षम है। मैं एक से अधिक फ़ाइल पढ़ना और उन्हें …
179 apache-spark 

2
स्काला बनाम पायथन के लिए स्पार्क प्रदर्शन
मैं स्काला के ऊपर अजगर को पसंद करता हूं। लेकिन, जैसा कि स्पार्क को मूल रूप से स्काला में लिखा गया है, मैं स्पष्ट कारणों से अपने कोड को स्काला में पायथन संस्करण की तुलना में तेजी से चलाने की उम्मीद कर रहा था। उस धारणा के साथ, मैंने कुछ …

5
(क्यों) हमें कैश कॉल करने या RDD पर बने रहने की आवश्यकता है
जब एक लचीला वितरित डेटासेट (RDD) एक टेक्स्ट फ़ाइल या संग्रह (या किसी अन्य RDD) से बनाया जाता है, तो क्या हमें RDD डेटा को मेमोरी में स्टोर करने के लिए "कैश" या "लगातार" स्पष्ट रूप से कॉल करने की आवश्यकता है? या आरडीडी डेटा को डिफॉल्ट रूप से मेमोरी …
171 scala  apache-spark  rdd 

6
जार को स्पार्क जॉब में जोड़ें - स्पार्क-सबमिट करें
सच ... इसकी काफी चर्चा हुई। हालांकि बहुत अस्पष्टता है और कुछ उत्तर दिए गए हैं ... जार / निष्पादक / ड्राइवर कॉन्फ़िगरेशन या विकल्पों में जार संदर्भों की नकल करना भी शामिल है। अस्पष्ट और / या छोड़े गए विवरण अस्पष्टता के बाद, अस्पष्ट, और / या छोड़े गए …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.