apache-spark पर टैग किए गए जवाब

अपाचे स्पार्क एक खुला स्रोत वितरित डेटा प्रोसेसिंग इंजन है जो स्काला में लिखा गया है जो एक एकीकृत एपीआई और उपयोगकर्ताओं को डेटा सेट वितरित करता है। अपाचे स्पार्क के लिए मामलों का उपयोग अक्सर मशीन / गहरी सीखने, ग्राफ प्रसंस्करण से संबंधित होता है।

23
मैं स्पार्क एसक्यूएल के डेटाफ़्रेम में कॉलम प्रकार कैसे बदल सकता हूं?
मान लीजिए मैं कुछ ऐसा कर रहा हूं: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) …

8
डेटासेट में कस्टम ऑब्जेक्ट्स को कैसे स्टोर करें?
परिचय स्पार्क डेटासेट्स के अनुसार : जैसा कि हम स्पार्क 2.0 के लिए तत्पर हैं, हम डेटासेट्स के लिए कुछ रोमांचक सुधारों की योजना बनाते हैं, विशेष रूप से: ... कस्टम एन्कोडर - जब हम वर्तमान में विभिन्न प्रकार के प्रकारों के लिए ऑटोजेनरेट एनकोडर करते हैं, तो हम कस्टम …

8
प्रत्येक समूह की पहली पंक्ति का चयन कैसे करें?
मेरे पास निम्नानुसार एक DataFrame उत्पन्न है: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) परिणाम इस तरह दिखते हैं: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| …

15
स्पार्क में INFO लॉगिंग कैसे बंद करें?
मैंने AWS EC2 गाइड का उपयोग करके स्पार्क स्थापित किया और मैं bin/pysparkस्पार्क प्रॉम्प्ट को प्राप्त करने के लिए स्क्रिप्ट का उपयोग करके प्रोग्राम को ठीक से लॉन्च कर सकता हूं और क्विक स्टार्ट क्वाइड को सफलतापूर्वक भी कर सकता हूं। हालाँकि, मैं अपने जीवन के लिए यह पता नहीं …

3
स्पार्क में चरणों को कार्यों में कैसे विभाजित किया जाता है?
निम्नलिखित के लिए मान लें कि केवल एक स्पार्क नौकरी हर बिंदु पर चल रही है। मुझे अब तक क्या मिला है यहाँ मैं समझता हूँ कि स्पार्क में क्या होता है: जब एक SparkContextबनाया जाता है, तो प्रत्येक कार्यकर्ता नोड एक निष्पादक शुरू करता है। निष्पादक अलग-अलग प्रक्रियाएं (JVM) …
143 apache-spark 

14
स्पार्क - CSV फ़ाइल को DataFrame के रूप में लोड करें?
मैं स्पार्क में एक सीएसवी पढ़ना चाहूंगा और इसे डेटाफ्रेम के रूप में परिवर्तित करूंगा और इसे एचडीएफएस में स्टोर करूंगा df.registerTempTable("table_name") मैंने कोशिश की है: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") त्रुटि जो मुझे मिली: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, …

11
स्पर्म में डेटाफ्रेम के लिए आरडीडी ऑब्जेक्ट कैसे कन्वर्ट करें
मैं एक RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) को डेटाफ्रेम में कैसे बदल सकता हूं org.apache.spark.sql.DataFrame। मैंने उपयोग करने के लिए एक डेटाफ़्रेम परिवर्तित किया है .rdd। इसे प्रोसेस करने के बाद मैं इसे डेटाफ्रेम में वापस चाहता हूं। मैं यह कैसे कर सकता हूँ ?

2
Spark DataFrame में एक स्थिर कॉलम कैसे जोड़ें?
मैं DataFrameकुछ मनमाने मूल्य (जो प्रत्येक पंक्ति के लिए समान है) के साथ एक कॉलम जोड़ना चाहता हूं । जब मैं withColumnनिम्नानुसार एक त्रुटि प्राप्त करता हूं : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 …

6
स्पार्क एसक्यूएल में अवरोही क्रम में कॉलम को कैसे छाँटा जाए?
मैंने कोशिश की df.orderBy("col1").show(10)लेकिन यह आरोही क्रम में क्रमबद्ध हो गया। df.sort("col1").show(10)अवरोही क्रम में भी सॉर्ट करें। मैंने स्टैकओवरफ़्लो को देखा और मुझे जो उत्तर मिले वे सभी पुराने थे या आरडीडी को संदर्भित किए गए थे । मैं स्पार्क में देशी डेटाफ्रेम का उपयोग करना चाहूंगा।

3
अपाचे स्पार्क: मैप बनाम मैपपार्टिशन?
RDD की विधि mapऔर mapPartitionsविधि में क्या अंतर है ? और flatMapव्यवहार करता है mapया पसंद करता है mapPartitions? धन्यवाद। (संपादित करें) यानी अंतर क्या है (या तो शब्दार्थ या निष्पादन के संदर्भ में) def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { …

5
DataFrame के विभाजन को कैसे परिभाषित करें?
मैंने स्पार्क एसक्यूएल और डेटाफ्रेम का उपयोग स्पार्क 1.4.0 में करना शुरू कर दिया है। मैं Scala में DataFrames पर एक कस्टम पार्टीशन को परिभाषित करना चाहता हूं, लेकिन यह देखना नहीं है कि यह कैसे करना है। निम्नलिखित में से एक डेटा तालिकाओं में मैं लेन-देन की सूची में …

9
स्पार्क डेटाफ़्रेम (PySpark का उपयोग करके) में एक नया कॉलम कैसे जोड़ूँ?
मेरे पास स्पार्क डेटाफ़्रेम (PySpark 1.5.1 का उपयोग करके) है और एक नया कॉलम जोड़ना चाहूंगा। मैंने बिना किसी सफलता के निम्नलिखित कोशिश की है: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) इसके उपयोग से एक …

12
Apache Spark Executor मैमोरी कैसे सेट करें
मैं अपाचे स्पार्क एक्सेसर नोड्स के लिए उपलब्ध मेमोरी कैसे बढ़ा सकता हूं? मेरे पास 2 जीबी की फाइल है जो अपाचे स्पार्क में लोड करने के लिए उपयुक्त है। मैं 1 मशीन पर इस समय के लिए अपाचे स्पार्क चला रहा हूं, इसलिए ड्राइवर और निष्पादक एक ही मशीन …

10
RDD की सामग्री कैसे प्रिंट करें?
मैं एक संग्रह की सामग्री को स्पार्क कंसोल पर प्रिंट करने का प्रयास कर रहा हूं। मेरे पास एक प्रकार है: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] और मैं कमांड का उपयोग करता हूं: scala> linesWithSessionId.map(line => println(line)) लेकिन यह छपा है: res1: org.apache.spark.rdd.RDD [यूनिट] = MappedRDD [4] पर 19: मैं RDD …


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.