प्रोग्रामिंग apache-spark

23

मैं स्पार्क एसक्यूएल के डेटाफ़्रेम में कॉलम प्रकार कैसे बदल सकता हूं?

मान लीजिए मैं कुछ ऐसा कर रहा हूं: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) …

152 scala apache-spark apache-spark-sql

8

डेटासेट में कस्टम ऑब्जेक्ट्स को कैसे स्टोर करें?

परिचय स्पार्क डेटासेट्स के अनुसार : जैसा कि हम स्पार्क 2.0 के लिए तत्पर हैं, हम डेटासेट्स के लिए कुछ रोमांचक सुधारों की योजना बनाते हैं, विशेष रूप से: ... कस्टम एन्कोडर - जब हम वर्तमान में विभिन्न प्रकार के प्रकारों के लिए ऑटोजेनरेट एनकोडर करते हैं, तो हम कस्टम …

149 scala apache-spark apache-spark-dataset apache-spark-encoders

8

प्रत्येक समूह की पहली पंक्ति का चयन कैसे करें?

मेरे पास निम्नानुसार एक DataFrame उत्पन्न है: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) परिणाम इस तरह दिखते हैं: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| …

144 sql scala apache-spark dataframe apache-spark-sql

15

स्पार्क में INFO लॉगिंग कैसे बंद करें?

मैंने AWS EC2 गाइड का उपयोग करके स्पार्क स्थापित किया और मैं bin/pysparkस्पार्क प्रॉम्प्ट को प्राप्त करने के लिए स्क्रिप्ट का उपयोग करके प्रोग्राम को ठीक से लॉन्च कर सकता हूं और क्विक स्टार्ट क्वाइड को सफलतापूर्वक भी कर सकता हूं। हालाँकि, मैं अपने जीवन के लिए यह पता नहीं …

144 python scala apache-spark hadoop pyspark

3

स्पार्क में चरणों को कार्यों में कैसे विभाजित किया जाता है?

निम्नलिखित के लिए मान लें कि केवल एक स्पार्क नौकरी हर बिंदु पर चल रही है। मुझे अब तक क्या मिला है यहाँ मैं समझता हूँ कि स्पार्क में क्या होता है: जब एक SparkContextबनाया जाता है, तो प्रत्येक कार्यकर्ता नोड एक निष्पादक शुरू करता है। निष्पादक अलग-अलग प्रक्रियाएं (JVM) …

143 apache-spark

14

स्पार्क - CSV फ़ाइल को DataFrame के रूप में लोड करें?

मैं स्पार्क में एक सीएसवी पढ़ना चाहूंगा और इसे डेटाफ्रेम के रूप में परिवर्तित करूंगा और इसे एचडीएफएस में स्टोर करूंगा df.registerTempTable("table_name") मैंने कोशिश की है: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") त्रुटि जो मुझे मिली: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, …

141 scala apache-spark hadoop apache-spark-sql hdfs

11

स्पर्म में डेटाफ्रेम के लिए आरडीडी ऑब्जेक्ट कैसे कन्वर्ट करें

मैं एक RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) को डेटाफ्रेम में कैसे बदल सकता हूं org.apache.spark.sql.DataFrame। मैंने उपयोग करने के लिए एक डेटाफ़्रेम परिवर्तित किया है .rdd। इसे प्रोसेस करने के बाद मैं इसे डेटाफ्रेम में वापस चाहता हूं। मैं यह कैसे कर सकता हूँ ?

139 scala apache-spark apache-spark-sql rdd

2

Spark DataFrame में एक स्थिर कॉलम कैसे जोड़ें?

मैं DataFrameकुछ मनमाने मूल्य (जो प्रत्येक पंक्ति के लिए समान है) के साथ एक कॉलम जोड़ना चाहता हूं । जब मैं withColumnनिम्नानुसार एक त्रुटि प्राप्त करता हूं : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 …

137 python apache-spark dataframe pyspark apache-spark-sql

6

स्पार्क एसक्यूएल में अवरोही क्रम में कॉलम को कैसे छाँटा जाए?

मैंने कोशिश की df.orderBy("col1").show(10)लेकिन यह आरोही क्रम में क्रमबद्ध हो गया। df.sort("col1").show(10)अवरोही क्रम में भी सॉर्ट करें। मैंने स्टैकओवरफ़्लो को देखा और मुझे जो उत्तर मिले वे सभी पुराने थे या आरडीडी को संदर्भित किए गए थे । मैं स्पार्क में देशी डेटाफ्रेम का उपयोग करना चाहूंगा।

137 scala apache-spark apache-spark-sql

3

अपाचे स्पार्क: मैप बनाम मैपपार्टिशन?

RDD की विधि mapऔर mapPartitionsविधि में क्या अंतर है ? और flatMapव्यवहार करता है mapया पसंद करता है mapPartitions? धन्यवाद। (संपादित करें) यानी अंतर क्या है (या तो शब्दार्थ या निष्पादन के संदर्भ में) def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { …

133 performance scala apache-spark rdd

5

DataFrame के विभाजन को कैसे परिभाषित करें?

मैंने स्पार्क एसक्यूएल और डेटाफ्रेम का उपयोग स्पार्क 1.4.0 में करना शुरू कर दिया है। मैं Scala में DataFrames पर एक कस्टम पार्टीशन को परिभाषित करना चाहता हूं, लेकिन यह देखना नहीं है कि यह कैसे करना है। निम्नलिखित में से एक डेटा तालिकाओं में मैं लेन-देन की सूची में …

128 scala apache-spark dataframe apache-spark-sql partitioning

9

स्पार्क डेटाफ़्रेम (PySpark का उपयोग करके) में एक नया कॉलम कैसे जोड़ूँ?

मेरे पास स्पार्क डेटाफ़्रेम (PySpark 1.5.1 का उपयोग करके) है और एक नया कॉलम जोड़ना चाहूंगा। मैंने बिना किसी सफलता के निम्नलिखित कोशिश की है: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) इसके उपयोग से एक …

128 python apache-spark dataframe pyspark apache-spark-sql

12

Apache Spark Executor मैमोरी कैसे सेट करें

मैं अपाचे स्पार्क एक्सेसर नोड्स के लिए उपलब्ध मेमोरी कैसे बढ़ा सकता हूं? मेरे पास 2 जीबी की फाइल है जो अपाचे स्पार्क में लोड करने के लिए उपयुक्त है। मैं 1 मशीन पर इस समय के लिए अपाचे स्पार्क चला रहा हूं, इसलिए ड्राइवर और निष्पादक एक ही मशीन …

127 memory apache-spark

10

RDD की सामग्री कैसे प्रिंट करें?

मैं एक संग्रह की सामग्री को स्पार्क कंसोल पर प्रिंट करने का प्रयास कर रहा हूं। मेरे पास एक प्रकार है: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] और मैं कमांड का उपयोग करता हूं: scala> linesWithSessionId.map(line => println(line)) लेकिन यह छपा है: res1: org.apache.spark.rdd.RDD [यूनिट] = MappedRDD [4] पर 19: मैं RDD …

124 scala apache-spark

14

Apache Spark DataFrame में कॉनमेटेट कॉलम

Apache Spark DataFrame में हम दो कॉलम कैसे जोड़ सकते हैं? क्या स्पार्क एसक्यूएल में कोई फ़ंक्शन है जिसका हम उपयोग कर सकते हैं?

116 sql apache-spark dataframe apache-spark-sql

apache-spark पर टैग किए गए जवाब