apache-spark-sql पर टैग किए गए जवाब

अपाचे स्पार्क एसक्यूएल स्पार्क पर "एसक्यूएल और स्ट्रक्चर्ड डेटा प्रोसेसिंग" का एक उपकरण है, जो एक तेज और सामान्य प्रयोजन क्लस्टर कंप्यूटिंग सिस्टम है। इसका उपयोग Hive, Parquet आदि के डेटा को पुनः प्राप्त करने और मौजूदा RDD और डेटासेट पर SQL क्वेरी चलाने के लिए किया जा सकता है।

15
स्पार्क में डेटाफ्रेम, डेटासेट और आरडीडी के बीच अंतर
मैं बस सोच रहा हूँ एक के बीच अंतर क्या है RDDऔर DataFrame (स्पार्क 2.0.0 DataFrame के लिए एक मात्र प्रकार अन्य नाम है Dataset[Row]) अपाचे स्पार्क में? क्या आप एक को दूसरे में बदल सकते हैं?

23
मैं स्पार्क एसक्यूएल के डेटाफ़्रेम में कॉलम प्रकार कैसे बदल सकता हूं?
मान लीजिए मैं कुछ ऐसा कर रहा हूं: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) …

8
प्रत्येक समूह की पहली पंक्ति का चयन कैसे करें?
मेरे पास निम्नानुसार एक DataFrame उत्पन्न है: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) परिणाम इस तरह दिखते हैं: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| …

14
स्पार्क - CSV फ़ाइल को DataFrame के रूप में लोड करें?
मैं स्पार्क में एक सीएसवी पढ़ना चाहूंगा और इसे डेटाफ्रेम के रूप में परिवर्तित करूंगा और इसे एचडीएफएस में स्टोर करूंगा df.registerTempTable("table_name") मैंने कोशिश की है: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") त्रुटि जो मुझे मिली: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, …

11
स्पर्म में डेटाफ्रेम के लिए आरडीडी ऑब्जेक्ट कैसे कन्वर्ट करें
मैं एक RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) को डेटाफ्रेम में कैसे बदल सकता हूं org.apache.spark.sql.DataFrame। मैंने उपयोग करने के लिए एक डेटाफ़्रेम परिवर्तित किया है .rdd। इसे प्रोसेस करने के बाद मैं इसे डेटाफ्रेम में वापस चाहता हूं। मैं यह कैसे कर सकता हूँ ?

2
Spark DataFrame में एक स्थिर कॉलम कैसे जोड़ें?
मैं DataFrameकुछ मनमाने मूल्य (जो प्रत्येक पंक्ति के लिए समान है) के साथ एक कॉलम जोड़ना चाहता हूं । जब मैं withColumnनिम्नानुसार एक त्रुटि प्राप्त करता हूं : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 …

6
स्पार्क एसक्यूएल में अवरोही क्रम में कॉलम को कैसे छाँटा जाए?
मैंने कोशिश की df.orderBy("col1").show(10)लेकिन यह आरोही क्रम में क्रमबद्ध हो गया। df.sort("col1").show(10)अवरोही क्रम में भी सॉर्ट करें। मैंने स्टैकओवरफ़्लो को देखा और मुझे जो उत्तर मिले वे सभी पुराने थे या आरडीडी को संदर्भित किए गए थे । मैं स्पार्क में देशी डेटाफ्रेम का उपयोग करना चाहूंगा।

5
DataFrame के विभाजन को कैसे परिभाषित करें?
मैंने स्पार्क एसक्यूएल और डेटाफ्रेम का उपयोग स्पार्क 1.4.0 में करना शुरू कर दिया है। मैं Scala में DataFrames पर एक कस्टम पार्टीशन को परिभाषित करना चाहता हूं, लेकिन यह देखना नहीं है कि यह कैसे करना है। निम्नलिखित में से एक डेटा तालिकाओं में मैं लेन-देन की सूची में …

9
स्पार्क डेटाफ़्रेम (PySpark का उपयोग करके) में एक नया कॉलम कैसे जोड़ूँ?
मेरे पास स्पार्क डेटाफ़्रेम (PySpark 1.5.1 का उपयोग करके) है और एक नया कॉलम जोड़ना चाहूंगा। मैंने बिना किसी सफलता के निम्नलिखित कोशिश की है: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) इसके उपयोग से एक …


14
अगर स्पार्क डेटाफ्रेम खाली है तो कैसे जांचें?
अभी, मुझे यह df.count > 0जांचने के लिए उपयोग करना है कि DataFrameक्या खाली है या नहीं। लेकिन यह एक तरह से अक्षम है। क्या ऐसा करने का कोई बेहतर तरीका है? धन्यवाद। पुनश्च: मैं यह देखना चाहता हूं कि क्या यह खाली है ताकि मैं केवल खाली होने पर …

5
कैसे एक टाइपफ़ॉर्म कॉलम को स्ट्रिंग टाइप से डबल टाइप में pyspark में बदलें
मेरे पास स्ट्रिंग के रूप में कॉलम के साथ एक डेटाफ्रेम है। मैं स्तंभ प्रकार को PySpark में डबल प्रकार में बदलना चाहता था। निम्नलिखित तरीका है, मैंने किया: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) बस जानना चाहता था, क्या यह सही तरीका है कि लॉजिस्टिक रिग्रेशन से …

10
कोई भी मान से Pyspark डेटाफ़ॉर्म कॉलम फ़िल्टर नहीं करें
मैं एक PySpark डेटाफ़्रेम को फ़िल्टर करने का प्रयास कर रहा हूं Noneजिसमें पंक्ति मूल्य है: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] और मैं एक स्ट्रिंग मान के साथ सही ढंग से फ़िल्टर कर सकता हूं: df[df.dt_mvmt == '2016-03-31'] # some results here लेकिन यह विफल रहता है: df[df.dt_mvmt …

7
एक निर्दिष्ट स्कीमा के साथ एक खाली डेटाफ़्रेम कैसे बनाएं?
मैं DataFrameस्काला में एक निर्दिष्ट स्कीमा के साथ बनाना चाहता हूं । मैंने JSON रीड (मेरा मतलब खाली फ़ाइल पढ़ने का है) का उपयोग करने की कोशिश की है, लेकिन मुझे नहीं लगता कि यह सबसे अच्छा अभ्यास है।

6
स्पार्क स्काला में डेटाफ़्रेम का नाम बदलना कॉलम नाम
मैं DataFrameस्पार्क-स्काला के सभी हेडर / कॉलम नामों को बदलने की कोशिश कर रहा हूं । अब तक मैं निम्नलिखित कोड के साथ आता हूं जो केवल एक कॉलम नाम की जगह लेता है। for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.