apache-spark-sql पर टैग किए गए जवाब

अपाचे स्पार्क एसक्यूएल स्पार्क पर "एसक्यूएल और स्ट्रक्चर्ड डेटा प्रोसेसिंग" का एक उपकरण है, जो एक तेज और सामान्य प्रयोजन क्लस्टर कंप्यूटिंग सिस्टम है। इसका उपयोग Hive, Parquet आदि के डेटा को पुनः प्राप्त करने और मौजूदा RDD और डेटासेट पर SQL क्वेरी चलाने के लिए किया जा सकता है।

5
Spark DataFrame GroupBy और अवरोही क्रम में क्रमबद्ध करें (pyspark)
मैं pyspark (Python 2.7.9 / Spark 1.3.1) का उपयोग कर रहा हूं और एक डेटाफ्रेम GroupObject है जिसे मुझे अवरोही क्रम में फ़िल्टर करने और सॉर्ट करने की आवश्यकता है। कोड के इस टुकड़े के माध्यम से इसे प्राप्त करने की कोशिश कर रहा है। group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) लेकिन …

9
अपाचे स्पार्क में सूची के रूप में डेटाफ्रेम के कॉलम मान निकालें
मैं डेटा फ्रेम के एक स्ट्रिंग कॉलम को एक सूची में बदलना चाहता हूं। मुझे DataframeAPI से क्या मिल सकता है RDD है, इसलिए मैंने इसे पहले RDD में बदलने की कोशिश की, और फिर toArrayRDD में फ़ंक्शन लागू किया । इस स्थिति में, लंबाई और SQL ठीक काम करते …

11
Hive को सीधे DataFrame कैसे बचाएं?
क्या DataFrameस्पाइव में सीधे स्पार्क में बचाना संभव है ? मैंने एक पाठ फ़ाइल के रूप में परिवर्तित DataFrameकरने Rddऔर फिर बचत करने और फिर हाइव में लोड करने की कोशिश की है । लेकिन मैं सोच रहा हूं कि क्या मैं सीधे dataframeछत्ता बचा सकता हूं

8
Pyspark डेटाफ़्रेम में कॉलम कैसे हटाएं
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] दो हैं id: bigintऔर मैं एक को हटाना चाहता हूं। मैं कैसे कर सकता हूँ?

6
Pyspark स्ट्रिंग को दिनांक स्वरूप में परिवर्तित करें
मेरे पास एक स्ट्रिंग कॉलम के साथ एक डेट पीस्पार्क डेटाफ्रेम है MM-dd-yyyyऔर मैं इसे डेट कॉलम में परिवर्तित करने का प्रयास कर रहा हूं। मैंने कोशिश की: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() और मुझे एक नल मिलता है। क्या कोई मदद कर सकता है?

1
Pyspark df से PostgresSQL के लिए 50 लाख से अधिक लेखन, सबसे अच्छा कुशल दृष्टिकोण
स्पार्क डेटाफ्रेम से पोस्टग्रैब टेबल्स में 50 मिलियन रिकॉर्ड के लाखों रिकॉर्ड डालने का सबसे कुशल तरीका क्या होगा। मैंने पिछले दिनों बल्क कॉपी और बैच साइज ऑप्शन का उपयोग करके स्पार्क से MSSQL तक किया है जो सफल भी रहा। क्या ऐसा ही कुछ है जो यहाँ पोस्टग्रेज के …

1
स्पार्क: यूडीएफ को कई बार निष्पादित किया गया
मेरे पास निम्नलिखित कोड के साथ एक डेटाफ्रेम है: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) अब लॉग की जांच करते हुए, मुझे पता चला कि प्रत्येक …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.