pyspark पर टैग किए गए जवाब

स्पार्क पायथन एपीआई (पायस्पार्क) अजगर के लिए अपाचे-स्पार्क प्रोग्रामिंग मॉडल को उजागर करता है।

13
Pyspark में डेटाफ्रेम कॉलम नाम कैसे बदलें?
मैं पांडा बैकग्राउंड से आता हूं और सीएसवी फाइलों के डेटा को डेटाफ्रेम में पढ़ने के लिए इस्तेमाल किया जाता है और फिर कॉलम के नाम को साधारण कमांड का उपयोग करके कुछ उपयोगी में बदल दिया जाता है: df.columns = new_column_name_list हालांकि, वही sqlContext का उपयोग करके बनाए गए …

2
स्काला बनाम पायथन के लिए स्पार्क प्रदर्शन
मैं स्काला के ऊपर अजगर को पसंद करता हूं। लेकिन, जैसा कि स्पार्क को मूल रूप से स्काला में लिखा गया है, मैं स्पष्ट कारणों से अपने कोड को स्काला में पायथन संस्करण की तुलना में तेजी से चलाने की उम्मीद कर रहा था। उस धारणा के साथ, मैंने कुछ …

15
स्पार्क में INFO लॉगिंग कैसे बंद करें?
मैंने AWS EC2 गाइड का उपयोग करके स्पार्क स्थापित किया और मैं bin/pysparkस्पार्क प्रॉम्प्ट को प्राप्त करने के लिए स्क्रिप्ट का उपयोग करके प्रोग्राम को ठीक से लॉन्च कर सकता हूं और क्विक स्टार्ट क्वाइड को सफलतापूर्वक भी कर सकता हूं। हालाँकि, मैं अपने जीवन के लिए यह पता नहीं …

2
Spark DataFrame में एक स्थिर कॉलम कैसे जोड़ें?
मैं DataFrameकुछ मनमाने मूल्य (जो प्रत्येक पंक्ति के लिए समान है) के साथ एक कॉलम जोड़ना चाहता हूं । जब मैं withColumnनिम्नानुसार एक त्रुटि प्राप्त करता हूं : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 …

9
स्पार्क डेटाफ़्रेम (PySpark का उपयोग करके) में एक नया कॉलम कैसे जोड़ूँ?
मेरे पास स्पार्क डेटाफ़्रेम (PySpark 1.5.1 का उपयोग करके) है और एक नया कॉलम जोड़ना चाहूंगा। मैंने बिना किसी सफलता के निम्नलिखित कोशिश की है: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) इसके उपयोग से एक …

19
अजगर के खोल में pyspark आयात करना
यह किसी अन्य फोरम पर किसी और के प्रश्न की एक प्रति है, जिसका कभी उत्तर नहीं दिया गया था, इसलिए मैंने सोचा कि मैं इसे फिर से पूछूंगा, क्योंकि मेरे पास एक ही मुद्दा है। (देखें http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) मैंने स्पार्क को अपनी मशीन पर ठीक से स्थापित किया है …

12
स्पार्क के साथ CSV फ़ाइल लोड करें
मैं स्पार्क के लिए नया हूं और मैं स्पार्क के साथ एक फाइल से सीएसवी डेटा को पढ़ने की कोशिश कर रहा हूं। यहाँ मैं क्या कर रहा हूँ: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() मुझे उम्मीद है कि इस कॉल से मुझे अपनी फ़ाइल के पहले दो कॉलमों की …

8
चिंगारी DataFrame कॉलम को अजगर सूची में बदलें
मैं दो कॉलम, mvv और काउंट के साथ एक डेटाफ्रेम पर काम करता हूं। +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | मैं दो लिस्ट प्राप्त करना चाहूँगा जिसमें mvv मान और काउंट वैल्यू शामिल …

4
स्पार्क किल रनिंग एप्लीकेशन
मेरे पास एक रनिंग स्पार्क एप्लिकेशन है जहां यह उन सभी कोर पर कब्जा कर लेता है जहां मेरे अन्य एप्लिकेशन को कोई संसाधन आवंटित नहीं किया जाएगा। मैंने कुछ त्वरित शोध किया और लोगों ने कमांड को मारने के लिए YARN किल या / बिन / स्पार्क-क्लास का उपयोग …

5
कैसे एक टाइपफ़ॉर्म कॉलम को स्ट्रिंग टाइप से डबल टाइप में pyspark में बदलें
मेरे पास स्ट्रिंग के रूप में कॉलम के साथ एक डेटाफ्रेम है। मैं स्तंभ प्रकार को PySpark में डबल प्रकार में बदलना चाहता था। निम्नलिखित तरीका है, मैंने किया: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) बस जानना चाहता था, क्या यह सही तरीका है कि लॉजिस्टिक रिग्रेशन से …

10
कोई भी मान से Pyspark डेटाफ़ॉर्म कॉलम फ़िल्टर नहीं करें
मैं एक PySpark डेटाफ़्रेम को फ़िल्टर करने का प्रयास कर रहा हूं Noneजिसमें पंक्ति मूल्य है: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] और मैं एक स्ट्रिंग मान के साथ सही ढंग से फ़िल्टर कर सकता हूं: df[df.dt_mvmt == '2016-03-31'] # some results here लेकिन यह विफल रहता है: df[df.dt_mvmt …

5
Spark DataFrame GroupBy और अवरोही क्रम में क्रमबद्ध करें (pyspark)
मैं pyspark (Python 2.7.9 / Spark 1.3.1) का उपयोग कर रहा हूं और एक डेटाफ्रेम GroupObject है जिसे मुझे अवरोही क्रम में फ़िल्टर करने और सॉर्ट करने की आवश्यकता है। कोड के इस टुकड़े के माध्यम से इसे प्राप्त करने की कोशिश कर रहा है। group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) लेकिन …

18
मैं स्पार्क में ड्राइवर के पायथन संस्करण को कैसे सेट करूं?
मैं स्पार्क 1.4.0-आरसी 2 का उपयोग कर रहा हूं, इसलिए मैं स्पार्क के साथ अजगर 3 का उपयोग कर सकता हूं। अगर मैं export PYSPARK_PYTHON=python3अपनी .bashrc फ़ाइल में जोड़ता हूं, तो मैं स्पार्क इंटरलिंक रूप से अजगर के साथ चला सकता हूं 3. हालांकि, अगर मैं स्थानीय मोड में स्टैंडअलोन …

9
pyspark डेटाफ़्रेम में अलग कॉलम मान दिखाएं: अजगर
कृपया पंडों के लिए pyspark डेटाफ्रेम विकल्प का सुझाव दें df['col'].unique()। मैं एक pyspark डेटाफ़ॉर्म कॉलम में सभी अद्वितीय मानों को सूचीबद्ध करना चाहता हूं। SQL प्रकार का तरीका नहीं (अलग-अलग मानों के लिए फिर SQL क्वेरी रजिस्टर करें)। इसके अलावा मुझे ज़रूरत नहीं है groupby->countDistinct, इसके बजाय मैं उस …

8
Pyspark डेटाफ़्रेम में कॉलम कैसे हटाएं
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] दो हैं id: bigintऔर मैं एक को हटाना चाहता हूं। मैं कैसे कर सकता हूँ?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.