apache-spark पर टैग किए गए जवाब

अपाचे स्पार्क एक खुला स्रोत वितरित डेटा प्रोसेसिंग इंजन है जो स्काला में लिखा गया है जो एक एकीकृत एपीआई और उपयोगकर्ताओं को डेटा सेट वितरित करता है। अपाचे स्पार्क के लिए मामलों का उपयोग अक्सर मशीन / गहरी सीखने, ग्राफ प्रसंस्करण से संबंधित होता है।

12
java.io.IOException: Hadoop बायनेरिज़ में निष्पादन योग्य null \ bin \ winutils.exe का पता नहीं लगा सका। खिड़कियों पर स्पार्क ग्रहण 7
मैं (मावेन स्पार्क प्रोजेक्ट) sparkमें एक साधारण नौकरी नहीं चला पा रहा हूँScala IDEWindows 7 स्पार्क कोर निर्भरता को जोड़ा गया है। val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() त्रुटि: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 …

5
अपाचे स्पार्क: पायथन 3 के साथ पिसपार्क का उपयोग कैसे करें
मैंने GH विकास मास्टर से स्पार्क 1.4 का निर्माण किया, और निर्माण ठीक से गुजरा। लेकिन जब मैं करता bin/pysparkहूं मुझे पायथन 2.7.9 संस्करण मिलता है। मेरे द्वारा इसे कैसे बदला जा सकता है?


5
Spark DataFrame GroupBy और अवरोही क्रम में क्रमबद्ध करें (pyspark)
मैं pyspark (Python 2.7.9 / Spark 1.3.1) का उपयोग कर रहा हूं और एक डेटाफ्रेम GroupObject है जिसे मुझे अवरोही क्रम में फ़िल्टर करने और सॉर्ट करने की आवश्यकता है। कोड के इस टुकड़े के माध्यम से इसे प्राप्त करने की कोशिश कर रहा है। group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) लेकिन …

12
मैक स्पार्क-शेल त्रुटि SparkContext को शुरू करने में
मैंने Mac OS Yosemite 10.50.5 का उपयोग करके स्पार्क 1.6.0 (स्पार्क-1.6.0-बिन-हडूप 2.4) शुरू करने की कोशिश की। "./bin/spark-shell". इसके नीचे त्रुटि है। मैंने स्पार्क के विभिन्न संस्करणों को स्थापित करने की भी कोशिश की, लेकिन सभी में एक ही त्रुटि है। यह दूसरी बार है जब मैं स्पार्क चला रहा …


18
मैं स्पार्क में ड्राइवर के पायथन संस्करण को कैसे सेट करूं?
मैं स्पार्क 1.4.0-आरसी 2 का उपयोग कर रहा हूं, इसलिए मैं स्पार्क के साथ अजगर 3 का उपयोग कर सकता हूं। अगर मैं export PYSPARK_PYTHON=python3अपनी .bashrc फ़ाइल में जोड़ता हूं, तो मैं स्पार्क इंटरलिंक रूप से अजगर के साथ चला सकता हूं 3. हालांकि, अगर मैं स्थानीय मोड में स्टैंडअलोन …

9
अपाचे स्पार्क में सूची के रूप में डेटाफ्रेम के कॉलम मान निकालें
मैं डेटा फ्रेम के एक स्ट्रिंग कॉलम को एक सूची में बदलना चाहता हूं। मुझे DataframeAPI से क्या मिल सकता है RDD है, इसलिए मैंने इसे पहले RDD में बदलने की कोशिश की, और फिर toArrayRDD में फ़ंक्शन लागू किया । इस स्थिति में, लंबाई और SQL ठीक काम करते …

8
स्पार्क जॉब्स org.apache.spark.shuffle.etadataFetchFailedException के साथ विफल क्यों होते हैं: अटकलें मोड में फेरबदल 0 के लिए आउटपुट स्थान गुम?
मैं एक स्पार्क मोड के साथ स्पार्क जॉब चला रहा हूं। मेरे पास लगभग 500 कार्य हैं और 1 GB gz की लगभग 500 फाइलें संपीड़ित हैं। मैं प्रत्येक कार्य में 1-2 कार्यों के लिए संलग्न रहता हूं, संलग्न त्रुटि जहां यह बाद में दर्जनों बार पुन: चलाता है (काम …

11
Hive को सीधे DataFrame कैसे बचाएं?
क्या DataFrameस्पाइव में सीधे स्पार्क में बचाना संभव है ? मैंने एक पाठ फ़ाइल के रूप में परिवर्तित DataFrameकरने Rddऔर फिर बचत करने और फिर हाइव में लोड करने की कोशिश की है । लेकिन मैं सोच रहा हूं कि क्या मैं सीधे dataframeछत्ता बचा सकता हूं

2
कैसे चिंगारी निष्पादक संख्या, कोर और निष्पादक मेमोरी ट्यून करें?
आप उपर्युक्त पारामों की धुन कहाँ से शुरू करते हैं। क्या हम निष्पादक मेमोरी से शुरू करते हैं और निष्पादक की संख्या प्राप्त करते हैं, या हम कोर से शुरू करते हैं और निष्पादक संख्या प्राप्त करते हैं। मैंने लिंक का अनुसरण किया । हालांकि एक उच्च स्तरीय विचार मिला, …

8
स्पार्क नौकरी के लिए -D पैरामीटर या पर्यावरण चर कैसे पारित करें?
मैं देव / ठेस के माहौल में स्पार्क जॉब के टाइपसैफ कॉन्फिगर को बदलना चाहता हूं । यह मुझे लगता है कि इसे पूरा करने का सबसे आसान तरीका है -Dconfig.resource=ENVNAMEनौकरी पास करना। फिर टाइपसेफ कॉन्फिगर लाइब्रेरी मेरे लिए काम करेगी। क्या उस विकल्प को सीधे नौकरी में पास करने …

8
Pyspark डेटाफ़्रेम में कॉलम कैसे हटाएं
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] दो हैं id: bigintऔर मैं एक को हटाना चाहता हूं। मैं कैसे कर सकता हूँ?

1
बैच प्रोसेसिंग के लिए स्पार्क / फ्लिंक पर अपाचे बीम के क्या लाभ हैं?
अपाचे बीम कई रनर बैकएंड का समर्थन करता है, जिसमें अपाचे स्पार्क और फ्लिंक शामिल हैं। मैं स्पार्क / फ्लिंक से परिचित हूं और बैच प्रोसेसिंग के लिए बीम के पेशेवरों / विपक्षों को देखने की कोशिश कर रहा हूं। बीम शब्द गणना उदाहरण को देखते हुए , यह महसूस …

11
स्पार्क त्रुटि - असमर्थित वर्ग फ़ाइल प्रमुख संस्करण
मैं अपने मैक पर स्पार्क स्थापित करने की कोशिश कर रहा हूं। मैंने स्पार्क 2.4.0 और स्केला को स्थापित करने के लिए होम-ब्रुअ का उपयोग किया है। मैंने अपने एनाकोंडा वातावरण में PySpark को स्थापित किया है और विकास के लिए PyCharm का उपयोग कर रहा हूं। मैंने अपना बैश …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.