apache-spark पर टैग किए गए जवाब

अपाचे स्पार्क एक खुला स्रोत वितरित डेटा प्रोसेसिंग इंजन है जो स्काला में लिखा गया है जो एक एकीकृत एपीआई और उपयोगकर्ताओं को डेटा सेट वितरित करता है। अपाचे स्पार्क के लिए मामलों का उपयोग अक्सर मशीन / गहरी सीखने, ग्राफ प्रसंस्करण से संबंधित होता है।

19
अजगर के खोल में pyspark आयात करना
यह किसी अन्य फोरम पर किसी और के प्रश्न की एक प्रति है, जिसका कभी उत्तर नहीं दिया गया था, इसलिए मैंने सोचा कि मैं इसे फिर से पूछूंगा, क्योंकि मेरे पास एक ही मुद्दा है। (देखें http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) मैंने स्पार्क को अपनी मशीन पर ठीक से स्थापित किया है …

12
स्पार्क के साथ CSV फ़ाइल लोड करें
मैं स्पार्क के लिए नया हूं और मैं स्पार्क के साथ एक फाइल से सीएसवी डेटा को पढ़ने की कोशिश कर रहा हूं। यहाँ मैं क्या कर रहा हूँ: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() मुझे उम्मीद है कि इस कॉल से मुझे अपनी फ़ाइल के पहले दो कॉलमों की …

13
स्पार्क-सीएसवी का उपयोग करके एकल सीएसवी फ़ाइल लिखें
मैं https://github.com/databricks/spark-csv का उपयोग कर रहा हूं, मैं एक एकल CSV लिखने की कोशिश कर रहा हूं, लेकिन सक्षम नहीं है, यह एक फ़ोल्डर बना रहा है। एक स्कैला फ़ंक्शन की आवश्यकता है जो पथ और फ़ाइल नाम जैसे पैरामीटर लेगा और उस CSV फ़ाइल को लिखेगा।

8
स्पार्क में आउटपुट डायरेक्टरी को ओवरराइट कैसे करें
मेरे पास एक स्पार्क स्ट्रीमिंग एप्लिकेशन है जो हर मिनट के लिए डेटासेट बनाता है। मुझे संसाधित डेटा के परिणामों को सहेजने / अधिलेखित करने की आवश्यकता है। जब मैंने डेटासेट को अधिलेखित करने की कोशिश की। org.apache.hadoop.mapred.FileAlreadyExistsException निष्पादन बंद कर देता है। मैंने स्पार्क संपत्ति निर्धारित की set("spark.files.overwrite","true"), लेकिन …
107 apache-spark 

8
चिंगारी DataFrame कॉलम को अजगर सूची में बदलें
मैं दो कॉलम, mvv और काउंट के साथ एक डेटाफ्रेम पर काम करता हूं। +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | मैं दो लिस्ट प्राप्त करना चाहूँगा जिसमें mvv मान और काउंट वैल्यू शामिल …

4
स्पार्क किल रनिंग एप्लीकेशन
मेरे पास एक रनिंग स्पार्क एप्लिकेशन है जहां यह उन सभी कोर पर कब्जा कर लेता है जहां मेरे अन्य एप्लिकेशन को कोई संसाधन आवंटित नहीं किया जाएगा। मैंने कुछ त्वरित शोध किया और लोगों ने कमांड को मारने के लिए YARN किल या / बिन / स्पार्क-क्लास का उपयोग …

14
अगर स्पार्क डेटाफ्रेम खाली है तो कैसे जांचें?
अभी, मुझे यह df.count > 0जांचने के लिए उपयोग करना है कि DataFrameक्या खाली है या नहीं। लेकिन यह एक तरह से अक्षम है। क्या ऐसा करने का कोई बेहतर तरीका है? धन्यवाद। पुनश्च: मैं यह देखना चाहता हूं कि क्या यह खाली है ताकि मैं केवल खाली होने पर …

14
HDFS के बजाय sc.textFile में स्थानीय फ़ाइल को कैसे लोड करें
मैं महान स्पार्क ट्यूटोरियल का अनुसरण कर रहा हूं इसलिए मैं 46 मी पर कोशिश कर रहा हूं: 00s लोड करने के लिए, README.mdलेकिन जो मैं कर रहा हूं वह यह करने में विफल है: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# …

5
कैसे एक टाइपफ़ॉर्म कॉलम को स्ट्रिंग टाइप से डबल टाइप में pyspark में बदलें
मेरे पास स्ट्रिंग के रूप में कॉलम के साथ एक डेटाफ्रेम है। मैं स्तंभ प्रकार को PySpark में डबल प्रकार में बदलना चाहता था। निम्नलिखित तरीका है, मैंने किया: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) बस जानना चाहता था, क्या यह सही तरीका है कि लॉजिस्टिक रिग्रेशन से …

10
कोई भी मान से Pyspark डेटाफ़ॉर्म कॉलम फ़िल्टर नहीं करें
मैं एक PySpark डेटाफ़्रेम को फ़िल्टर करने का प्रयास कर रहा हूं Noneजिसमें पंक्ति मूल्य है: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] और मैं एक स्ट्रिंग मान के साथ सही ढंग से फ़िल्टर कर सकता हूं: df[df.dt_mvmt == '2016-03-31'] # some results here लेकिन यह विफल रहता है: df[df.dt_mvmt …

7
एक निर्दिष्ट स्कीमा के साथ एक खाली डेटाफ़्रेम कैसे बनाएं?
मैं DataFrameस्काला में एक निर्दिष्ट स्कीमा के साथ बनाना चाहता हूं । मैंने JSON रीड (मेरा मतलब खाली फ़ाइल पढ़ने का है) का उपयोग करने की कोशिश की है, लेकिन मुझे नहीं लगता कि यह सबसे अच्छा अभ्यास है।

10
विंडोज पर स्पार्क कैसे सेट करें?
मैं अपाचे स्पार्क को विंडोज पर सेटअप करने की कोशिश कर रहा हूं। थोड़ा खोजने के बाद, मैं समझता हूं कि स्टैंडअलोन मोड वही है जो मैं चाहता हूं। खिड़कियों में अपाचे स्पार्क को चलाने के लिए मुझे कौन सी बायनेरी डाउनलोड करनी है? मैं स्पार्क डाउनलोड पेज पर हडूप …

6
स्पार्क स्काला में डेटाफ़्रेम का नाम बदलना कॉलम नाम
मैं DataFrameस्पार्क-स्काला के सभी हेडर / कॉलम नामों को बदलने की कोशिश कर रहा हूं । अब तक मैं निम्नलिखित कोड के साथ आता हूं जो केवल एक कॉलम नाम की जगह लेता है। for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

14
स्पार्क - त्रुटि "एक मास्टर URL आपके कॉन्फ़िगरेशन में सेट किया जाना चाहिए" जब एक एप्लिकेशन सबमिट करें
मेरे पास एक स्पार्क ऐप है जो स्थानीय मोड में कोई समस्या नहीं है, लेकिन स्पार्क क्लस्टर में जमा करते समय कुछ समस्याएं हैं। त्रुटि संदेश इस प्रकार हैं: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at …


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.