apache-spark पर टैग किए गए जवाब

अपाचे स्पार्क एक खुला स्रोत वितरित डेटा प्रोसेसिंग इंजन है जो स्काला में लिखा गया है जो एक एकीकृत एपीआई और उपयोगकर्ताओं को डेटा सेट वितरित करता है। अपाचे स्पार्क के लिए मामलों का उपयोग अक्सर मशीन / गहरी सीखने, ग्राफ प्रसंस्करण से संबंधित होता है।

3
कैसे काम करता है HashPartitioner?
मैं के प्रलेखन पर पढ़ा HashPartitioner। दुर्भाग्य से एपीआई कॉल के अलावा ज्यादा कुछ नहीं बताया गया था। मैं इस धारणा के तहत हूं कि HashPartitionerकुंजी के हैश के आधार पर वितरित सेट विभाजन। उदाहरण के लिए अगर मेरा डेटा पसंद है (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) इसलिए विभाजनकर्ता …

1
किस स्थिति में मैं अपाचे स्पार्क के बजाय मास्क का उपयोग कर सकता हूं? [बन्द है]
बंद हो गया । यह सवाल राय आधारित है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि इस पोस्ट को संपादित करके तथ्यों और उद्धरणों के साथ उत्तर दिया जा सके । 4 साल पहले बंद हुआ …

15
PyCharm को PySpark से कैसे लिंक करें?
मैं अपाचे स्पार्क के साथ नया हूँ और जाहिरा तौर पर मैंने अपनी मैकबुक में होमब्रे के साथ अपाचे-स्पार्क स्थापित किया है: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type "help", …

6
Pyspark स्ट्रिंग को दिनांक स्वरूप में परिवर्तित करें
मेरे पास एक स्ट्रिंग कॉलम के साथ एक डेट पीस्पार्क डेटाफ्रेम है MM-dd-yyyyऔर मैं इसे डेट कॉलम में परिवर्तित करने का प्रयास कर रहा हूं। मैंने कोशिश की: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() और मुझे एक नल मिलता है। क्या कोई मदद कर सकता है?

8
Java.lang.OutOfMemoryError को कैसे रोकें: स्काला संकलन में पर्मजेन स्पेस?
मैंने अपने स्कैला संकलक के एक अजीब व्यवहार पर ध्यान दिया है। यह कभी-कभी एक वर्ग का संकलन करते समय एक OutOememoryError को फेंक देता है। यहाँ त्रुटि संदेश है: [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes... java.lang.OutOfMemoryError: PermGen space Error during sbt execution: java.lang.OutOfMemoryError: PermGen space यह केवल एक …

5
सड़कों की औसत गति की गणना करें [बंद]
बंद हो गया । इस प्रश्न पर अधिक ध्यान देने की आवश्यकता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह इस पोस्ट को संपादित करके केवल एक समस्या पर केंद्रित हो । 3 दिन पहले …

2
गतिरोध जब कई स्पार्क नौकरियां समवर्ती रूप से निर्धारित होती हैं
स्पार्क 2.4.4 स्पार्क फीफो शेड्यूलर के साथ YARN क्लस्टर मोड में चल रहा है। मैं थ्रेड्स के एक वेरिएबल नंबर के साथ थ्रेड पूल निष्पादक का उपयोग करके कई स्पार्क डेटाफ़्रेम ऑपरेशन (यानी S3 में डेटा लिखना) सबमिट कर रहा हूं। यह ठीक काम करता है अगर मेरे पास ~ …

2
स्पार्क: पायथन ने मेरे उपयोग के मामले में स्कैला को काफी बेहतर बना दिया है?
पायथन और स्काला का उपयोग करते समय स्पार्क के प्रदर्शन की तुलना करने के लिए मैंने दोनों भाषाओं में समान नौकरी बनाई और रनटाइम की तुलना की। मुझे उम्मीद थी कि दोनों नौकरियों में लगभग समान समय लगेगा, लेकिन पायथन की नौकरी में केवल इतना ही 27minसमय लगा , जबकि …

1
Pyspark df से PostgresSQL के लिए 50 लाख से अधिक लेखन, सबसे अच्छा कुशल दृष्टिकोण
स्पार्क डेटाफ्रेम से पोस्टग्रैब टेबल्स में 50 मिलियन रिकॉर्ड के लाखों रिकॉर्ड डालने का सबसे कुशल तरीका क्या होगा। मैंने पिछले दिनों बल्क कॉपी और बैच साइज ऑप्शन का उपयोग करके स्पार्क से MSSQL तक किया है जो सफल भी रहा। क्या ऐसा ही कुछ है जो यहाँ पोस्टग्रेज के …

3
कैसे टाइप करें 'टाइपर्रर: एक पूर्णांक आवश्यक है (टाइप बाइट्स)' त्रुटि जब स्पाइस 2.4.4 को स्पार्क करने के बाद pyspark चलाने की कोशिश कर रहा है
मैंने OpenJDK 13.0.1 और अजगर 3.8 और स्पार्क 2.4.4 स्थापित किया है। इंस्टॉलेशन का परीक्षण करने के निर्देश स्पार्क इंस्टॉलेशन की जड़ से चलाने के लिए। \ Bin \ pyspark है। मुझे यकीन नहीं है कि अगर मैं स्पार्क इंस्टॉलेशन में एक कदम चूक गया, जैसे कुछ पर्यावरण चर स्थापित …

1
पांडासुडीएफ और पायरो 0.15.0
मैंने हाल ही में pysparkEMR क्लस्टर्स पर कई नौकरियों में त्रुटियों का एक समूह शुरू किया है । इरोस हैं java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... वे …

1
अपाचे स्पार्क: किसी ज्वाइन पर रिपर्टिशनिंग, सॉर्टिंग और कैशिंग का प्रभाव
मैं खुद एक टेबल से जुड़ने पर स्पार्क के व्यवहार का पता लगा रहा हूं। मैं डेटाब्रिक्स का उपयोग कर रहा हूं। मेरा डमी परिदृश्य है: डेटाफ़्रेम ए के रूप में एक बाहरी तालिका पढ़ें (अंतर्निहित फाइलें डेल्टा प्रारूप में हैं) डेटाफ्रेम ए के रूप में डेटाफ्रेम बी को केवल …

3
पंडों को पायथन फंक्शन लागू करना डेटाफ़्रेम को समूहीकृत करना - संगणना को गति देने के लिए सबसे कुशल दृष्टिकोण क्या है?
मैं काफी बड़े पंडों के डेटाफ़्रेम के साथ काम कर रहा हूँ - मेरा डेटासेट निम्नलिखित dfसेटअप जैसा दिखता है : import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 …

1
स्पार्क: यूडीएफ को कई बार निष्पादित किया गया
मेरे पास निम्नलिखित कोड के साथ एक डेटाफ्रेम है: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) अब लॉग की जांच करते हुए, मुझे पता चला कि प्रत्येक …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.