प्रोग्रामिंग rdd

15

स्पार्क में डेटाफ्रेम, डेटासेट और आरडीडी के बीच अंतर

मैं बस सोच रहा हूँ एक के बीच अंतर क्या है RDDऔर DataFrame (स्पार्क 2.0.0 DataFrame के लिए एक मात्र प्रकार अन्य नाम है Dataset[Row]) अपाचे स्पार्क में? क्या आप एक को दूसरे में बदल सकते हैं?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

13

स्पार्क - रिपर्टिशन () बनाम कॉलेसस ()

लर्निंग स्पार्क के अनुसार ध्यान रखें कि आपके डेटा को पुन: प्रस्तुत करना एक काफी महंगा ऑपरेशन है। स्पार्क भी की एक अनुकूलित संस्करण है repartition()कहा जाता coalesce()है कि डेटा आंदोलन से बचने की अनुमति देता है, लेकिन केवल तभी जब आप RDD विभाजन की संख्या कम कर रहे हैं। …

254 apache-spark distributed-computing rdd

5

कैश और हठ के बीच अंतर क्या है?

के संदर्भ में RDDदृढ़ता, के बीच मतभेद रहे हैं cache()और persist()चिंगारी में?

202 apache-spark distributed-computing rdd

2

स्काला बनाम पायथन के लिए स्पार्क प्रदर्शन

मैं स्काला के ऊपर अजगर को पसंद करता हूं। लेकिन, जैसा कि स्पार्क को मूल रूप से स्काला में लिखा गया है, मैं स्पष्ट कारणों से अपने कोड को स्काला में पायथन संस्करण की तुलना में तेजी से चलाने की उम्मीद कर रहा था। उस धारणा के साथ, मैंने कुछ …

178 scala performance apache-spark pyspark rdd

5

(क्यों) हमें कैश कॉल करने या RDD पर बने रहने की आवश्यकता है

जब एक लचीला वितरित डेटासेट (RDD) एक टेक्स्ट फ़ाइल या संग्रह (या किसी अन्य RDD) से बनाया जाता है, तो क्या हमें RDD डेटा को मेमोरी में स्टोर करने के लिए "कैश" या "लगातार" स्पष्ट रूप से कॉल करने की आवश्यकता है? या आरडीडी डेटा को डिफॉल्ट रूप से मेमोरी …

171 scala apache-spark rdd

11

स्पर्म में डेटाफ्रेम के लिए आरडीडी ऑब्जेक्ट कैसे कन्वर्ट करें

मैं एक RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) को डेटाफ्रेम में कैसे बदल सकता हूं org.apache.spark.sql.DataFrame। मैंने उपयोग करने के लिए एक डेटाफ़्रेम परिवर्तित किया है .rdd। इसे प्रोसेस करने के बाद मैं इसे डेटाफ्रेम में वापस चाहता हूं। मैं यह कैसे कर सकता हूँ ?

139 scala apache-spark apache-spark-sql rdd

3

अपाचे स्पार्क: मैप बनाम मैपपार्टिशन?

RDD की विधि mapऔर mapPartitionsविधि में क्या अंतर है ? और flatMapव्यवहार करता है mapया पसंद करता है mapPartitions? धन्यवाद। (संपादित करें) यानी अंतर क्या है (या तो शब्दार्थ या निष्पादन के संदर्भ में) def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { …

133 performance scala apache-spark rdd

1

अपाचे स्पार्क वेब यूआई में "स्टेज स्किप्ड" का क्या अर्थ है?

मेरे स्पार्क यूआई से। स्किप होने का क्या मतलब है?

88 apache-spark rdd

3

कैसे काम करता है HashPartitioner?

मैं के प्रलेखन पर पढ़ा HashPartitioner। दुर्भाग्य से एपीआई कॉल के अलावा ज्यादा कुछ नहीं बताया गया था। मैं इस धारणा के तहत हूं कि HashPartitionerकुंजी के हैश के आधार पर वितरित सेट विभाजन। उदाहरण के लिए अगर मेरा डेटा पसंद है (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) इसलिए विभाजनकर्ता …

82 scala apache-spark rdd partitioning

rdd पर टैग किए गए जवाब