pyspark डेटाफ़्रेम में अलग कॉलम मान दिखाएं: अजगर

Question 1

कृपया पंडों के लिए pyspark डेटाफ्रेम विकल्प का सुझाव दें df['col'].unique()।

मैं एक pyspark डेटाफ़ॉर्म कॉलम में सभी अद्वितीय मानों को सूचीबद्ध करना चाहता हूं।

SQL प्रकार का तरीका नहीं (अलग-अलग मानों के लिए फिर SQL क्वेरी रजिस्टर करें)।

इसके अलावा मुझे ज़रूरत नहीं है groupby->countDistinct, इसके बजाय मैं उस कॉलम में अलग-अलग वैल्यूज़ चेक करना चाहता हूँ।

Question 2

मान लें कि हम डेटा के निम्नलिखित प्रतिनिधित्व के साथ काम कर रहे हैं (दो कॉलम, kऔर v, kजिसमें तीन प्रविष्टियाँ हैं, दो अद्वितीय हैं:

+---+---+
|  k|  v|
+---+---+
|foo|  1|
|bar|  2|
|foo|  3|
+---+---+

पंडों के डेटाफ्रेम के साथ:

import pandas as pd
p_df = pd.DataFrame([("foo", 1), ("bar", 2), ("foo", 3)], columns=("k", "v"))
p_df['k'].unique()

यह एक रिटर्न ndarray(यानी)array(['foo', 'bar'], dtype=object)

आपने "pasas df ['col'] के लिए" pyspark dataframe विकल्प "के लिए कहा है। अद्वितीय ()"। अब, निम्नलिखित स्पार्क डेटाफ्रेम दिया गया है:

s_df = sqlContext.createDataFrame([("foo", 1), ("bar", 2), ("foo", 3)], ('k', 'v'))

यदि आप स्पार्क से एक ही परिणाम चाहते हैं , अर्थात ndarray, का उपयोग करें toPandas():

s_df.toPandas()['k'].unique()

वैकल्पिक रूप से, यदि आपको ndarrayविशेष रूप से और केवल कॉलम के अनूठे मूल्यों की सूची की आवश्यकता नहीं है k:

s_df.select('k').distinct().rdd.map(lambda r: r[0]).collect()

अंत में, आप निम्नानुसार एक सूची समझ का उपयोग भी कर सकते हैं:

[i.k for i in s_df.select('k').distinct().collect()]

Question 3

इससे स्तंभ के अलग-अलग मान प्राप्त करने में मदद मिलेगी:

df.select('column1').distinct().collect()

ध्यान दें कि .collect()कोई भी अंतर्निहित सीमा नहीं है कि कितने मान वापस आ सकते हैं ताकि यह धीमा हो सकता है - .show()इसके बजाय इसका उपयोग करें या इसे प्रबंधित करने से .limit(20)पहले जोड़ें .collect()।

Question 4

आप df.dropDuplicates(['col1','col2'])सरणी में कॉलएक्स पर आधारित केवल अलग पंक्तियों को प्राप्त करने के लिए उपयोग कर सकते हैं ।

Question 5

संग्रह_सेट किसी दिए गए कॉलम pyspark.sql.DataFrame से अद्वितीय मान प्राप्त करने में मदद कर सकता है df.select(F.collect_set("column").alias("column")).first()["column"]

Question 6

यदि आप सभी (कॉलम) डेटा को अलग-अलग फ्रॉम के रूप में चुनना चाहते हैं तो डेटाफ्रैम (डीएफ), फिर

df.select('*').distinct().show(10,truncate=False)

Question 7

तुम यह कर सकते थे

distinct_column = 'somecol' 

distinct_column_vals = df.select(distinct_column).distinct().collect()
distinct_column_vals = [v[distinct_column] for v in distinct_column_vals]

Question 8

dropDuplicatesविकल्प के अलावा वहाँ विधि है जिसका नाम हम इसे जानते हैं :pandas drop_duplicates

drop_duplicates () के लिए एक उपनाम है dropDuplicates () ।

उदाहरण

s_df = sqlContext.createDataFrame([("foo", 1),
                                   ("foo", 1),
                                   ("bar", 2),
                                   ("foo", 3)], ('k', 'v'))
s_df.show()

+---+---+
|  k|  v|
+---+---+
|foo|  1|
|foo|  1|
|bar|  2|
|foo|  3|
+---+---+

सबसेट द्वारा ड्रॉप

s_df.drop_duplicates(subset = ['k']).show()

+---+---+
|  k|  v|
+---+---+
|bar|  2|
|foo|  1|
+---+---+
s_df.drop_duplicates().show()


+---+---+
|  k|  v|
+---+---+
|bar|  2|
|foo|  3|
|foo|  1|
+---+---+

Question 9

इसे पहले चलाओ

df.createOrReplaceTempView('df')

फिर भागो

spark.sql("""
    SELECT distinct
        column name
    FROM
        df
    """).show()

Question 10

यदि आप अपने डेटाफ़्रेम में किसी विशिष्ट कॉलम के अलग-अलग मूल्यों को देखना चाहते हैं, तो आपको बस लिखने की आवश्यकता होगी -

    df.select('colname').distinct().show(100,False)

यह df डेटाफ़्रेम में colname कॉलम के लिए 100 अलग-अलग मान (यदि 100 मान उपलब्ध हैं) दिखाएगा।

यदि आप अलग-अलग मूल्यों पर कुछ करना चाहते हैं, तो आप एक वेक्टर में अलग-अलग मूल्यों को बचा सकते हैं

    a = df.select('colname').distinct()

यहाँ, कॉलम कॉलम के सभी विशिष्ट मान होंगे