प्रोग्रामिंग dataframe

5

डेटा को 3 सेटों में कैसे विभाजित करें (ट्रेन, सत्यापन और परीक्षण)?

मेरे पास एक पांडा डेटाफ़्रेम है और मैं इसे 3 अलग-अलग सेटों में विभाजित करना चाहता हूं। मुझे पता है कि का उपयोग कर train_test_split से sklearn.cross_validation, एक दो सेट (ट्रेन और परीक्षण) में डेटा विभाजित कर सकते हैं। हालाँकि, मुझे डेटा को तीन सेटों में विभाजित करने के बारे …

146 pandas numpy dataframe machine-learning scikit-learn

2

पंडों में पंक्तियों का चयन करें MultiIndex DataFrame

डेटाफ़्रेम की पंक्तियों का चयन / फ़िल्टर करने के लिए सबसे सामान्य पांडा तरीके क्या हैं जिनका सूचकांक एक मल्टीएंडेक्स है ? एकल मूल्य / लेबल के आधार पर स्लाइसिंग एक या अधिक स्तरों से कई लेबल पर आधारित स्लाइसिंग बूलियन स्थितियों और अभिव्यक्तियों पर फ़िल्टरिंग कौन से तरीके किन …

146 python pandas dataframe slice multi-index

7

पंडों डेटाफ्रेम फिलना () केवल कुछ कॉलमों के स्थान पर

मैं पंडों के डेटाफ्रेम में 0 के साथ कॉलम के केवल कुछ सबसेट के लिए कोई भी मान भरने की कोशिश नहीं कर रहा हूं। जब मैं करता हूं: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df उत्पादन: a b c 0 1.0 4.0 NaN …

145 python pandas dataframe

8

प्रत्येक समूह की पहली पंक्ति का चयन कैसे करें?

मेरे पास निम्नानुसार एक DataFrame उत्पन्न है: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) परिणाम इस तरह दिखते हैं: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| …

144 sql scala apache-spark dataframe apache-spark-sql

7

कैसे पता लगाएं कि पंडों के डेटाफ्रेम में कौन से कॉलम में कोई NaN मान है

एक पंडों के डेटाफ्रेम को देखते हुए संभावित NaN मान यहां और वहां बिखरे हुए हैं: प्रश्न: मैं कैसे निर्धारित करूं कि किन कॉलमों में NaN मान है? विशेष रूप से, क्या मैं NaNs वाले स्तंभ नामों की सूची प्राप्त कर सकता हूं?

144 python pandas dataframe nan

6

एक श्रृंखला के रूप में पंडों का पहला कॉलम DataFrame कैसे प्राप्त करें?

मैंने कोशिश की: x=pandas.DataFrame(...) s = x.take([0], axis=1) और sएक सीरीज नहीं, बल्कि एक DataFrame मिलता है।

142 python dataframe pandas series

14

एक कॉलम में NA मानों की संख्या निर्धारित करें

मैं NAडेटा फ़्रेम कॉलम में मानों की संख्या गिनना चाहता हूं । कहते हैं कि मेरा डेटा फ्रेम कहा जाता है df, और मैं जिस कॉलम पर विचार कर रहा हूं उसका नाम है col। मैं जिस तरह से आया हूं वह निम्नलिखित है: sapply(df$col, function(x) sum(length(which(is.na(x))))) क्या ऐसा करने …

142 r dataframe

8

पंडों का नाम बदलें DataFrame Index

मैं एक हेडर के बिना एक सीएसवी फ़ाइल हूँ, डेटाइम इंडेक्स के साथ। मैं सूचकांक और स्तंभ नाम का नाम बदलना चाहता हूं, लेकिन df.rename () के साथ केवल स्तंभ नाम का नाम बदला गया है। बग? मैं 0.12.0 संस्करण पर हूं In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] …

142 python pandas dataframe

9

पांडा डेटाफ़्रेम में पूर्ववर्ती मानों को बदलकर NaN कैसे बदलें?

मान लीजिए कि मेरे पास कुछ NaNs के साथ एक DataFrame है : >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 मुझे जो करने …

140 python python-3.x pandas dataframe nan

3

कैसे एक डेटा बचाने के लिए। R में?

मैंने R में एक data.frame बनाया है जो बहुत बड़ा नहीं है, लेकिन इसे बनाने में काफी समय लगता है। मैं इसे एक फ़ाइल के रूप में सहेजना चाहूंगा, जिसे मैं आर में फिर से खोल सकता हूं?

137 r dataframe

2

Spark DataFrame में एक स्थिर कॉलम कैसे जोड़ें?

मैं DataFrameकुछ मनमाने मूल्य (जो प्रत्येक पंक्ति के लिए समान है) के साथ एक कॉलम जोड़ना चाहता हूं । जब मैं withColumnनिम्नानुसार एक त्रुटि प्राप्त करता हूं : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 …

137 python apache-spark dataframe pyspark apache-spark-sql

7

वह कॉलम ढूंढें जिसके नाम में एक विशिष्ट स्ट्रिंग है

मेरे पास कॉलम नामों के साथ एक डेटाफ्रेम है, और मैं उस एक को ढूंढना चाहता हूं जिसमें एक निश्चित स्ट्रिंग शामिल है, लेकिन यह बिल्कुल मेल नहीं खाता है। मैं के लिए खोज कर रहा हूँ 'spike'स्तंभ नाम की तरह में 'spike-2', 'hey spike', 'spiked-in'( 'spike'हिस्सा हमेशा निरंतर है)। …

137 python python-3.x string pandas dataframe

5

पंडों के डेटाफ्रेम को प्रत्येक समूह की पहली पंक्ति मिलती है

मेरे पास DataFrameनिम्नलिखित की तरह एक पांडा है। df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) मैं इसे ["आईडी", "मूल्य"] द्वारा समूहित करना चाहता हूं और प्रत्येक समूह की पहली पंक्ति प्राप्त करना चाहता हूं। id value 0 1 first 1 1 second 2 1 second 3 …

137 python pandas dataframe

6

पांडा डेटाफ्रेम कॉलम स्केलेन के साथ स्केलिंग करते हैं

मेरे पास मिश्रित प्रकार के स्तंभों के साथ एक पांडा डेटाफ़्रेम है, और मैं कुछ स्तंभों में स्केलेर के min_max_scaler को लागू करना चाहूंगा। आदर्श रूप में, मैं इन परिवर्तनों को जगह में करना चाहूंगा, लेकिन अभी तक ऐसा करने का कोई तरीका नहीं निकला है। मैंने निम्नलिखित कोड लिखा …

137 python pandas scikit-learn dataframe

4

दो पांडा डेटाफ्रेम कॉलम का शब्दकोश बनाने के लिए सबसे कुशल तरीका क्या है?

निम्नलिखित पांडा डेटाफ़्रेम को व्यवस्थित करने का सबसे कुशल तरीका क्या है: डेटा = Position Letter 1 a 2 b 3 c 4 d 5 e जैसे एक शब्दकोश में alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 : 'e']?

136 python dictionary pandas dataframe

dataframe पर टैग किए गए जवाब