मेरे पास एक बड़ी (लगभग 12 M पंक्तियाँ) डेटाफ्रेम df है:
df.columns = ['word','documents','frequency']
तो निम्नलिखित एक समय पर फैशन में भाग गया:
word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']
हालाँकि, इसे चलाने में अप्रत्याशित लंबा समय लग रहा है:
Occurrences_of_Words = word_grouping[['word']].count().reset_index()
मुझसे यहां क्या गलत हो रहा है? क्या एक बड़ी डेटाफ़्रेम में घटनाओं को गिनने का एक बेहतर तरीका है?
df.word.describe()
बहुत अच्छी तरह से दौड़ा, इसलिए मुझे वास्तव में इस निर्माण की उम्मीद नहीं थी कि निर्माण के लिए बहुत लंबा समय लगेगा।
ps: यदि उत्तर स्पष्ट है और आप इस प्रश्न को पूछने के लिए मुझे दंडित करने की आवश्यकता महसूस करते हैं, तो कृपया उत्तर को भी शामिल करें। धन्यवाद।
df.word.value_counts()['myword']रूप में उपवास के बारे में दो बार हैlen(df[df.word == 'myword'])।