मेरे पास एक डेटाफ्रेम है df
, जिसमें दो कॉलम हैं: स्क्रिप्ट (पाठ के साथ) और स्पीकर
Script Speaker
aze Speaker 1
art Speaker 2
ghb Speaker 3
jka Speaker 1
tyc Speaker 1
avv Speaker 2
bhj Speaker 1
और मेरे पास निम्न सूची है: L = ['a','b','c']
निम्नलिखित कोड के साथ,
df = (df.set_index('Speaker')['Script'].str.findall('|'.join(L))
.str.join('|')
.str.get_dummies()
.sum(level=0))
print (df)
मैं यह डेटाफ़्रेम प्राप्त करता हूं df2
:
Speaker a b c
Speaker 1 2 1 1
Speaker 2 2 0 0
Speaker 3 0 1 0
अपने डेटाफ़्रेम की प्रत्येक पंक्ति df2
, स्पीकर द्वारा बोली जाने वाली सभी पंक्तियों का प्रतिशत मान, निम्नलिखित डेटाफ़्रेम प्राप्त करने के लिए मैं किस कोड को जोड़ सकता हूं df3
:
Speaker a b c
Speaker 1 50% 25% 25%
Speaker 2 100% 0 0
Speaker 3 0 100% 0