पंडों: प्रत्येक समूह में माध्य से लापता मूल्यों को भरना

Question 1

यह सीधा होना चाहिए, लेकिन मुझे जो निकटतम चीज़ मिली है वह है यह पोस्ट: पांडा: एक समूह के भीतर लापता मूल्यों को भरना , और मैं अभी भी अपनी समस्या को हल नहीं कर सकता हूं ...।

मान लीजिए कि मेरे पास निम्नलिखित डेटाफ़्रेम हैं

df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3], 'name': ['A','A', 'B','B','B','B', 'C','C','C']})

  name  value
0    A      1
1    A    NaN
2    B    NaN
3    B      2
4    B      3
5    B      1
6    C      3
7    C    NaN
8    C      3

और मैं प्रत्येक "नाम" समूह में माध्य मान के साथ "NaN" भरना चाहता हूँ, अर्थात

      name  value
0    A      1
1    A      1
2    B      2
3    B      2
4    B      3
5    B      1
6    C      3
7    C      3
8    C      3

मुझे यकीन नहीं है कि इसके बाद कहाँ जाना है:

grouped = df.groupby('name').mean()

बहुत बहुत धन्यवाद।

Question 2

उपयोग करने का एक तरीका होगा transform:

>>> df
  name  value
0    A      1
1    A    NaN
2    B    NaN
3    B      2
4    B      3
5    B      1
6    C      3
7    C    NaN
8    C      3
>>> df["value"] = df.groupby("name").transform(lambda x: x.fillna(x.mean()))
>>> df
  name  value
0    A      1
1    A      1
2    B      2
3    B      2
4    B      3
5    B      1
6    C      3
7    C      3
8    C      3

Question 3

`fillna`+ `groupby`+ `transform`+`mean`

यह सहज लगता है:

df['value'] = df['value'].fillna(df.groupby('name')['value'].transform('mean'))

groupby+ transformवाक्य रचना मूल dataframe के सूचकांक को ग्रुपवाइज मतलब मैप करता है। यह लगभग @ DSM के समाधान के बराबर है , लेकिन एक अनाम lambdaफ़ंक्शन को परिभाषित करने की आवश्यकता से बचा जाता है ।

Question 4

@DSM के पास IMO का सही उत्तर है, लेकिन मैं अपने सामान्यीकरण और प्रश्न के अनुकूलन को साझा करना चाहूंगा: कई कॉलम समूह-द्वारा और कई मान स्तंभों के साथ:

df = pd.DataFrame(
    {
        'category': ['X', 'X', 'X', 'X', 'X', 'X', 'Y', 'Y', 'Y'],
        'name': ['A','A', 'B','B','B','B', 'C','C','C'],
        'other_value': [10, np.nan, np.nan, 20, 30, 10, 30, np.nan, 30],
        'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3],
    }
)

... देता है ...

  category name  other_value value
0        X    A         10.0   1.0
1        X    A          NaN   NaN
2        X    B          NaN   NaN
3        X    B         20.0   2.0
4        X    B         30.0   3.0
5        X    B         10.0   1.0
6        Y    C         30.0   3.0
7        Y    C          NaN   NaN
8        Y    C         30.0   3.0

इस सामान्यीकृत मामले में हम categoryऔर के द्वारा समूह बनाना चाहते हैं name, और केवल पर थोपना चाहते हैं value।

इसे निम्नानुसार हल किया जा सकता है:

df['value'] = df.groupby(['category', 'name'])['value']\
    .transform(lambda x: x.fillna(x.mean()))

समूह-दर-खंड में कॉलम सूची पर ध्यान दें, और हम valueसमूह-दर के बाद स्तंभ का चयन करें । यह परिवर्तन केवल उस विशेष स्तंभ पर चलाया जाता है। आप इसे अंत तक जोड़ सकते हैं, लेकिन फिर आप इसे सभी स्तंभों के लिए चलाएंगे, लेकिन अंत में सभी माप स्तंभों को निकाल देंगे। एक मानक SQL क्वेरी प्लानर इसे अनुकूलित करने में सक्षम हो सकता है, लेकिन पांडा (0.19.2) ऐसा करने के लिए प्रतीत नहीं होता है।

डेटासेट बढ़ाकर प्रदर्शन परीक्षण ...

big_df = None
for _ in range(10000):
    if big_df is None:
        big_df = df.copy()
    else:
        big_df = pd.concat([big_df, df])
df = big_df

... पुष्टि करता है कि इससे गति आनुपातिक बढ़ जाती है कि आपको कितने कॉलम लगाने हैं:

import pandas as pd
from datetime import datetime

def generate_data():
    ...

t = datetime.now()
df = generate_data()
df['value'] = df.groupby(['category', 'name'])['value']\
    .transform(lambda x: x.fillna(x.mean()))
print(datetime.now()-t)

# 0:00:00.016012

t = datetime.now()
df = generate_data()
df["value"] = df.groupby(['category', 'name'])\
    .transform(lambda x: x.fillna(x.mean()))['value']
print(datetime.now()-t)

# 0:00:00.030022

अंतिम नोट पर आप आगे भी सामान्यीकरण कर सकते हैं यदि आप एक से अधिक कॉलम लगाना चाहते हैं, लेकिन सभी नहीं:

df[['value', 'other_value']] = df.groupby(['category', 'name'])['value', 'other_value']\
    .transform(lambda x: x.fillna(x.mean()))

Question 5

मैं इसे इस तरह से करूँगा

df.loc[df.value.isnull(), 'value'] = df.groupby('group').value.transform('mean')

Question 6

उपर्युक्त अधिकांश उत्तर "ग्रुपबी" और लापता मूल्यों को भरने के लिए "ट्रांसफ़ॉर्म" का उपयोग करते हैं।

लेकिन मैं उन लापता मूल्यों को भरने के लिए "लागू" के साथ "समूह" का उपयोग करना पसंद करता हूं जो मेरे लिए अधिक सहज हैं।

>>> df['value']=df.groupby('name')['value'].apply(lambda x:x.fillna(x.mean()))
>>> df.isnull().sum().sum()
    0

शॉर्टकट: ग्रुपबी + अप्लाई / लैम्ब्डा + फिलना + मीन

यह समाधान अभी भी काम करता है यदि आप लापता मानों को बदलने के लिए कई कॉलमों द्वारा समूह बनाना चाहते हैं।

     >>> df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, np.nan,np.nan, 4, 3], 
    'name': ['A','A', 'B','B','B','B', 'C','C','C'],'class':list('ppqqrrsss')})  

     >>> df
   value name   class
0    1.0    A     p
1    NaN    A     p
2    NaN    B     q
3    2.0    B     q
4    3.0    B     r
5    NaN    B     r
6    NaN    C     s
7    4.0    C     s
8    3.0    C     s

>>> df['value']=df.groupby(['name','class'])['value'].apply(lambda x:x.fillna(x.mean()))

>>> df
        value name   class
    0    1.0    A     p
    1    1.0    A     p
    2    2.0    B     q
    3    2.0    B     q
    4    3.0    B     r
    5    3.0    B     r
    6    3.5    C     s
    7    4.0    C     s
    8    3.0    C     s

Question 7

विशेष रुप से उच्च रैंक वाला उत्तर केवल दो कॉलम के साथ एक पांडा डेटाफ्रेम के लिए काम करता है। यदि आपके पास इसके बजाय अधिक स्तंभ केस का उपयोग है:

df['Crude_Birth_rate'] = df.groupby("continent").Crude_Birth_rate.transform(
    lambda x: x.fillna(x.mean()))

Question 8

def groupMeanValue(group):
    group['value'] = group['value'].fillna(group['value'].mean())
    return group

dft = df.groupby("name").transform(groupMeanValue)

Question 9

df.fillna(df.groupby(['name'], as_index=False).mean(), inplace=True)

Question 10

आप भी इस्तेमाल कर सकते हैं "dataframe or table_name".apply(lambda x: x.fillna(x.mean()))।

पंडों: प्रत्येक समूह में माध्य से लापता मूल्यों को भरना

fillna+ groupby+ transform+mean

`fillna`+ `groupby`+ `transform`+`mean`