पंडों: समय अंतराल से रोलिंग का मतलब है


85

मैं पंडों के लिए नया हूं .... मुझे मतदान डेटा का एक गुच्छा मिला है; मैं तीन दिन की खिड़की के आधार पर प्रत्येक दिन के लिए एक अनुमान प्राप्त करने के लिए एक रोलिंग माध्य की गणना करना चाहता हूं। जैसा कि मैंने इस प्रश्न से समझा , रोलिंग_ * फ़ंक्शन निर्दिष्ट संख्या के आधार पर विंडो की गणना करता है, न कि एक विशिष्ट डेटाइम रेंज।

क्या एक अलग कार्य है जो इस कार्यक्षमता को लागू करता है? या मैं खुद ही लिख रहा हूँ?

संपादित करें:

नमूना इनपुट डेटा:

polls_subset.tail(20)
Out[185]: 
            favorable  unfavorable  other

enddate                                  
2012-10-25       0.48         0.49   0.03
2012-10-25       0.51         0.48   0.02
2012-10-27       0.51         0.47   0.02
2012-10-26       0.56         0.40   0.04
2012-10-28       0.48         0.49   0.04
2012-10-28       0.46         0.46   0.09
2012-10-28       0.48         0.49   0.03
2012-10-28       0.49         0.48   0.03
2012-10-30       0.53         0.45   0.02
2012-11-01       0.49         0.49   0.03
2012-11-01       0.47         0.47   0.05
2012-11-01       0.51         0.45   0.04
2012-11-03       0.49         0.45   0.06
2012-11-04       0.53         0.39   0.00
2012-11-04       0.47         0.44   0.08
2012-11-04       0.49         0.48   0.03
2012-11-04       0.52         0.46   0.01
2012-11-04       0.50         0.47   0.03
2012-11-05       0.51         0.46   0.02
2012-11-07       0.51         0.41   0.00

आउटपुट में प्रत्येक तिथि के लिए केवल एक पंक्ति होगी।

EDIT x2: फिक्स्ड टाइपो


2
इस कार्यक्षमता का अनुरोध करने वाले पंडों बग ट्रैकर में खुला मुद्दा है: github.com/pydata/pandas/issues/936 । कार्यक्षमता अभी तक मौजूद नहीं है। इस प्रश्न का उत्तर वांछित प्रभाव प्राप्त करने का एक तरीका बताता है, लेकिन यह आमतौर पर अंतर्निहित rolling_*कार्यों की तुलना में काफी धीमा होगा ।
ब्रेनबार

जवाबों:


73

इस बीच, एक टाइम-विंडो क्षमता जोड़ी गई थी। इस लिंक को देखें ।

In [1]: df = DataFrame({'B': range(5)})

In [2]: df.index = [Timestamp('20130101 09:00:00'),
   ...:             Timestamp('20130101 09:00:02'),
   ...:             Timestamp('20130101 09:00:03'),
   ...:             Timestamp('20130101 09:00:05'),
   ...:             Timestamp('20130101 09:00:06')]

In [3]: df
Out[3]: 
                     B
2013-01-01 09:00:00  0
2013-01-01 09:00:02  1
2013-01-01 09:00:03  2
2013-01-01 09:00:05  3
2013-01-01 09:00:06  4

In [4]: df.rolling(2, min_periods=1).sum()
Out[4]: 
                       B
2013-01-01 09:00:00  0.0
2013-01-01 09:00:02  1.0
2013-01-01 09:00:03  3.0
2013-01-01 09:00:05  5.0
2013-01-01 09:00:06  7.0

In [5]: df.rolling('2s', min_periods=1).sum()
Out[5]: 
                       B
2013-01-01 09:00:00  0.0
2013-01-01 09:00:02  1.0
2013-01-01 09:00:03  3.0
2013-01-01 09:00:05  3.0
2013-01-01 09:00:06  7.0

यह शीर्ष उत्तर होना चाहिए।
इवान

6
ऑफसेट के लिए दस्तावेज़ीकरण ('2s' की तरह) तर्क rollingयहाँ ले सकते हैं: pandas.pydata.org/pandas-docs/stable/user_guide/…
Guilherme Salomé

2
क्या होगा अगर डेटाफ़्रेम में कई कॉलम हैं; हम विशिष्ट कॉलम कैसे निर्दिष्ट करते हैं?
ब्रेन_ओवरफ्लो

के रूप में सूचकांक सेट @Brain_overflowed
jamfie

इस विधि के साथ min_period विश्वसनीय नहीं लगता है। Min_periods> 1 के लिए, आपको NaN मिल सकता है जहाँ आप टाइमस्टैम्प परिशुद्धता / चर नमूनाकरण दर के कारण उनसे अपेक्षा नहीं करते हैं
अल्बर्ट जेम्स टेडी

50

इस तरह के किसी चीज़ के बारे में क्या:

सबसे पहले 1D अंतराल में डेटा फ्रेम को फिर से खोलें। यह सभी डुप्लिकेट दिनों के लिए मूल्यों का मतलब लेता है। fill_methodअनुपलब्ध दिनांक मानों को भरने के लिए विकल्प का उपयोग करें । इसके बाद, pd.rolling_mean3 और min_periods = 1 की विंडो के साथ पुनर्निर्मित फ्रेम पास करें :

pd.rolling_mean(df.resample("1D", fill_method="ffill"), window=3, min_periods=1)

            favorable  unfavorable     other
enddate
2012-10-25   0.495000     0.485000  0.025000
2012-10-26   0.527500     0.442500  0.032500
2012-10-27   0.521667     0.451667  0.028333
2012-10-28   0.515833     0.450000  0.035833
2012-10-29   0.488333     0.476667  0.038333
2012-10-30   0.495000     0.470000  0.038333
2012-10-31   0.512500     0.460000  0.029167
2012-11-01   0.516667     0.456667  0.026667
2012-11-02   0.503333     0.463333  0.033333
2012-11-03   0.490000     0.463333  0.046667
2012-11-04   0.494000     0.456000  0.043333
2012-11-05   0.500667     0.452667  0.036667
2012-11-06   0.507333     0.456000  0.023333
2012-11-07   0.510000     0.443333  0.013333

अद्यतन : जैसा कि बेन टिप्पणियों में बताते हैं, पांडा 0.18.0 के साथ वाक्यविन्यास बदल गया है । नए सिंटैक्स के साथ यह होगा:

df.resample("1d").sum().fillna(0).rolling(window=3, min_periods=1).mean()

क्षमा करें, पंडों का नवाब, लापता मूल्यों की आपूर्ति करने के लिए नियम के रूप में वास्तव में ffill का क्या उपयोग करता है?
एनोव

1
कुछ भरण विकल्प हैं। ffillआगे भरने के लिए खड़ा है और बस सबसे हाल ही में गैर-लापता मूल्य का प्रचार करता है। इसी तरह bfillबैकवर्ड फिल के लिए, रिवर्स ऑर्डर में समान होता है।
ज़ेलज़नी 7

9
शायद मैं यहां गलत हूं, लेकिन क्या आप एक ही दिन से कई रीडिंग को अनदेखा कर रहे हैं (जब रोलिंग का मतलब है कि आप एक से अधिक वजन उठाने के लिए दो रीडिंग की उम्मीद करेंगे ...)
एंडी हेडन

4
बहुत बढ़िया जवाब। सिर्फ यह देखते हुए कि पांडा 0.18.0 में सिंटैक्स बदल गया । नया वाक्यविन्यास है:df.resample("1D").ffill(limit=0).rolling(window=3, min_periods=1).mean()
बेन

1
पांडा के संस्करण ०.१ in.१ में मूल उत्तर के परिणामों को दोहराने के लिए मैं उपयोग कर रहा हूँ: df.resample("1d").mean().rolling(window=3, min_periods=1).mean()
जॉनी

33

मेरा बस एक ही सवाल था, लेकिन अनियमित रूप से दिए गए डेटापॉइंट के साथ। यहां वास्तव में एक विकल्प नहीं है। इसलिए मैंने अपना खुद का फंक्शन बनाया। शायद यह दूसरों के लिए भी उपयोगी होगा:

from pandas import Series, DataFrame
import pandas as pd
from datetime import datetime, timedelta
import numpy as np

def rolling_mean(data, window, min_periods=1, center=False):
    ''' Function that computes a rolling mean

    Parameters
    ----------
    data : DataFrame or Series
           If a DataFrame is passed, the rolling_mean is computed for all columns.
    window : int or string
             If int is passed, window is the number of observations used for calculating 
             the statistic, as defined by the function pd.rolling_mean()
             If a string is passed, it must be a frequency string, e.g. '90S'. This is
             internally converted into a DateOffset object, representing the window size.
    min_periods : int
                  Minimum number of observations in window required to have a value.

    Returns
    -------
    Series or DataFrame, if more than one column    
    '''
    def f(x):
        '''Function to apply that actually computes the rolling mean'''
        if center == False:
            dslice = col[x-pd.datetools.to_offset(window).delta+timedelta(0,0,1):x]
                # adding a microsecond because when slicing with labels start and endpoint
                # are inclusive
        else:
            dslice = col[x-pd.datetools.to_offset(window).delta/2+timedelta(0,0,1):
                         x+pd.datetools.to_offset(window).delta/2]
        if dslice.size < min_periods:
            return np.nan
        else:
            return dslice.mean()

    data = DataFrame(data.copy())
    dfout = DataFrame()
    if isinstance(window, int):
        dfout = pd.rolling_mean(data, window, min_periods=min_periods, center=center)
    elif isinstance(window, basestring):
        idx = Series(data.index.to_pydatetime(), index=data.index)
        for colname, col in data.iterkv():
            result = idx.apply(f)
            result.name = colname
            dfout = dfout.join(result, how='outer')
    if dfout.columns.size == 1:
        dfout = dfout.ix[:,0]
    return dfout


# Example
idx = [datetime(2011, 2, 7, 0, 0),
       datetime(2011, 2, 7, 0, 1),
       datetime(2011, 2, 7, 0, 1, 30),
       datetime(2011, 2, 7, 0, 2),
       datetime(2011, 2, 7, 0, 4),
       datetime(2011, 2, 7, 0, 5),
       datetime(2011, 2, 7, 0, 5, 10),
       datetime(2011, 2, 7, 0, 6),
       datetime(2011, 2, 7, 0, 8),
       datetime(2011, 2, 7, 0, 9)]
idx = pd.Index(idx)
vals = np.arange(len(idx)).astype(float)
s = Series(vals, index=idx)
rm = rolling_mean(s, window='2min')

क्या आप संबंधित आयातों को शामिल कर सकते हैं?
ब्रायस डे्रनन

क्या आप एक उदाहरण इनपुट डेटाफ़्रेम प्रदान कर सकते हैं जो कि एक समय अंतराल
खिसकाने वाली

मूल पोस्ट में एक उदाहरण जोड़ा गया।
user2689410

5
वही अब प्रयोग किया जा सकता हैs.rolling('2min', min_periods=1).mean()
kampta

8

user2689410 का कोड वही था जो मुझे चाहिए था। मेरा संस्करण (user2689410 को क्रेडिट) प्रदान करना, जो कि डेटाफ़्रेम में संपूर्ण पंक्तियों के लिए एक ही बार में गणना करने के कारण तेज़ है।

आशा है कि मेरे प्रत्यय सम्मेलनों पठनीय हैं: _s: string, _i: int, _b: bool, _ser: Series और _df: DataFrame। जहाँ आपको कई प्रत्यय मिलते हैं, वहाँ दोनों प्रकार हो सकते हैं।

import pandas as pd
from datetime import datetime, timedelta
import numpy as np

def time_offset_rolling_mean_df_ser(data_df_ser, window_i_s, min_periods_i=1, center_b=False):
    """ Function that computes a rolling mean

    Credit goes to user2689410 at http://stackoverflow.com/questions/15771472/pandas-rolling-mean-by-time-interval

    Parameters
    ----------
    data_df_ser : DataFrame or Series
         If a DataFrame is passed, the time_offset_rolling_mean_df_ser is computed for all columns.
    window_i_s : int or string
         If int is passed, window_i_s is the number of observations used for calculating
         the statistic, as defined by the function pd.time_offset_rolling_mean_df_ser()
         If a string is passed, it must be a frequency string, e.g. '90S'. This is
         internally converted into a DateOffset object, representing the window_i_s size.
    min_periods_i : int
         Minimum number of observations in window_i_s required to have a value.

    Returns
    -------
    Series or DataFrame, if more than one column

    >>> idx = [
    ...     datetime(2011, 2, 7, 0, 0),
    ...     datetime(2011, 2, 7, 0, 1),
    ...     datetime(2011, 2, 7, 0, 1, 30),
    ...     datetime(2011, 2, 7, 0, 2),
    ...     datetime(2011, 2, 7, 0, 4),
    ...     datetime(2011, 2, 7, 0, 5),
    ...     datetime(2011, 2, 7, 0, 5, 10),
    ...     datetime(2011, 2, 7, 0, 6),
    ...     datetime(2011, 2, 7, 0, 8),
    ...     datetime(2011, 2, 7, 0, 9)]
    >>> idx = pd.Index(idx)
    >>> vals = np.arange(len(idx)).astype(float)
    >>> ser = pd.Series(vals, index=idx)
    >>> df = pd.DataFrame({'s1':ser, 's2':ser+1})
    >>> time_offset_rolling_mean_df_ser(df, window_i_s='2min')
                          s1   s2
    2011-02-07 00:00:00  0.0  1.0
    2011-02-07 00:01:00  0.5  1.5
    2011-02-07 00:01:30  1.0  2.0
    2011-02-07 00:02:00  2.0  3.0
    2011-02-07 00:04:00  4.0  5.0
    2011-02-07 00:05:00  4.5  5.5
    2011-02-07 00:05:10  5.0  6.0
    2011-02-07 00:06:00  6.0  7.0
    2011-02-07 00:08:00  8.0  9.0
    2011-02-07 00:09:00  8.5  9.5
    """

    def calculate_mean_at_ts(ts):
        """Function (closure) to apply that actually computes the rolling mean"""
        if center_b == False:
            dslice_df_ser = data_df_ser[
                ts-pd.datetools.to_offset(window_i_s).delta+timedelta(0,0,1):
                ts
            ]
            # adding a microsecond because when slicing with labels start and endpoint
            # are inclusive
        else:
            dslice_df_ser = data_df_ser[
                ts-pd.datetools.to_offset(window_i_s).delta/2+timedelta(0,0,1):
                ts+pd.datetools.to_offset(window_i_s).delta/2
            ]
        if  (isinstance(dslice_df_ser, pd.DataFrame) and dslice_df_ser.shape[0] < min_periods_i) or \
            (isinstance(dslice_df_ser, pd.Series) and dslice_df_ser.size < min_periods_i):
            return dslice_df_ser.mean()*np.nan   # keeps number format and whether Series or DataFrame
        else:
            return dslice_df_ser.mean()

    if isinstance(window_i_s, int):
        mean_df_ser = pd.rolling_mean(data_df_ser, window=window_i_s, min_periods=min_periods_i, center=center_b)
    elif isinstance(window_i_s, basestring):
        idx_ser = pd.Series(data_df_ser.index.to_pydatetime(), index=data_df_ser.index)
        mean_df_ser = idx_ser.apply(calculate_mean_at_ts)

    return mean_df_ser

3

यह उदाहरण @yhayden की टिप्पणी में सुझाए गए भारित माध्य के लिए पुकारता हुआ प्रतीत होता है। उदाहरण के लिए, 10/25 पर दो और 10/26 और 10/27 पर एक-एक मतदान होता है। यदि आप बस फिर से शुरू करते हैं और फिर इसका मतलब निकालते हैं, तो यह प्रभावी रूप से 10/26 पर 10/26 और 10/27 पर हुए मतदान की तुलना में दोगुना होता है।

प्रत्येक दिन के बराबर वजन के बजाय प्रत्येक पोल को बराबर वजन देने के लिए , आप निम्नलिखित की तरह कुछ कर सकते हैं।

>>> wt = df.resample('D',limit=5).count()

            favorable  unfavorable  other
enddate                                  
2012-10-25          2            2      2
2012-10-26          1            1      1
2012-10-27          1            1      1

>>> df2 = df.resample('D').mean()

            favorable  unfavorable  other
enddate                                  
2012-10-25      0.495        0.485  0.025
2012-10-26      0.560        0.400  0.040
2012-10-27      0.510        0.470  0.020

यह आपको दिन-आधारित माध्य के बजाय पोल-आधारित माध्य करने के लिए कच्चा माल देता है। पहले की तरह, मतदान 10/25 पर औसतन होता है, लेकिन 10/25 के लिए वजन भी संग्रहीत होता है और 10/26 या 10/27 पर वजन दोगुना होता है, यह दर्शाने के लिए कि दो चुनाव 10/25 पर लिए गए थे।

>>> df3 = df2 * wt
>>> df3 = df3.rolling(3,min_periods=1).sum()
>>> wt3 = wt.rolling(3,min_periods=1).sum()

>>> df3 = df3 / wt3  

            favorable  unfavorable     other
enddate                                     
2012-10-25   0.495000     0.485000  0.025000
2012-10-26   0.516667     0.456667  0.030000
2012-10-27   0.515000     0.460000  0.027500
2012-10-28   0.496667     0.465000  0.041667
2012-10-29   0.484000     0.478000  0.042000
2012-10-30   0.488000     0.474000  0.042000
2012-10-31   0.530000     0.450000  0.020000
2012-11-01   0.500000     0.465000  0.035000
2012-11-02   0.490000     0.470000  0.040000
2012-11-03   0.490000     0.465000  0.045000
2012-11-04   0.500000     0.448333  0.035000
2012-11-05   0.501429     0.450000  0.032857
2012-11-06   0.503333     0.450000  0.028333
2012-11-07   0.510000     0.435000  0.010000

ध्यान दें कि 10/27 के लिए रोलिंग का मतलब अब 52.1667 (दिन-भारित) के बजाय 0.51500 (पोल-वेटेड) है।

यह भी ध्यान दें कि एपीआई में resampleऔर rolling0.18.0 संस्करण के रूप में परिवर्तन हुए हैं।

रोलिंग (पांडा 0.18.0 में नया क्या है)

resample (पांडा 0.18.0 में नया क्या है)


3

इसे मूल रखने के लिए, मैंने आपको आरंभ करने के लिए एक लूप और कुछ इस तरह का उपयोग किया (मेरा सूचकांक डेटाटाइम है):

import pandas as pd
import datetime as dt

#populate your dataframe: "df"
#...

df[df.index<(df.index[0]+dt.timedelta(hours=1))] #gives you a slice. you can then take .sum() .mean(), whatever

और फिर आप उस स्लाइस पर फ़ंक्शन चला सकते हैं। आप देख सकते हैं कि विंडो की शुरुआत को अपने डेटाफ्रेम इंडेक्स में पहले मान के अलावा कुछ और बनाने के लिए एक इटरेटर कैसे जोड़ा जाता है, फिर विंडो को रोल करेगा (आप शुरुआत के लिए और साथ ही उदाहरण के लिए> नियम का उपयोग कर सकते हैं)।

ध्यान दें, यह बड़े डेटा या बहुत छोटे वेतन वृद्धि के लिए कम कुशल हो सकता है क्योंकि आपकी टुकड़ा करने की क्रिया अधिक कठोर हो सकती है (मेरे लिए काम करता है सैकड़ों डेटा की हजारों पंक्तियों और कई स्तंभों के लिए कुछ हफ्तों के दौरान प्रति घंटा खिड़कियां)।


2

मैंने पाया कि user2689410 कोड तब टूटा जब मैंने खिड़की के साथ कोशिश की = '1M' कारोबारी महीने के डेल्टा के रूप में इस त्रुटि को फेंक दिया:

AttributeError: 'MonthEnd' object has no attribute 'delta'

मैंने सीधे सापेक्ष समय डेल्टा पास करने के लिए विकल्प जोड़ा, ताकि आप उपयोगकर्ता परिभाषित अवधि के लिए इसी तरह की चीजें कर सकें।

संकेत के लिए धन्यवाद, यहाँ मेरा प्रयास है - आशा है कि यह उपयोग की है।

def rolling_mean(data, window, min_periods=1, center=False):
""" Function that computes a rolling mean
Reference:
    http://stackoverflow.com/questions/15771472/pandas-rolling-mean-by-time-interval

Parameters
----------
data : DataFrame or Series
       If a DataFrame is passed, the rolling_mean is computed for all columns.
window : int, string, Timedelta or Relativedelta
         int - number of observations used for calculating the statistic,
               as defined by the function pd.rolling_mean()
         string - must be a frequency string, e.g. '90S'. This is
                  internally converted into a DateOffset object, and then
                  Timedelta representing the window size.
         Timedelta / Relativedelta - Can directly pass a timedeltas.
min_periods : int
              Minimum number of observations in window required to have a value.
center : bool
         Point around which to 'center' the slicing.

Returns
-------
Series or DataFrame, if more than one column
"""
def f(x, time_increment):
    """Function to apply that actually computes the rolling mean
    :param x:
    :return:
    """
    if not center:
        # adding a microsecond because when slicing with labels start
        # and endpoint are inclusive
        start_date = x - time_increment + timedelta(0, 0, 1)
        end_date = x
    else:
        start_date = x - time_increment/2 + timedelta(0, 0, 1)
        end_date = x + time_increment/2
    # Select the date index from the
    dslice = col[start_date:end_date]

    if dslice.size < min_periods:
        return np.nan
    else:
        return dslice.mean()

data = DataFrame(data.copy())
dfout = DataFrame()
if isinstance(window, int):
    dfout = pd.rolling_mean(data, window, min_periods=min_periods, center=center)

elif isinstance(window, basestring):
    time_delta = pd.datetools.to_offset(window).delta
    idx = Series(data.index.to_pydatetime(), index=data.index)
    for colname, col in data.iteritems():
        result = idx.apply(lambda x: f(x, time_delta))
        result.name = colname
        dfout = dfout.join(result, how='outer')

elif isinstance(window, (timedelta, relativedelta)):
    time_delta = window
    idx = Series(data.index.to_pydatetime(), index=data.index)
    for colname, col in data.iteritems():
        result = idx.apply(lambda x: f(x, time_delta))
        result.name = colname
        dfout = dfout.join(result, how='outer')

if dfout.columns.size == 1:
    dfout = dfout.ix[:, 0]
return dfout

और माध्य की गणना करने के लिए 3 दिन की समय खिड़की के साथ उदाहरण:

from pandas import Series, DataFrame
import pandas as pd
from datetime import datetime, timedelta
import numpy as np
from dateutil.relativedelta import relativedelta

idx = [datetime(2011, 2, 7, 0, 0),
           datetime(2011, 2, 7, 0, 1),
           datetime(2011, 2, 8, 0, 1, 30),
           datetime(2011, 2, 9, 0, 2),
           datetime(2011, 2, 10, 0, 4),
           datetime(2011, 2, 11, 0, 5),
           datetime(2011, 2, 12, 0, 5, 10),
           datetime(2011, 2, 12, 0, 6),
           datetime(2011, 2, 13, 0, 8),
           datetime(2011, 2, 14, 0, 9)]
idx = pd.Index(idx)
vals = np.arange(len(idx)).astype(float)
s = Series(vals, index=idx)
# Now try by passing the 3 days as a relative time delta directly.
rm = rolling_mean(s, window=relativedelta(days=3))
>>> rm
Out[2]: 
2011-02-07 00:00:00    0.0
2011-02-07 00:01:00    0.5
2011-02-08 00:01:30    1.0
2011-02-09 00:02:00    1.5
2011-02-10 00:04:00    3.0
2011-02-11 00:05:00    4.0
2011-02-12 00:05:10    5.0
2011-02-12 00:06:00    5.5
2011-02-13 00:08:00    6.5
2011-02-14 00:09:00    7.5
Name: 0, dtype: float64

0

जांचें कि आपका सूचकांक वास्तव में है datetime, str सहायक नहीं हो सकता है:

data.index = pd.to_datetime(data['Index']).values
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.