पांडे usecols के साथ read_csv और फ़िल्टर कॉलम

Question 1

मेरे पास एक सीएसवी फाइल है जो pandas.read_csvकॉलम को फिल्टर करने usecolsऔर कई इंडेक्स का उपयोग करने के साथ सही ढंग से नहीं आ रही है ।

import pandas as pd
csv = r"""dummy,date,loc,x
   bar,20090101,a,1
   bar,20090102,a,3
   bar,20090103,a,5
   bar,20090101,b,1
   bar,20090102,b,3
   bar,20090103,b,5"""

f = open('foo.csv', 'w')
f.write(csv)
f.close()

df1 = pd.read_csv('foo.csv',
        header=0,
        names=["dummy", "date", "loc", "x"], 
        index_col=["date", "loc"], 
        usecols=["dummy", "date", "loc", "x"],
        parse_dates=["date"])
print df1

# Ignore the dummy columns
df2 = pd.read_csv('foo.csv', 
        index_col=["date", "loc"], 
        usecols=["date", "loc", "x"], # <----------- Changed
        parse_dates=["date"],
        header=0,
        names=["dummy", "date", "loc", "x"])
print df2

मुझे उम्मीद है कि लापता डमी कॉलम को छोड़कर df1 और df2 समान होना चाहिए, लेकिन कॉलम गलत तरीके से आते हैं। साथ ही तारीख को तारीख के रूप में पार्स किया जा रहा है।

In [118]: %run test.py
               dummy  x
date       loc
2009-01-01 a     bar  1
2009-01-02 a     bar  3
2009-01-03 a     bar  5
2009-01-01 b     bar  1
2009-01-02 b     bar  3
2009-01-03 b     bar  5
              date
date loc
a    1    20090101
     3    20090102
     5    20090103
b    1    20090101
     3    20090102
     5    20090103

नामों के बजाय कॉलम नंबरों का उपयोग करने से मुझे वही समस्या होती है। मैं read_csv चरण के बाद डमी कॉलम को हटाकर समस्या को हल कर सकता हूं, लेकिन मैं यह समझने की कोशिश कर रहा हूं कि क्या गलत हो रहा है। मैं 0.10.1 पांडा का उपयोग कर रहा हूं।

संपादित करें: फिक्स्ड खराब हेडर उपयोग।

Question 2

@चिप का उत्तर दो कीवर्ड तर्क के बिंदु को पूरी तरह से याद करता है।

नाम केवल तब आवश्यक होते हैं जब कोई हेडर नहीं होता है और आप पूर्णांक सूचकांकों के बजाय स्तंभ नामों का उपयोग करके अन्य तर्क निर्दिष्ट करना चाहते हैं।
usecols पूरे डेटाफ्रेम को मेमोरी में पढ़ने से पहले एक फिल्टर प्रदान करने वाला है; यदि ठीक से उपयोग किया जाता है, तो पढ़ने के बाद कॉलम को हटाने की आवश्यकता नहीं होनी चाहिए।

यह समाधान उन विषमताओं को ठीक करता है:

import pandas as pd
from StringIO import StringIO

csv = r"""dummy,date,loc,x
bar,20090101,a,1
bar,20090102,a,3
bar,20090103,a,5
bar,20090101,b,1
bar,20090102,b,3
bar,20090103,b,5"""

df = pd.read_csv(StringIO(csv),
        header=0,
        index_col=["date", "loc"], 
        usecols=["date", "loc", "x"],
        parse_dates=["date"])

जो हमें देता है:

                x
date       loc
2009-01-01 a    1
2009-01-02 a    3
2009-01-03 a    5
2009-01-01 b    1
2009-01-02 b    3
2009-01-03 b    5

Question 3

यह कोड आपको क्या चाहिए --- यह भी अजीब और निश्चित रूप से छोटी गाड़ी है:

मैंने देखा कि यह कब काम करता है:

a) आप index_colrel निर्दिष्ट करते हैं । आपके द्वारा उपयोग किए जाने वाले स्तंभों की संख्या - इसलिए इस उदाहरण में इसके तीन स्तंभ हैं, चार नहीं (आप ड्रॉप करेंdummy और उसके बाद से गिनना शुरू करें)

b) उसी के लिए parse_dates

ग) के लिए ऐसा नहीं है usecols स्पष्ट कारणों के लिए ;) के लिए

d) यहाँ मैंने namesइस व्यवहार को दर्पण करने के लिए अनुकूलित किया

import pandas as pd
from StringIO import StringIO

csv = """dummy,date,loc,x
bar,20090101,a,1
bar,20090102,a,3
bar,20090103,a,5
bar,20090101,b,1
bar,20090102,b,3
bar,20090103,b,5
"""

df = pd.read_csv(StringIO(csv),
        index_col=[0,1],
        usecols=[1,2,3], 
        parse_dates=[0],
        header=0,
        names=["date", "loc", "", "x"])

print df

जो प्रिंट करता है

                x
date       loc   
2009-01-01 a    1
2009-01-02 a    3
2009-01-03 a    5
2009-01-01 b    1
2009-01-02 b    3
2009-01-03 b    5

Question 4

यदि आपकी सीएसवी फ़ाइल में अतिरिक्त डेटा है, तो आयात के बाद कॉलम को डेटाफ़्रेम से हटाया जा सकता है ।

import pandas as pd
from StringIO import StringIO

csv = r"""dummy,date,loc,x
bar,20090101,a,1
bar,20090102,a,3
bar,20090103,a,5
bar,20090101,b,1
bar,20090102,b,3
bar,20090103,b,5"""

df = pd.read_csv(StringIO(csv),
        index_col=["date", "loc"], 
        usecols=["dummy", "date", "loc", "x"],
        parse_dates=["date"],
        header=0,
        names=["dummy", "date", "loc", "x"])
del df['dummy']

जो हमें देता है:

                x
date       loc
2009-01-01 a    1
2009-01-02 a    3
2009-01-03 a    5
2009-01-01 b    1
2009-01-02 b    3
2009-01-03 b    5

Question 5

आपको बस index_col=Falseपैरामीटर जोड़ना होगा

df1 = pd.read_csv('foo.csv',
     header=0,
     index_col=False,
     names=["dummy", "date", "loc", "x"], 
     index_col=["date", "loc"], 
     usecols=["dummy", "date", "loc", "x"],
     parse_dates=["date"])
  print df1

Question 6

csv को पहले आयात करें और csv.DictReader को अपनी प्रक्रिया में आसान बनाएं ...