पायथन में एक्सेल फाइल पढ़ें


88

मेरे पास एक एक्सेल फाइल है

Arm_id      DSPName        DSPCode          HubCode          PinCode    PPTL
1            JaVAS            01              AGR             282001    1,2
2            JaVAS            01              AGR             282002    3,4
3            JaVAS            01              AGR             282003    5,6

मैं प्रपत्र में एक स्ट्रिंग को सहेजना चाहता हूं Arm_id,DSPCode,Pincode। यह प्रारूप कॉन्फ़िगर करने योग्य है, अर्थात यह इसमें परिवर्तित हो सकता है DSPCode,Arm_id,Pincode। मैं इसे एक सूची में सहेजता हूं जैसे:

FORMAT = ['Arm_id', 'DSPName', 'Pincode']

मैं प्रदान किए गए नाम के साथ एक विशिष्ट कॉलम की सामग्री कैसे पढ़ सकता हूं, यह देखते हुए कि FORMATविन्यास योग्य है?

यही मैंने कोशिश की। वर्तमान में मैं फ़ाइल की सभी सामग्री को पढ़ने में सक्षम हूं

from xlrd import open_workbook
wb = open_workbook('sample.xls')
for s in wb.sheets():
    #print 'Sheet:',s.name
    values = []
    for row in range(s.nrows):
        col_value = []
        for col in range(s.ncols):
            value  = (s.cell(row,col).value)
            try : value = str(int(value))
            except : pass
            col_value.append(value)
        values.append(col_value)
print values

मेरा आउटपुट है

[[u'Arm_id', u'DSPName', u'DSPCode', u'HubCode', u'PinCode', u'PPTL'], ['1', u'JaVAS', '1', u'AGR', '282001', u'1,2'], ['2', u'JaVAS', '1', u'AGR', '282002', u'3,4'], ['3', u'JaVAS', '1', u'AGR', '282003', u'5,6']]

चारों ओर तो मैं पाश values[0]बाहर खोजने की कोशिश FORMATमें सामग्री values[0]के सूचकांक रही और उसके बाद Arm_id, DSPname and Pincodeमें values[0]और फिर अगले पाश से मैं सभी के सूचकांक पता FORMATजिससे पता करने के लिए जो मूल्य मुझे प्राप्त करने की आवश्यकता है हो रही कारकों।

लेकिन यह इतना घटिया उपाय है।

मुझे एक्सेल फ़ाइल में नाम के साथ एक विशिष्ट कॉलम के मूल्य कैसे मिलते हैं?


आपको या तो dict()अपने स्वयं के डेटा वर्ग का उपयोग करना चाहिए या बनाना चाहिए ।
तमसागल

जैसे की? क्या आप एक नमूना कोड प्रदान कर सकते हैं?
PythonEnthyer

जवाबों:


71

यह एक दृष्टिकोण है:

from xlrd import open_workbook

class Arm(object):
    def __init__(self, id, dsp_name, dsp_code, hub_code, pin_code, pptl):
        self.id = id
        self.dsp_name = dsp_name
        self.dsp_code = dsp_code
        self.hub_code = hub_code
        self.pin_code = pin_code
        self.pptl = pptl

    def __str__(self):
        return("Arm object:\n"
               "  Arm_id = {0}\n"
               "  DSPName = {1}\n"
               "  DSPCode = {2}\n"
               "  HubCode = {3}\n"
               "  PinCode = {4} \n"
               "  PPTL = {5}"
               .format(self.id, self.dsp_name, self.dsp_code,
                       self.hub_code, self.pin_code, self.pptl))

wb = open_workbook('sample.xls')
for sheet in wb.sheets():
    number_of_rows = sheet.nrows
    number_of_columns = sheet.ncols

    items = []

    rows = []
    for row in range(1, number_of_rows):
        values = []
        for col in range(number_of_columns):
            value  = (sheet.cell(row,col).value)
            try:
                value = str(int(value))
            except ValueError:
                pass
            finally:
                values.append(value)
        item = Arm(*values)
        items.append(item)

for item in items:
    print item
    print("Accessing one single value (eg. DSPName): {0}".format(item.dsp_name))
    print

आपको एक कस्टम वर्ग का उपयोग करने की आवश्यकता नहीं है, आप बस एक ले सकते हैं dict()। यदि आप एक वर्ग का उपयोग करते हैं, तो आप डॉट-नोटेशन के माध्यम से सभी मूल्यों तक पहुंच सकते हैं, जैसा कि आप ऊपर देखते हैं।

यहाँ ऊपर स्क्रिप्ट का आउटपुट है:

Arm object:
  Arm_id = 1
  DSPName = JaVAS
  DSPCode = 1
  HubCode = AGR
  PinCode = 282001 
  PPTL = 1
Accessing one single value (eg. DSPName): JaVAS

Arm object:
  Arm_id = 2
  DSPName = JaVAS
  DSPCode = 1
  HubCode = AGR
  PinCode = 282002 
  PPTL = 3
Accessing one single value (eg. DSPName): JaVAS

Arm object:
  Arm_id = 3
  DSPName = JaVAS
  DSPCode = 1
  HubCode = AGR
  PinCode = 282003 
  PPTL = 5
Accessing one single value (eg. DSPName): JaVAS

91

कुछ देर से उत्तर, लेकिन पांडा के साथ, सीधे एक्सेल फाइल का एक कॉलम प्राप्त करना संभव है:

import pandas

df = pandas.read_excel('sample.xls')
#print the column names
print df.columns
#get the values for a given column
values = df['Arm_id'].values
#get a data frame with selected columns
FORMAT = ['Arm_id', 'DSPName', 'Pincode']
df_selected = df[FORMAT]

सुनिश्चित करें कि आपने xlrd और पांडा स्थापित किए हैं:

pip install pandas xlrd

2
import xlrdयह काम करने के लिए शीर्ष पर जोड़ें । read_excelकी आवश्यकता है xlrd। अगर मिल रहा है ImportError: No module named 'xlrd', तोpip install xlrd
nishant

9
आयात xlrd की आवश्यकता नहीं है, बस सुनिश्चित करें कि xlrd स्थापित है, पांडा आयात करेगा और इसका उपयोग करेगा।
वैभव विशाल

12

इसलिए मुख्य भाग हैडर को पकड़ना है ( col_names = s.row(0)) और जब पंक्तियों के माध्यम से पुनरावृति होती है, तो पहली पंक्ति को छोड़ने के लिए जो आवश्यक नहीं है for row in range(1, s.nrows)- 1 पर से रेंज का उपयोग करके किया जाता है (निहित 0 नहीं)। फिर आप कॉलम के हेडर के रूप में 'नेम' रखने वाली पंक्तियों के माध्यम से जिप का उपयोग करते हैं।

from xlrd import open_workbook

wb = open_workbook('Book2.xls')
values = []
for s in wb.sheets():
    #print 'Sheet:',s.name
    for row in range(1, s.nrows):
        col_names = s.row(0)
        col_value = []
        for name, col in zip(col_names, range(s.ncols)):
            value  = (s.cell(row,col).value)
            try : value = str(int(value))
            except : pass
            col_value.append((name.value, value))
        values.append(col_value)
print values

7

पांडा का उपयोग करके हम आसानी से एक्सेल पढ़ सकते हैं।

import pandas as pd 
from pandas import ExcelWriter
from pandas import ExcelFile 

DataF=pd.read_excel("Test.xlsx",sheet_name='Sheet1')

print("Column headings:")
print(DataF.columns)

टेस्ट यहां: https://repl.it संदर्भ: https://pythonspot.com/read-excel-with-pandas/


2
क्यों आयात कर रहे हो xlrd?
अनफ्री

2

यहाँ एक एक्सेल फाइल को पढ़ने और कॉलम 1 में मौजूद सभी सेल्स को प्रिंट करने के लिए कोड है (पहले सेल को छोड़कर (हेडर को छोड़कर):

import xlrd

file_location="C:\pythonprog\xxx.xlsv"
workbook=xlrd.open_workbook(file_location)
sheet=workbook.sheet_by_index(0)
print(sheet.cell_value(0,0))

for row in range(1,sheet.nrows):
     print(sheet.cell_value(row,0))

1

मेरे द्वारा लिया गया दृष्टिकोण पहली पंक्ति की हेडर सूचनाओं को ब्याज के कॉलम के अनुक्रमित निर्धारित करने के लिए पढ़ता है।

आपने इस प्रश्न का उल्लेख किया है कि आप एक स्ट्रिंग में मान आउटपुट भी चाहते हैं। मैं गतिशील रूप से FORMAT कॉलम सूची से आउटपुट के लिए एक प्रारूप स्ट्रिंग का निर्माण करता हूं। पंक्तियों को एक नई लाइन चार द्वारा अलग किए गए मान स्ट्रिंग से जोड़ा जाता है।

आउटपुट कॉलम क्रम FORMAT सूची में कॉलम नामों के क्रम से निर्धारित होता है।

FORMAT सूची में कॉलम नाम के मामले के नीचे मेरे कोड में महत्वपूर्ण है। ऊपर दिए गए प्रश्न में आपको अपनी FORMAT सूची में 'पिनकोड' मिला है, लेकिन आपके एक्सेल में 'पिनकोड' है। यह नीचे काम नहीं करेगा, यह 'पिनकोड' होना चाहिए।

from xlrd import open_workbook
wb = open_workbook('sample.xls')

FORMAT = ['Arm_id', 'DSPName', 'PinCode']
values = ""

for s in wb.sheets():
    headerRow = s.row(0)
    columnIndex = [x for y in FORMAT for x in range(len(headerRow)) if y == firstRow[x].value]
    formatString = ("%s,"*len(columnIndex))[0:-1] + "\n"

    for row in range(1,s.nrows):
        currentRow = s.row(row)
        currentRowValues = [currentRow[x].value for x in columnIndex]
        values += formatString % tuple(currentRowValues)

print values

इस कोड आउटपुट के ऊपर दिए गए नमूना इनपुट के लिए:

>>> 1.0,JaVAS,282001.0
2.0,JaVAS,282002.0
3.0,JaVAS,282003.0

और क्योंकि मैं एक अजगर दोपहर हूँ, सहारा होना चाहिए: यह उत्तर , यह उत्तर , यह प्रश्न , यह प्रश्न और यह उत्तर


मुझे लगता firstRow[x].valueहै कि होना चाहिएheaderRow[x].value
TSeymour

0

यद्यपि मैं लगभग हमेशा सिर्फ इसके लिए पांडा का उपयोग करता हूं, मेरे वर्तमान छोटे उपकरण को एक निष्पादन योग्य में पैक किया जा रहा है और इसमें पांडा भी शामिल है। इसलिए मैंने पोडा के समाधान का एक संस्करण बनाया , जिसका नाम ट्यूपल्स की सूची में रखा गया। इस परिवर्तन के साथ उसका कोड इस तरह दिखेगा:

from xlrd import open_workbook
from collections import namedtuple
from pprint import pprint

wb = open_workbook('sample.xls')

FORMAT = ['Arm_id', 'DSPName', 'PinCode']
OneRow = namedtuple('OneRow', ' '.join(FORMAT))
all_rows = []

for s in wb.sheets():
    headerRow = s.row(0)
    columnIndex = [x for y in FORMAT for x in range(len(headerRow)) if y == headerRow[x].value]

    for row in range(1,s.nrows):
        currentRow = s.row(row)
        currentRowValues = [currentRow[x].value for x in columnIndex]
        all_rows.append(OneRow(*currentRowValues))

pprint(all_rows)
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.