पंडों के साथ टैब-सीमांकित फ़ाइल पढ़ना - विंडोज पर काम करता है, लेकिन मैक पर नहीं

Question 1

मैं बिना किसी समस्या के विंडोज में पंडों / अजगर के साथ टैब-सीमांकित डेटा फ़ाइल पढ़ रहा हूं। डेटा फ़ाइल में पहले तीन पंक्तियों में नोट्स होते हैं और फिर हेडर के साथ अनुसरण किया जाता है।

df = pd.read_csv(myfile,sep='\t',skiprows=(0,1,2),header=(0))

अब मैं अपने मैक के साथ इस फाइल को पढ़ने की कोशिश कर रहा हूं। (मैक पर पायथन का उपयोग करते हुए मेरा पहली बार।) मुझे निम्न त्रुटि मिलती है।

pandas.parser.CParserError: Error tokenizing data. C error: Expected 1
fields in line 8, saw 39

यदि यह सेट error_bad_lines के लिए तर्क read_csv को झूठी , मुझे निम्नलिखित जानकारी है, जो अंतिम पंक्ति के अंत तक जारी है मिलता है।

Skipping line 8: expected 1 fields, saw 39
Skipping line 9: expected 1 fields, saw 125
Skipping line 10: expected 1 fields, saw 125
Skipping line 11: expected 1 fields, saw 125
Skipping line 12: expected 1 fields, saw 125
Skipping line 13: expected 1 fields, saw 125
Skipping line 14: expected 1 fields, saw 125
Skipping line 15: expected 1 fields, saw 125
Skipping line 16: expected 1 fields, saw 125
Skipping line 17: expected 1 fields, saw 125
...

क्या मुझे एन्कोडिंग तर्क के लिए एक मूल्य निर्दिष्ट करने की आवश्यकता है ? ऐसा लगता है जैसे मुझे नहीं करना चाहिए क्योंकि फ़ाइल को पढ़ना विंडोज पर ठीक काम करता है।

Question 2

सबसे बड़ी सुराग यह है कि सभी पंक्तियों को एक पंक्ति में लौटाया जा रहा है। यह इंगित करता है कि लाइन टर्मिनेटरों की अनदेखी की जा रही है या वे मौजूद नहीं हैं।

आप csv_reader के लिए लाइन टर्मिनेटर निर्दिष्ट कर सकते हैं। यदि आप एक मैक पर हैं, तो बनाई गई लाइनें \rलिनक्स मानक के बजाय समाप्त हो जाएंगी \nया बेहतर अभी भी निलंबित और खिड़कियों के बेल्ट दृष्टिकोण के साथ \r\n।

pandas.read_csv(filename, sep='\t', lineterminator='\r')

आप अपने सभी डेटा को कोडेक्स पैकेज का उपयोग करके भी खोल सकते हैं। यह दस्तावेज़ लोडिंग गति की कीमत पर मजबूती बढ़ा सकता है।

import codecs

doc = codecs.open('document','rU','UTF-16') #open for reading with "universal" type set

df = pandas.read_csv(doc, sep='\t')

Question 3

एक और विकल्प engine='python'कमांड में जोड़ना होगाpandas.read_csv(filename, sep='\t', engine='python')