मैं एक बहुत बड़े डेटासेट के साथ काम करने का प्रयास कर रहा हूं, जिसमें कुछ गैर-मानक चरित्र हैं। मुझे नौकरी की ऐनक के अनुसार यूनिकोड का उपयोग करने की आवश्यकता है, लेकिन मैं चकित हूं। (और संभवत: यह सब गलत है।)
मैं CSV का उपयोग करके खोलता हूं:
15 ncesReader = csv.reader(open('geocoded_output.csv', 'rb'), delimiter='\t', quotechar='"')
फिर, मैं इसके साथ एनकोड करने का प्रयास करता हूं:
name=school_name.encode('utf-8'), street=row[9].encode('utf-8'), city=row[10].encode('utf-8'), state=row[11].encode('utf-8'), zip5=row[12], zip4=row[13],county=row[25].encode('utf-8'), lat=row[22], lng=row[23])
मैं लेट और एलएनजी को छोड़कर सब कुछ एन्कोडिंग कर रहा हूं क्योंकि उन लोगों को एक एपीआई के लिए भेजा जाना चाहिए। जब मैं डेटासेट को पार्स करने के लिए प्रोग्राम चलाता हूं तो मैं क्या उपयोग कर सकता हूं, मुझे निम्नलिखित ट्रैसबैक मिलता है।
Traceback (most recent call last):
File "push_into_db.py", line 80, in <module>
main()
File "push_into_db.py", line 74, in main
district_map = buildDistrictSchoolMap()
File "push_into_db.py", line 32, in buildDistrictSchoolMap
county=row[25].encode('utf-8'), lat=row[22], lng=row[23])
UnicodeDecodeError: 'ascii' codec can't decode byte 0xd1 in position 2: ordinal not in range(128)
मुझे लगता है कि मुझे आपको बताना चाहिए कि मैं अजगर 2.7.2 का उपयोग कर रहा हूं, और यह django 1.4 पर एक ऐप बिल्ड का हिस्सा है। मैंने इस विषय पर कई पोस्ट पढ़े हैं, लेकिन उनमें से कोई भी सीधे लागू नहीं होता है। किसी भी प्रकार की सहायता सराहनीय होगी।
आप यह भी जानना चाह सकते हैं कि कुछ गैर-मानक वर्णों के कारण समस्या possibly और संभवतः know है।