मैं वर्तमान में HTML फ़ाइल और कॉल करने के लिए सुंदर सूप का उपयोग कर रहा हूं get_text()
, लेकिन ऐसा लगता है कि मैं बहुत सारे \ xa0 यूनिकोड के साथ रिक्त स्थान का प्रतिनिधित्व कर रहा हूं। क्या पायथन 2.7 में उन सभी को निकालने और उन्हें रिक्त स्थान में बदलने का एक कुशल तरीका है? मुझे लगता है कि अधिक सामान्यीकृत प्रश्न होगा, क्या यूनिकोड प्रारूपण को हटाने का एक तरीका है?
मैंने उपयोग करने की कोशिश की: line = line.replace(u'\xa0',' ')
जैसा कि एक और धागे द्वारा सुझाया गया है, लेकिन यह \ xa0 को u में बदल दिया है, इसलिए अब मेरे पास इसके बजाय हर जगह "u" है। ):
संपादित करें: समस्या को हल करने के लिए लगता है str.replace(u'\xa0', ' ').encode('utf-8')
, लेकिन .encode('utf-8')
बिना replace()
ऐसा करने के कारण लगता है कि यह भी अजीब चरित्र, उदाहरण के लिए \ xc2 थूकने के लिए। क्या कोई इसे समझा सकता है?
u''
एस के बजाय एस का उपयोग करें ''
। :-)
u' '
प्रतिस्थापन का उपयोग करना होगा , न कि ' '
। क्या मूल स्ट्रिंग एक यूनिकोड है?