मैं रूबी (1.9) में एक क्रॉलर लिख रहा हूं जो बहुत सारे यादृच्छिक साइटों से बहुत सारे HTML का उपभोग करता है।
लिंक निकालने की कोशिश करते समय, मैंने .scan(/href="(.*?)"/i)
nokogiri / hpricot (मेजर स्पीडअप) के बजाय सिर्फ उपयोग करने का निर्णय लिया । समस्या यह है कि मुझे अब बहुत सारी " invalid byte sequence in UTF-8
" त्रुटियां प्राप्त हुई हैं।
मुझे जो समझ में आया, उसके लिए net/http
पुस्तकालय के पास कोई विशेष विकल्प नहीं है और जो सामान आता है, वह मूल रूप से ठीक से टैग नहीं किया गया है।
उस आने वाले डेटा के साथ वास्तव में काम करने का सबसे अच्छा तरीका क्या होगा? मैंने .encode
प्रतिस्थापित और अमान्य विकल्पों के साथ प्रयास किया, लेकिन अभी तक कोई सफलता नहीं मिली ...
'U*'
नाश कर देती है 'C*'
?