मैं बहुत सारे पार्सर्स को कोड करता हूं। अब तक, मैं पार्सिंग और ब्राउज़र ऑटोमेशन के लिए HtmlUnit हेडलेस ब्राउज़र का उपयोग कर रहा था।
अब, मैं दोनों कार्यों को अलग करना चाहता हूं।
चूंकि मेरे काम के 80% में सिर्फ पार्सिंग शामिल है, मैं एक हल्के HTML पार्सर का उपयोग करना चाहता हूं क्योंकि HtmlUnit में पहले एक पेज लोड करने में बहुत समय लगता है, फिर स्रोत प्राप्त करें और फिर इसे पार्स करें।
मैं जानना चाहता हूं कि कौन सा HTML पार्सर सबसे अच्छा है। यदि यह HtmlUnit पार्सर के करीब है तो पार्सर बेहतर होगा।
संपादित करें:
सर्वोत्तम रूप से, मुझे कम से कम निम्नलिखित सुविधाएँ चाहिए:
- गति
- किसी भी HtmlElement को उसके "आईडी" या "नाम" या "टैग प्रकार" द्वारा खोजने में आसानी।
यह मेरे लिए ठीक होगा यदि यह गंदे HTML कोड को साफ नहीं करता है। मुझे किसी भी HTML स्रोत को साफ़ करने की आवश्यकता नहीं है। मुझे बस HtmlElements में स्थानांतरित करने और उनसे डेटा कटाई करने के लिए एक आसान तरीका चाहिए।