मैं पायथन के लिए एक HTML पार्सर मॉड्यूल की तलाश कर रहा हूं जो मुझे पायथन सूचियों / शब्दकोशों / वस्तुओं के रूप में टैग प्राप्त करने में मदद कर सकता है।
अगर मेरे पास फॉर्म का एक दस्तावेज है:
<html>
<head>Heading</head>
<body attr1='val1'>
<div class='container'>
<div id='class'>Something here</div>
<div>Something else</div>
</div>
</body>
</html>
तब मुझे मुझे HTML टैग के नाम या आईडी के माध्यम से नेस्टेड टैग तक पहुंचने का एक तरीका देना चाहिए, ताकि मैं मूल रूप से divटैग के class='container'भीतर निहित सामग्री, सामग्री या पाठ को प्राप्त करने के लिए कह bodyसकूं।
यदि आपने फ़ायरफ़ॉक्स के "इंस्पेक्ट एलिमेंट" फ़ीचर (HTML देखें) का उपयोग किया है, तो आपको पता होगा कि यह आपको पेड़ की तरह अच्छे नेस्टेड तरीके से सभी टैग देता है।
मैं एक बिल्ट-इन मॉड्यूल पसंद करूंगा लेकिन वह थोड़ा बहुत पूछ सकता है।
मैं स्टैक ओवरफ्लो और इंटरनेट पर कुछ ब्लॉगों पर बहुत सारे प्रश्नों के माध्यम से गया और उनमें से ज्यादातर ने ब्यूटीफुल या एलएक्सएमएल या एचटीएमएलपरर का सुझाव दिया लेकिन इनमें से कुछ ने कार्यक्षमता का विस्तार किया और बस एक बहस के रूप में समाप्त हो गया जिस पर एक तेज या अधिक प्रभावशाली है।