मैं पायथन के लिए एक HTML पार्सर मॉड्यूल की तलाश कर रहा हूं जो मुझे पायथन सूचियों / शब्दकोशों / वस्तुओं के रूप में टैग प्राप्त करने में मदद कर सकता है।
अगर मेरे पास फॉर्म का एक दस्तावेज है:
<html>
<head>Heading</head>
<body attr1='val1'>
<div class='container'>
<div id='class'>Something here</div>
<div>Something else</div>
</div>
</body>
</html>
तब मुझे मुझे HTML टैग के नाम या आईडी के माध्यम से नेस्टेड टैग तक पहुंचने का एक तरीका देना चाहिए, ताकि मैं मूल रूप से div
टैग के class='container'
भीतर निहित सामग्री, सामग्री या पाठ को प्राप्त करने के लिए कह body
सकूं।
यदि आपने फ़ायरफ़ॉक्स के "इंस्पेक्ट एलिमेंट" फ़ीचर (HTML देखें) का उपयोग किया है, तो आपको पता होगा कि यह आपको पेड़ की तरह अच्छे नेस्टेड तरीके से सभी टैग देता है।
मैं एक बिल्ट-इन मॉड्यूल पसंद करूंगा लेकिन वह थोड़ा बहुत पूछ सकता है।
मैं स्टैक ओवरफ्लो और इंटरनेट पर कुछ ब्लॉगों पर बहुत सारे प्रश्नों के माध्यम से गया और उनमें से ज्यादातर ने ब्यूटीफुल या एलएक्सएमएल या एचटीएमएलपरर का सुझाव दिया लेकिन इनमें से कुछ ने कार्यक्षमता का विस्तार किया और बस एक बहस के रूप में समाप्त हो गया जिस पर एक तेज या अधिक प्रभावशाली है।