मैं Python का उपयोग करके HTML फ़ाइल से पाठ निकालना चाहूंगा। मैं अनिवार्य रूप से वही आउटपुट चाहता हूं जो मुझे मिलेगा अगर मैंने एक ब्राउज़र से टेक्स्ट कॉपी किया और इसे नोटपैड में पेस्ट किया।
मैं नियमित अभिव्यक्ति का उपयोग करने की तुलना में कुछ अधिक मजबूत होना चाहूंगा जो खराब तरीके से गठित HTML पर विफल हो सकता है। मैंने देखा है कि बहुत से लोग सुंदर सूप की सलाह देते हैं, लेकिन मुझे इसका उपयोग करने में कुछ समस्याएं हैं। एक के लिए, इसने अवांछित पाठ को उठाया, जैसे कि जावास्क्रिप्ट स्रोत। साथ ही, यह HTML संस्थाओं की व्याख्या नहीं करता था। उदाहरण के लिए, मुझे उम्मीद है कि & # 39; HTML स्रोत में पाठ में एक एपॉस्ट्रॉफी में परिवर्तित होने के लिए, जैसे कि मैंने ब्राउज़र सामग्री को नोटपैड में चिपकाया है।
अद्यतन html2text
होनहार लग रहा है। यह HTML संस्थाओं को सही ढंग से संभालता है और जावास्क्रिप्ट को अनदेखा करता है। हालाँकि, यह बिल्कुल सादे पाठ का उत्पादन नहीं करता है; यह ऐसे मार्कडाउन का निर्माण करता है जिसे फिर सादे पाठ में बदलना होगा। यह कोई उदाहरण या प्रलेखन के साथ आता है, लेकिन कोड साफ दिखता है।
संबंधित सवाल: