html-content-extraction पर टैग किए गए जवाब

30
HTML स्क्रैपिंग के लिए विकल्प? [बन्द है]
बंद हो गया । इस प्रश्न पर अधिक ध्यान देने की आवश्यकता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह इस पोस्ट को संपादित करके केवल एक समस्या पर केंद्रित हो । 6 साल पहले …

30
पायथन का उपयोग करके HTML फ़ाइल से पाठ निकालना
मैं Python का उपयोग करके HTML फ़ाइल से पाठ निकालना चाहूंगा। मैं अनिवार्य रूप से वही आउटपुट चाहता हूं जो मुझे मिलेगा अगर मैंने एक ब्राउज़र से टेक्स्ट कॉपी किया और इसे नोटपैड में पेस्ट किया। मैं नियमित अभिव्यक्ति का उपयोग करने की तुलना में कुछ अधिक मजबूत होना चाहूंगा …

8
रेगेक्स मैच का हिस्सा निकालें
मैं HTML पृष्ठ से शीर्षक निकालने के लिए एक नियमित अभिव्यक्ति चाहता हूं। वर्तमान में मेरे पास यह है: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') क्या केवल शीर्षक की सामग्री निकालने के लिए एक नियमित अभिव्यक्ति है> इसलिए मुझे टैग हटाने की आवश्यकता नहीं …

10
ब्यूटीफुल ग्रूप दर्शनीय वेबपेज टेक्स्ट
मूल रूप से, मैं एक वेबपेज पर दृश्यमान पाठ को सख्ती से हथियाने के लिए ब्यूटीफुल का उपयोग करना चाहता हूं । उदाहरण के लिए, यह वेबपृष्ठ मेरा परीक्षण मामला है। और मैं मुख्य रूप से केवल शरीर पाठ (लेख) प्राप्त करना चाहता हूं और शायद यहां और वहां कुछ …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.