प्रोग्रामिंग beautifulsoup

28

यूनिकोडेनाकोड: 'ascii' कोडक चरित्र u '\ xa0 को 20 की स्थिति में सांकेतिक शब्दों में बदलना नहीं कर सकता है: क्रम में नहीं (128)

मुझे विभिन्न वेब पृष्ठों (विभिन्न साइटों पर) से प्राप्त पाठ के यूनिकोड वर्णों से निपटने में समस्याएँ आ रही हैं। मैं सुंदर का उपयोग कर रहा हूँ। समस्या यह है कि त्रुटि हमेशा प्रतिलिपि प्रस्तुत करने योग्य नहीं होती है; यह कभी-कभी कुछ पृष्ठों के साथ काम करता है, और …

1296 python unicode beautifulsoup python-2.x python-unicode

16

कक्षा द्वारा तत्वों को कैसे खोजना है

मुझे सुंदर वर्ग का उपयोग करके "वर्ग" विशेषता वाले HTML तत्वों को पार्स करने में समस्या हो रही है। कोड इस तरह दिखता है soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div मुझे स्क्रिप्ट खत्म होने के बाद उसी लाइन पर "त्रुटि" …

386 python html web-scraping beautifulsoup

12

bs4.FeatureNotFound: आपके द्वारा अनुरोधित सुविधाओं के साथ ट्री बिल्डर नहीं मिल सका: lxml। क्या आपको पार्सर लाइब्रेरी स्थापित करने की आवश्यकता है?

... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? मेरे टर्मिनल पर उपरोक्त आउटपुट। मैं मैक ओएस 10.7.x पर हूं। मेरे पास पायथन 2.7.1 है, और …

224 python python-2.7 beautifulsoup lxml

6

यूनिकोडेनाकोड: 'चार्मैप' कोडक वर्णों को एनकोड नहीं कर सकता है

मैं एक वेबसाइट को खंगालने की कोशिश कर रहा हूं, लेकिन यह मुझे एक त्रुटि देता है। मैं निम्नलिखित कोड का उपयोग कर रहा हूं: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) और मुझे निम्नलिखित त्रुटि मिल रही है: File "C:\Python34\lib\encodings\cp1252.py", …

205 python beautifulsoup urllib

5

TypeError: बाइट्स जैसी वस्तु की आवश्यकता होती है, अजगर और CSV में 'str' की नहीं

TypeError: बाइट्स जैसी वस्तु की आवश्यकता होती है, न कि 'str' की Csv फ़ाइल में HTML तालिका डेटा को बचाने के लिए अजगर कोड से नीचे निष्पादित करते समय त्रुटि हो रही है। राइडअप पाने के लिए पता नहीं है। मेरी मदद करो। import csv import requests from bs4 import …

173 csv python-3.x beautifulsoup html-table

11

सुंदर सूप और आईडी द्वारा एक div और इसकी सामग्री निकालने

soup.find("tagName", { "id" : "articlebody" }) यह <div id="articlebody"> ... </div>टैग और सामान को बीच में क्यों नहीं लौटाता है ? यह कुछ भी नहीं लौटाता है। और मुझे पता है कि यह एक तथ्य के लिए मौजूद है क्योंकि मैं इसे सही से देख रहा हूं soup.prettify() soup.find("div", { …

147 python beautifulsoup

16

अजगर और ब्यूटीफुल का उपयोग करके वेब पेज से लिंक प्राप्त करें

मैं एक वेबपेज के लिंक कैसे प्राप्त कर सकता हूं और पायथन का उपयोग करके लिंक के यूआरएल पते की नकल कर सकता हूं?

141 python web-scraping hyperlink beautifulsoup

16

ImportError: कोई मॉड्यूल नाम नहीं bs4 (BeautifulSoup)

मैं पायथन में काम कर रहा हूं और फ्लास्क का उपयोग कर रहा हूं। जब मैं अपने कंप्यूटर पर अपनी मुख्य पायथन फाइल चलाता हूं, तो यह पूरी तरह से काम करता है, लेकिन जब मैं वेनव को सक्रिय करता हूं और टर्मिनल में फ्लास्क पायथन फाइल को चलाता हूं, …

138 python beautifulsoup flask importerror

8

SundSoup और Scrapy क्रॉलर के बीच अंतर?

मैं एक ऐसी वेबसाइट बनाना चाहता हूं, जो अमेज़ॅन और ई-बे उत्पाद की कीमत के बीच तुलना दिखाती है। इनमें से कौन बेहतर काम करेगा और क्यों? मैं BeautifulSoup से कुछ हद तक परिचित हूं लेकिन स्क्रेपी क्रॉलर के साथ ऐसा नहीं है ।

134 python beautifulsoup scrapy web-crawler

10

ब्यूटीफुल ग्रूप दर्शनीय वेबपेज टेक्स्ट

मूल रूप से, मैं एक वेबपेज पर दृश्यमान पाठ को सख्ती से हथियाने के लिए ब्यूटीफुल का उपयोग करना चाहता हूं । उदाहरण के लिए, यह वेबपृष्ठ मेरा परीक्षण मामला है। और मैं मुख्य रूप से केवल शरीर पाठ (लेख) प्राप्त करना चाहता हूं और शायद यहां और वहां कुछ …

124 python text beautifulsoup html-content-extraction

17

स्क्रैपिंग: SSL: CERTIFICATE_VERIFY_FAILED त्रुटि http://en.wikipedia.org के लिए

मैं 'वेब स्क्रेपिंग विथ पायथन' के कोड का अभ्यास कर रहा हूं, और मुझे यह प्रमाणपत्र समस्या रहती है: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in …

123 python web-scraping beautifulsoup scrapy ssl-certificate

6

ब्यूटीफुल का उपयोग करके नोड्स के बच्चों को कैसे खोजें

मैं उन सभी <a>टैगों को प्राप्त करना चाहता हूं जो निम्नलिखित हैं <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> मुझे पता है कि इस तरह विशेष वर्ग के साथ तत्व को कैसे खोजना है: soup.find("li", { "class" : "test" }) लेकिन मुझे नहीं पता कि …

115 python html beautifulsoup

6

Beautifulsoup के साथ एक विशेषता मान निकालना

मैं एक वेबपेज पर एक विशिष्ट "इनपुट" टैग में एकल "मूल्य" विशेषता की सामग्री को निकालने की कोशिश कर रहा हूं। मैं निम्नलिखित कोड का उपयोग करता हूं: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) output …

111 python parsing attributes beautifulsoup

9

क्या हम सुंदर के साथ xpath का उपयोग कर सकते हैं?

मैं एक यूआरएल को स्क्रेप करने के लिए ब्यूटीफुल का उपयोग कर रहा हूं और मेरे पास निम्न कोड था import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) अब उपरोक्त कोड में हम उपयोग …

105 python xpath beautifulsoup urllib

7

पायथन: ब्यूटीफुलसप - नाम विशेषता के आधार पर एक विशेषता मान प्राप्त करें

मैं इसके नाम के आधार पर एक विशेषता मान मुद्रित करना चाहता हूं, उदाहरण के लिए ले लो <META NAME="City" content="Austin"> मैं ऐसा कुछ करना चाहता हूं soup = BeautifulSoup(f) //f is some HTML containing the above meta tag for meta_tag in soup('meta'): if meta_tag['name'] == 'City': print meta_tag['content'] उपरोक्त …

95 python beautifulsoup

beautifulsoup पर टैग किए गए जवाब