प्रोग्रामिंग web-scraping

30

HTML स्क्रैपिंग के लिए विकल्प? [बन्द है]

बंद हो गया । इस प्रश्न पर अधिक ध्यान देने की आवश्यकता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह इस पोस्ट को संपादित करके केवल एक समस्या पर केंद्रित हो । 6 साल पहले …

406 html web-scraping html-parsing html-content-extraction

16

कक्षा द्वारा तत्वों को कैसे खोजना है

मुझे सुंदर वर्ग का उपयोग करके "वर्ग" विशेषता वाले HTML तत्वों को पार्स करने में समस्या हो रही है। कोड इस तरह दिखता है soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div मुझे स्क्रिप्ट खत्म होने के बाद उसी लाइन पर "त्रुटि" …

386 python html web-scraping beautifulsoup

3

सिर रहित ब्राउज़र और स्क्रैपिंग - समाधान [बंद]

बन्द है। यह प्रश्न स्टैक ओवरफ्लो दिशानिर्देशों को पूरा नहीं करता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? सवाल को अपडेट करें ताकि यह स्टैक ओवरफ्लो के लिए विषय पर हो । 5 साल पहले बंद हुआ । मैं ब्राउज़र …

368 selenium web-scraping scrapy phantomjs casperjs

6

मैं किसी भी URL या वेब पेज की Google कैश आयु कैसे प्राप्त कर सकता हूं? [बन्द है]

बन्द है। यह प्रश्न स्टैक ओवरफ्लो दिशानिर्देशों को पूरा नहीं करता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? सवाल को अपडेट करें ताकि यह स्टैक ओवरफ्लो के लिए विषय पर हो । 2 साल पहले बंद हुआ । इस प्रश्न …

261 html url hyperlink web-scraping

3

कौन सा HTML Parser सबसे अच्छा है? [बन्द है]

जैसा कि वर्तमान में खड़ा है, यह प्रश्न हमारे प्रश्नोत्तर प्रारूप के लिए एक अच्छा फिट नहीं है। हम तथ्यों, संदर्भों या विशेषज्ञता के आधार पर उत्तर देने की अपेक्षा करते हैं, लेकिन इस सवाल पर बहस, बहस, मतदान या विस्तारित चर्चा की संभावना होगी। यदि आपको लगता है कि …

194 java html parsing html-parsing web-scraping

13

पायथन का उपयोग करके सेलेनियम के साथ ड्रॉप-डाउन मेनू मान का चयन कैसे करें?

मुझे ड्रॉप-डाउन मेनू से एक तत्व का चयन करने की आवश्यकता है । उदाहरण के लिए: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) सबसे पहले मुझे उस पर क्लिक करना है। मैं यह करता हूँ: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) उसके बाद मुझे अच्छे …

185 python selenium selenium-webdriver web-scraping webdriver

14

पायथन के साथ वेब-स्क्रैपिंग जावास्क्रिप्ट पृष्ठ

मैं एक साधारण वेब स्क्रैपर विकसित करने की कोशिश कर रहा हूं। मैं HTML कोड के बिना पाठ निकालना चाहता हूं। वास्तव में, मैं इस लक्ष्य को प्राप्त करता हूं, लेकिन मैंने देखा है कि कुछ पृष्ठों में जहां जावास्क्रिप्ट लोड होता है, मुझे अच्छे परिणाम नहीं मिले। उदाहरण के …

178 python web-scraping python-2.x urlopen

4

XML पैकेज का उपयोग करके आर टेबल को आर डेटा फ्रेम में स्क्रैप करना

XML पैकेज का उपयोग करके मैं html तालिकाओं को कैसे परिमार्जन करूं? उदाहरण के लिए, ब्राज़ीलियाई फुटबॉल टीम के इस विकिपीडिया पृष्ठ को लें । मैं इसे आर में पढ़ना चाहता हूं और "फीफा मान्यता प्राप्त टीमों के खिलाफ ब्राजील द्वारा खेले गए सभी मैचों की सूची" प्राप्त करना चाहता …

153 html r xml parsing web-scraping

13

पायथन का उपयोग करके स्थानीय रूप से एक छवि को कैसे बचाया जाए जिसका URL पता मुझे पहले से पता है?

मैं इंटरनेट पर एक छवि का URL जानता हूं। जैसे http://www.digimouth.com/news/media/2011/09/google-logo.jpg , जिसमें Google का लोगो है। अब, मैं वास्तव में एक ब्राउज़र में URL को खोलने और फ़ाइल को मैन्युअल रूप से सहेजे बिना पायथन का उपयोग करके इस छवि को कैसे डाउनलोड कर सकता हूं।

152 python web-scraping

16

अजगर और ब्यूटीफुल का उपयोग करके वेब पेज से लिंक प्राप्त करें

मैं एक वेबपेज के लिंक कैसे प्राप्त कर सकता हूं और पायथन का उपयोग करके लिंक के यूआरएल पते की नकल कर सकता हूं?

141 python web-scraping hyperlink beautifulsoup

7

कठपुतली:। चर मूल्यांकन में चर ()

मैं Puppeteer में एक page.evaluate()फंक्शन में एक वैरिएबल को पास करने की कोशिश कर रहा हूं , लेकिन जब मैं निम्नलिखित बहुत सरलीकृत उदाहरण का उपयोग करता हूं, तो वैरिएबल अपरिभाषित है।evalVar मैं कठपुतली के लिए नया हूँ और निर्माण करने के लिए कोई उदाहरण नहीं खोज सकता, इसलिए मुझे …

128 javascript web-scraping evaluate puppeteer

4

ब्राउज़र विज़िट को नकली करने के लिए पायथन अनुरोधों का उपयोग कैसे करें?

मैं नीचे दी गई वेबसाइट से सामग्री प्राप्त करना चाहता हूं। यदि मैं फ़ायरफ़ॉक्स या क्रोम जैसे ब्राउज़र का उपयोग करता हूं तो मुझे वह असली वेबसाइट पेज मिल सकता है जिसे मैं चाहता हूं, लेकिन अगर मैं wgetइसे प्राप्त करने के लिए पायथन अनुरोध पैकेज (या कमांड) का उपयोग …

127 python html web-scraping python-requests wget

17

स्क्रैपिंग: SSL: CERTIFICATE_VERIFY_FAILED त्रुटि http://en.wikipedia.org के लिए

मैं 'वेब स्क्रेपिंग विथ पायथन' के कोड का अभ्यास कर रहा हूं, और मुझे यह प्रमाणपत्र समस्या रहती है: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in …

123 python web-scraping beautifulsoup scrapy ssl-certificate

2

वेबसाइट से डेटा स्क्रैप करने का सबसे अच्छा तरीका क्या है? [बन्द है]

बंद हो गया । यह सवाल राय आधारित है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि इस पोस्ट को संपादित करके तथ्यों और उद्धरणों के साथ उत्तर दिया जा सके । 6 साल पहले बंद हुआ …

107 api web-scraping screen-scraping

2

गतिशील पृष्ठ के लिए स्क्रैप के साथ सेलेनियम

मैं एक वेबपेज से उत्पाद जानकारी को स्क्रैप करने के लिए उपयोग करने की कोशिश कर रहा हूं। इस तरह दिखता है मेरा-टू-स्क्रेप्ड वेबपेज: 10 उत्पादों के साथ एक product_list पृष्ठ से शुरू होता है "अगला" बटन पर क्लिक करने से अगले 10 उत्पाद लोड हो जाते हैं (दो पृष्ठों …

85 python selenium selenium-webdriver web-scraping scrapy

web-scraping पर टैग किए गए जवाब