web-scraping पर टैग किए गए जवाब

वेब स्क्रैपिंग उन वेबसाइटों से विशिष्ट जानकारी निकालने की प्रक्रिया है जो आसानी से एक एपीआई या स्वचालित डेटा पुनर्प्राप्ति के अन्य तरीके प्रदान नहीं करते हैं। "कैसे स्क्रैपिंग के साथ शुरू करने के लिए" (जैसे एक्सेल VBA के साथ) के बारे में प्रश्न * कई कार्यात्मक कोड नमूने उपलब्ध हैं के रूप में * पूरी तरह से शोध * होना चाहिए। वेब स्क्रैपिंग विधियों में 3-पार्टी एप्लिकेशन, कस्टम सॉफ़्टवेयर का विकास या मानकीकृत तरीके से मैन्युअल डेटा संग्रह शामिल हैं।

30
HTML स्क्रैपिंग के लिए विकल्प? [बन्द है]
बंद हो गया । इस प्रश्न पर अधिक ध्यान देने की आवश्यकता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह इस पोस्ट को संपादित करके केवल एक समस्या पर केंद्रित हो । 6 साल पहले …

16
कक्षा द्वारा तत्वों को कैसे खोजना है
मुझे सुंदर वर्ग का उपयोग करके "वर्ग" विशेषता वाले HTML तत्वों को पार्स करने में समस्या हो रही है। कोड इस तरह दिखता है soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div मुझे स्क्रिप्ट खत्म होने के बाद उसी लाइन पर "त्रुटि" …

3
सिर रहित ब्राउज़र और स्क्रैपिंग - समाधान [बंद]
बन्द है। यह प्रश्न स्टैक ओवरफ्लो दिशानिर्देशों को पूरा नहीं करता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? सवाल को अपडेट करें ताकि यह स्टैक ओवरफ्लो के लिए विषय पर हो । 5 साल पहले बंद हुआ । मैं ब्राउज़र …

6
मैं किसी भी URL या वेब पेज की Google कैश आयु कैसे प्राप्त कर सकता हूं? [बन्द है]
बन्द है। यह प्रश्न स्टैक ओवरफ्लो दिशानिर्देशों को पूरा नहीं करता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? सवाल को अपडेट करें ताकि यह स्टैक ओवरफ्लो के लिए विषय पर हो । 2 साल पहले बंद हुआ । इस प्रश्न …

3
कौन सा HTML Parser सबसे अच्छा है? [बन्द है]
जैसा कि वर्तमान में खड़ा है, यह प्रश्न हमारे प्रश्नोत्तर प्रारूप के लिए एक अच्छा फिट नहीं है। हम तथ्यों, संदर्भों या विशेषज्ञता के आधार पर उत्तर देने की अपेक्षा करते हैं, लेकिन इस सवाल पर बहस, बहस, मतदान या विस्तारित चर्चा की संभावना होगी। यदि आपको लगता है कि …

13
पायथन का उपयोग करके सेलेनियम के साथ ड्रॉप-डाउन मेनू मान का चयन कैसे करें?
मुझे ड्रॉप-डाउन मेनू से एक तत्व का चयन करने की आवश्यकता है । उदाहरण के लिए: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) सबसे पहले मुझे उस पर क्लिक करना है। मैं यह करता हूँ: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) उसके बाद मुझे अच्छे …

14
पायथन के साथ वेब-स्क्रैपिंग जावास्क्रिप्ट पृष्ठ
मैं एक साधारण वेब स्क्रैपर विकसित करने की कोशिश कर रहा हूं। मैं HTML कोड के बिना पाठ निकालना चाहता हूं। वास्तव में, मैं इस लक्ष्य को प्राप्त करता हूं, लेकिन मैंने देखा है कि कुछ पृष्ठों में जहां जावास्क्रिप्ट लोड होता है, मुझे अच्छे परिणाम नहीं मिले। उदाहरण के …

4
XML पैकेज का उपयोग करके आर टेबल को आर डेटा फ्रेम में स्क्रैप करना
XML पैकेज का उपयोग करके मैं html तालिकाओं को कैसे परिमार्जन करूं? उदाहरण के लिए, ब्राज़ीलियाई फुटबॉल टीम के इस विकिपीडिया पृष्ठ को लें । मैं इसे आर में पढ़ना चाहता हूं और "फीफा मान्यता प्राप्त टीमों के खिलाफ ब्राजील द्वारा खेले गए सभी मैचों की सूची" प्राप्त करना चाहता …
153 html  r  xml  parsing  web-scraping 

13
पायथन का उपयोग करके स्थानीय रूप से एक छवि को कैसे बचाया जाए जिसका URL पता मुझे पहले से पता है?
मैं इंटरनेट पर एक छवि का URL जानता हूं। जैसे http://www.digimouth.com/news/media/2011/09/google-logo.jpg , जिसमें Google का लोगो है। अब, मैं वास्तव में एक ब्राउज़र में URL को खोलने और फ़ाइल को मैन्युअल रूप से सहेजे बिना पायथन का उपयोग करके इस छवि को कैसे डाउनलोड कर सकता हूं।


7
कठपुतली:। चर मूल्यांकन में चर ()
मैं Puppeteer में एक page.evaluate()फंक्शन में एक वैरिएबल को पास करने की कोशिश कर रहा हूं , लेकिन जब मैं निम्नलिखित बहुत सरलीकृत उदाहरण का उपयोग करता हूं, तो वैरिएबल अपरिभाषित है।evalVar मैं कठपुतली के लिए नया हूँ और निर्माण करने के लिए कोई उदाहरण नहीं खोज सकता, इसलिए मुझे …

4
ब्राउज़र विज़िट को नकली करने के लिए पायथन अनुरोधों का उपयोग कैसे करें?
मैं नीचे दी गई वेबसाइट से सामग्री प्राप्त करना चाहता हूं। यदि मैं फ़ायरफ़ॉक्स या क्रोम जैसे ब्राउज़र का उपयोग करता हूं तो मुझे वह असली वेबसाइट पेज मिल सकता है जिसे मैं चाहता हूं, लेकिन अगर मैं wgetइसे प्राप्त करने के लिए पायथन अनुरोध पैकेज (या कमांड) का उपयोग …

17
स्क्रैपिंग: SSL: CERTIFICATE_VERIFY_FAILED त्रुटि http://en.wikipedia.org के लिए
मैं 'वेब स्क्रेपिंग विथ पायथन' के कोड का अभ्यास कर रहा हूं, और मुझे यह प्रमाणपत्र समस्या रहती है: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in …

2
वेबसाइट से डेटा स्क्रैप करने का सबसे अच्छा तरीका क्या है? [बन्द है]
बंद हो गया । यह सवाल राय आधारित है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि इस पोस्ट को संपादित करके तथ्यों और उद्धरणों के साथ उत्तर दिया जा सके । 6 साल पहले बंद हुआ …

2
गतिशील पृष्ठ के लिए स्क्रैप के साथ सेलेनियम
मैं एक वेबपेज से उत्पाद जानकारी को स्क्रैप करने के लिए उपयोग करने की कोशिश कर रहा हूं। इस तरह दिखता है मेरा-टू-स्क्रेप्ड वेबपेज: 10 उत्पादों के साथ एक product_list पृष्ठ से शुरू होता है "अगला" बटन पर क्लिक करने से अगले 10 उत्पाद लोड हो जाते हैं (दो पृष्ठों …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.