web-crawler पर टैग किए गए जवाब

एक वेब क्रॉलर (जिसे वेब स्पाइडर के रूप में भी जाना जाता है) एक कंप्यूटर प्रोग्राम है जो वर्ल्ड वाइड वेब को एक व्यवस्थित, स्वचालित तरीके से या क्रमबद्ध तरीके से तैयार करता है। वेब क्रॉलर के लिए अन्य शब्द चींटियों, स्वचालित इंडेक्सर्स, बॉट, वेब स्पाइडर, वेब रोबोट, या - विशेष रूप से एफओएएफ समुदाय में - वेब स्क्रूटर्स हैं।

5
Google से मेरी वेबसाइट को फिर से क्रॉल करने का अनुरोध कैसे करें? [बन्द है]
बन्द है। यह प्रश्न स्टैक ओवरफ्लो दिशानिर्देशों को पूरा नहीं करता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? सवाल को अपडेट करें ताकि यह स्टैक ओवरफ्लो के लिए विषय पर हो । 5 साल पहले बंद हुआ । इस प्रश्न …
227 seo  web-crawler 

2
पायथन में अनुरोध पुस्तकालय का उपयोग करके "उपयोगकर्ता-एजेंट" भेजना
मैं "User-agent"पायथन अनुरोधों का उपयोग करते हुए एक वेबपेज का अनुरोध करते हुए एक मूल्य भेजना चाहता हूं । मुझे यकीन नहीं है कि क्या हेडर के एक हिस्से के रूप में इसे भेजना ठीक है, जैसा कि नीचे दिए गए कोड में है: debug = {'verbose': sys.stderr} user_agent = …

4
अधूरा स्रोत फ़ाइलों को हटाने से rsync रखें
मेरे पास दो मशीनें हैं, गति और द्रव्यमान। गति में एक तेज़ इंटरनेट कनेक्शन है और एक क्रॉलर चला रहा है जो डिस्क में बहुत सारी फ़ाइलों को डाउनलोड करता है। द्रव्यमान में बहुत अधिक डिस्क स्थान है। मैं डाउनलोड करने के बाद फ़ाइलों को गति से द्रव्यमान में स्थानांतरित …

8
SundSoup और Scrapy क्रॉलर के बीच अंतर?
मैं एक ऐसी वेबसाइट बनाना चाहता हूं, जो अमेज़ॅन और ई-बे उत्पाद की कीमत के बीच तुलना दिखाती है। इनमें से कौन बेहतर काम करेगा और क्यों? मैं BeautifulSoup से कुछ हद तक परिचित हूं लेकिन स्क्रेपी क्रॉलर के साथ ऐसा नहीं है ।


11
प्रत्येक डॉकर छवि के लिए परतों और परत के आकार का पता लगाना
अनुसंधान प्रयोजनों के लिए मैं सार्वजनिक डॉकर रजिस्ट्री ( https://registry.hub.docker.com/ ) को क्रॉल करने की कोशिश कर रहा हूं और यह पता लगाता हूं कि 1) औसतन एक छवि पाने के लिए इन परतों के आकार में कितनी परतें हैं और 2) वितरण का विचार। हालाँकि मैंने जीआईटीबी पर एपीआई …

11
'चुपके' वेब-क्रॉलर का पता लगाना
वेब-क्रॉलर का पता लगाने के लिए क्या विकल्प हैं जो पता नहीं करना चाहते हैं? (मुझे पता है कि लिस्टिंग डिटेक्शन तकनीक स्मार्ट स्टील्थ-क्रॉलर प्रोग्रामर को एक बेहतर मकड़ी बनाने की अनुमति देगी, लेकिन मुझे नहीं लगता कि हम कभी भी स्मार्ट स्टील्थ-क्रॉलर को ब्लॉक कर पाएंगे, केवल वही जो …
107 web-crawler 

2
TypeError: बाइट्स जैसी ऑब्जेक्ट पर एक स्ट्रिंग पैटर्न का उपयोग re.findall () में नहीं कर सकता
मैं यह जानने की कोशिश कर रहा हूं कि एक पृष्ठ से स्वचालित रूप से url कैसे प्राप्त करें। निम्नलिखित कोड में मैं वेबपेज का शीर्षक पाने की कोशिश कर रहा हूं: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html …

5
स्क्रैपी स्पाइडर में उपयोगकर्ता परिभाषित तर्क कैसे पारित करें
मैं एक उपयोगकर्ता परिभाषित तर्क को एक स्क्रैपर्स मकड़ी को पारित करने की कोशिश कर रहा हूं। क्या कोई सुझाव दे सकता है कि वह कैसे करे? मैंने एक पैरामीटर के बारे में -aकहीं पढ़ा है लेकिन इसका उपयोग करने का कोई तरीका नहीं है।

5
कैसे एक वेबसाइट पर सभी लिंक / पृष्ठों को खोजने के लिए
क्या किसी भी वेबसाइट पर सभी पृष्ठों और लिंक को ढूंढना संभव है? मैं एक URL दर्ज करना चाहता हूं और उस साइट से सभी लिंक का डायरेक्टरी ट्री तैयार कर सकता हूं? मैंने HTTrack को देखा है, लेकिन यह पूरी साइट को डाउनलोड करता है और मुझे केवल डायरेक्टरी …

8
किसी साइट से URL की सूची प्राप्त करें [बंद]
बन्द है। यह प्रश्न स्टैक ओवरफ्लो दिशानिर्देशों को पूरा नहीं करता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? सवाल को अपडेट करें ताकि यह स्टैक ओवरफ्लो के लिए विषय पर हो । 4 साल पहले बंद हुआ । इस प्रश्न …

10
मैं किसी एकल स्क्रेपी परियोजना में विभिन्न मकड़ियों के लिए विभिन्न पाइपलाइनों का उपयोग कैसे कर सकता हूं
मेरे पास एक स्क्रैपी प्रोजेक्ट है जिसमें कई स्पाइडर हैं। क्या कोई तरीका है जो मैं परिभाषित कर सकता हूं कि किस मकड़ी के लिए कौन सी पाइपलाइनों का उपयोग करना है? मेरे द्वारा परिभाषित सभी पाइपलाइन हर मकड़ी के लिए लागू नहीं हैं। धन्यवाद

10
बॉट से ईमेल पता छिपाएं - मेलआउट रखें:
tl; डॉ स्क्रिप्ट का उपयोग किए बिना बॉट से ईमेल पता छुपाएं और mailto:कार्यक्षमता बनाए रखें । विधि को स्क्रीन-पाठकों का भी समर्थन करना चाहिए। सारांश स्क्रिप्ट या संपर्क प्रपत्रों का उपयोग किए बिना ईमेल ऑब्सफैक्शन ईमेल पता पूरी तरह से मानव दर्शकों के लिए दृश्यमान होना चाहिए और कार्यक्षमता …
81 html  css  web-crawler  mailto 
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.