web-crawler पर टैग किए गए जवाब

5
ईबुक के लिए वेब पेज को एक फाइल में बदलें
मैं एचटीएमएल डाउनलोड करना चाहता हूं (उदाहरण: http://www.brpreiss.com/books/opus6/ ) और इसे एक एचटीएमएल या किसी अन्य प्रारूप में शामिल कर सकता हूं जिसे मैं ईबुक रीडर पर उपयोग कर सकता हूं। मुफ्त पुस्तकों वाली साइट में मानक पेजिंग नहीं है, वे ब्लॉग या फ़ोरम नहीं हैं, इसलिए कुछ स्वचालित क्रॉलिंग …


2
केवल HTML फ़ाइलों को डाउनलोड करने के लिए wget का उपयोग करके क्रॉल कैसे करें (चित्र, सीएसएस, js को अनदेखा करें)
अनिवार्य रूप से, मैं पूरी साइट को Wget के साथ क्रॉल करना चाहता हूं, लेकिन मुझे इसकी आवश्यकता अन्य परिसंपत्तियों (जैसे इमेजरी, सीएसएस, जेएस, आदि) को डाउनलोड करने में है। मुझे केवल HTML फाइलें चाहिए। Google खोज पूरी तरह से बेकार हैं। यहाँ एक कमांड मैंने कोशिश की है: wget …
14 wget  web-crawler 

4
रीसेंटली क्रॉल करने के लिए एक साइट और डाउनलोड छवियों के लिए विंग का उपयोग करना
आप एक वेबसाइट को फिर से कैसे क्रॉल करने का निर्देश देते हैं और केवल कुछ प्रकार के चित्र डाउनलोड करते हैं? मैंने एक साइट को क्रॉल करने के लिए इसका उपयोग करने की कोशिश की और केवल Jpeg चित्र डाउनलोड किया: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html …

4
CURL का उपयोग करके साइट को "कानूनी" कैसे किया जाता है? [बन्द है]
जैसा कि वर्तमान में खड़ा है, यह प्रश्न हमारे प्रश्नोत्तर प्रारूप के लिए एक अच्छा फिट नहीं है। हम तथ्यों, संदर्भों या विशेषज्ञता के आधार पर उत्तर दिए जाने की अपेक्षा करते हैं, लेकिन इस सवाल पर बहस, बहस, मतदान या विस्तारित चर्चा की संभावना होगी। यदि आपको लगता है …

1
वेब स्पाइडर / डाउनलोड प्रोग्राम की तलाश है जो मौजूदा ब्राउज़र कुकीज़ का उपयोग कर सकता है और जावास्क्रिप्ट को बंद कर सकता है [बंद]
मैं एक वेब साइट को मकड़ी * और डिस्क पर सामग्री डाउनलोड करने के लिए एक कार्यक्रम की तलाश कर रहा हूं। हालांकि मुझे निम्नलिखित आवश्यकताएं हैं जो उन कार्यक्रमों की यात्रा करने के लिए दिखाई देती हैं जो मैंने कोशिश की हैं: साइट की लॉगऑन प्रक्रिया कई पृष्ठों के …

2
वेब स्क्रैपिंग / क्रॉलिंग एक विशेष Google पुस्तक
अपने काम के लिए, मुझे Google पुस्तकें पर एक बड़ी पुस्तक से पाठ को परिमार्जन करने की आवश्यकता है। विचाराधीन पुस्तक बहुत पुरानी पुस्तक है और कॉपीराइट से बाहर है। पुस्तक विश्व का एक गजेटियर है। हम पाठ को एक डेटाबेस में डालेंगे, इसलिए हमें पीडीएफ के बजाय कच्चे पाठ …

3
दिए गए अंतराल में वेब पेज से जानकारी निकालना
मुझे एक समस्या है। मुझे 800 रिकॉर्ड की तरह कुछ निकालने की ज़रूरत है और इसे मैन्युअल रूप से करने में कई दिन लगेंगे। कुछ फ़ील्ड्स को फॉर्म (हमेशा समान) और फिर दिए गए अंतराल में एक चर डालकर जानकारी ली जा सकती है। पृष्ठ सादे पाठ में मापदंडों को …

2
एक फ़ोल्डर में 300k फ़ाइलों को संग्रहीत करने से समस्याएं हो सकती हैं?
मैं wget का उपयोग करके एक बड़ी वेबसाइट (200k पृष्ठों से अधिक) को क्रॉल कर रहा हूं (क्या बेहतर टूल btw है?)। Wget सभी फाइलों को एक डायरेक्टरी में सेव कर रहा है। विभाजन एचएफएस (मुझे लगता है), क्या यह समस्याओं का कारण होगा अगर मेरे पास एक डीआईआर में …

1
ब्लैक लिस्ट के कारण wget लोड नहीं करने का निर्णय करता है
मैं एक वेब साइट की पूरी प्रतिलिपि बनाने की कोशिश कर रहा हूं; जैसे, http://vfilesarchive.bgmod.com/files/ मैं चल रहा हुँ wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/ और, उदाहरण के लिए Deciding whether to enqueue "http://vfilesarchive.bgmod.com/files/Half-Life%D0%92%D0%86/". Already on the black list. Decided NOT to load it. क्या हो रहा है? wget"ब्लैक …

1
स्पाइडर / वेबसाइट क्रॉल करें और CSV फ़ाइल में प्रत्येक URL और पृष्ठ शीर्षक प्राप्त करें
मैं एक पुराने ASP शॉपिंग कार्ट साइट से एक Drupal / Ubercart साइट पर जा रहा हूं। इस कदम का एक हिस्सा यह सुनिश्चित करना है कि पुराने लिंक नए लोगों को पुनर्निर्देशित करेंगे। ऐसा करने के लिए मुझे पुरानी साइट से सभी लिंक की सूची प्राप्त करने के लिए …

1
Google ने एक अनलिंक किए गए पृष्ठ को अनुक्रमित किया [बंद]
Google ने मेरी साइट पर एक पृष्ठ अनुक्रमित किया जो किसी अन्य पृष्ठ से लिंक नहीं था, कभी भी। किसी ने कभी भी इसके लिए लिंक नहीं डाला है, और निर्देशिका सामग्री ब्राउज़ करने योग्य नहीं थी। यह कैसे हो सकता है? मुझे लगा कि क्रॉलर के पास एक पेज …
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.