कंप्यूटर उपयोगकर्ता web-crawler

5

ईबुक के लिए वेब पेज को एक फाइल में बदलें

मैं एचटीएमएल डाउनलोड करना चाहता हूं (उदाहरण: http://www.brpreiss.com/books/opus6/ ) और इसे एक एचटीएमएल या किसी अन्य प्रारूप में शामिल कर सकता हूं जिसे मैं ईबुक रीडर पर उपयोग कर सकता हूं। मुफ्त पुस्तकों वाली साइट में मानक पेजिंग नहीं है, वे ब्लॉग या फ़ोरम नहीं हैं, इसलिए कुछ स्वचालित क्रॉलिंग …

23 ebook web-crawler

2

ईमेल पते पर @ कभी वेबपेजों पर [at] क्यों लिखा जाता है?

क्यों @ कभी-कभी वेबपेजों में [at] लिखा जाता है? क्या इसका कोई खास कारण है?

15 email html web spam-prevention web-crawler

2

केवल HTML फ़ाइलों को डाउनलोड करने के लिए wget का उपयोग करके क्रॉल कैसे करें (चित्र, सीएसएस, js को अनदेखा करें)

अनिवार्य रूप से, मैं पूरी साइट को Wget के साथ क्रॉल करना चाहता हूं, लेकिन मुझे इसकी आवश्यकता अन्य परिसंपत्तियों (जैसे इमेजरी, सीएसएस, जेएस, आदि) को डाउनलोड करने में है। मुझे केवल HTML फाइलें चाहिए। Google खोज पूरी तरह से बेकार हैं। यहाँ एक कमांड मैंने कोशिश की है: wget …

14 wget web-crawler

4

रीसेंटली क्रॉल करने के लिए एक साइट और डाउनलोड छवियों के लिए विंग का उपयोग करना

आप एक वेबसाइट को फिर से कैसे क्रॉल करने का निर्देश देते हैं और केवल कुछ प्रकार के चित्र डाउनलोड करते हैं? मैंने एक साइट को क्रॉल करने के लिए इसका उपयोग करने की कोशिश की और केवल Jpeg चित्र डाउनलोड किया: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html …

13 linux bash script web-crawler wget

4

CURL का उपयोग करके साइट को "कानूनी" कैसे किया जाता है? [बन्द है]

जैसा कि वर्तमान में खड़ा है, यह प्रश्न हमारे प्रश्नोत्तर प्रारूप के लिए एक अच्छा फिट नहीं है। हम तथ्यों, संदर्भों या विशेषज्ञता के आधार पर उत्तर दिए जाने की अपेक्षा करते हैं, लेकिन इस सवाल पर बहस, बहस, मतदान या विस्तारित चर्चा की संभावना होगी। यदि आपको लगता है …

12 php curl screen-scraping web-crawler

1

वेब स्पाइडर / डाउनलोड प्रोग्राम की तलाश है जो मौजूदा ब्राउज़र कुकीज़ का उपयोग कर सकता है और जावास्क्रिप्ट को बंद कर सकता है [बंद]

मैं एक वेब साइट को मकड़ी * और डिस्क पर सामग्री डाउनलोड करने के लिए एक कार्यक्रम की तलाश कर रहा हूं। हालांकि मुझे निम्नलिखित आवश्यकताएं हैं जो उन कार्यक्रमों की यात्रा करने के लिए दिखाई देती हैं जो मैंने कोशिश की हैं: साइट की लॉगऑन प्रक्रिया कई पृष्ठों के …

2 browser web-crawler

2

वेब स्क्रैपिंग / क्रॉलिंग एक विशेष Google पुस्तक

अपने काम के लिए, मुझे Google पुस्तकें पर एक बड़ी पुस्तक से पाठ को परिमार्जन करने की आवश्यकता है। विचाराधीन पुस्तक बहुत पुरानी पुस्तक है और कॉपीराइट से बाहर है। पुस्तक विश्व का एक गजेटियर है। हम पाठ को एक डेटाबेस में डालेंगे, इसलिए हमें पीडीएफ के बजाय कच्चे पाठ …

2 web web-crawler screen-scraping

3

दिए गए अंतराल में वेब पेज से जानकारी निकालना

मुझे एक समस्या है। मुझे 800 रिकॉर्ड की तरह कुछ निकालने की ज़रूरत है और इसे मैन्युअल रूप से करने में कई दिन लगेंगे। कुछ फ़ील्ड्स को फॉर्म (हमेशा समान) और फिर दिए गए अंतराल में एक चर डालकर जानकारी ली जा सकती है। पृष्ठ सादे पाठ में मापदंडों को …

1 internet web-crawler

2

एक फ़ोल्डर में 300k फ़ाइलों को संग्रहीत करने से समस्याएं हो सकती हैं?

मैं wget का उपयोग करके एक बड़ी वेबसाइट (200k पृष्ठों से अधिक) को क्रॉल कर रहा हूं (क्या बेहतर टूल btw है?)। Wget सभी फाइलों को एक डायरेक्टरी में सेव कर रहा है। विभाजन एचएफएस (मुझे लगता है), क्या यह समस्याओं का कारण होगा अगर मेरे पास एक डीआईआर में …

1 macos wget hfs web-crawler

1

ब्लैक लिस्ट के कारण wget लोड नहीं करने का निर्णय करता है

मैं एक वेब साइट की पूरी प्रतिलिपि बनाने की कोशिश कर रहा हूं; जैसे, http://vfilesarchive.bgmod.com/files/ मैं चल रहा हुँ wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/ और, उदाहरण के लिए Deciding whether to enqueue "http://vfilesarchive.bgmod.com/files/Half-Life%D0%92%D0%86/". Already on the black list. Decided NOT to load it. क्या हो रहा है? wget"ब्लैक …

1 download wget web-crawler

1

स्पाइडर / वेबसाइट क्रॉल करें और CSV फ़ाइल में प्रत्येक URL और पृष्ठ शीर्षक प्राप्त करें

मैं एक पुराने ASP शॉपिंग कार्ट साइट से एक Drupal / Ubercart साइट पर जा रहा हूं। इस कदम का एक हिस्सा यह सुनिश्चित करना है कि पुराने लिंक नए लोगों को पुनर्निर्देशित करेंगे। ऐसा करने के लिए मुझे पुरानी साइट से सभी लिंक की सूची प्राप्त करने के लिए …

1 csv drupal web-crawler

1

Google ने एक अनलिंक किए गए पृष्ठ को अनुक्रमित किया [बंद]

Google ने मेरी साइट पर एक पृष्ठ अनुक्रमित किया जो किसी अन्य पृष्ठ से लिंक नहीं था, कभी भी। किसी ने कभी भी इसके लिए लिंक नहीं डाला है, और निर्देशिका सामग्री ब्राउज़ करने योग्य नहीं थी। यह कैसे हो सकता है? मुझे लगा कि क्रॉलर के पास एक पेज …

web-crawler

web-crawler पर टैग किए गए जवाब