अनिवार्य रूप से, मैं पूरी साइट को Wget के साथ क्रॉल करना चाहता हूं, लेकिन मुझे इसकी आवश्यकता अन्य परिसंपत्तियों (जैसे इमेजरी, सीएसएस, जेएस, आदि) को डाउनलोड करने में है। मुझे केवल HTML फाइलें चाहिए।
Google खोज पूरी तरह से बेकार हैं।
यहाँ एक कमांड मैंने कोशिश की है:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
हमारी साइट हाइब्रिड फ्लैट-पीएचपी और सीएमएस है। तो, एचटीएमएल "फ़ाइलें" हो सकता है /path/to/page
, /path/to/page/
, /path/to/page.php
, या /path/to/page.html
।
मैंने भी शामिल किया है, -R js,css
लेकिन यह अभी भी फ़ाइलों को डाउनलोड करता है, उन्हें अस्वीकार करता है (बैंडविड्थ, सीपीयू और सर्वर लोड के बेकार अपशिष्ट!)।
Length: 558 [text/css]
उन फाइलों पर ध्यान देता हूं जो मैं नहीं चाहता। अगर हेडर वापस नहीं आता है text/html
, तो मैं अनुरोध रोक सकता हूं , मैं समाप्त हो जाऊंगा।