मैं www.website.com/XYZ के तहत लिंक क्रॉल करना चाहूंगा और केवल उन लिंक को डाउनलोड करूंगा जो www.website.com/ABC के अंतर्गत हैं।
मैं फ़ाइलों को प्राप्त करने के लिए निम्नलिखित wget कमांड का उपयोग कर रहा हूं:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
यह पूरी तरह से काम करता है जब मैं 1.13.4 wget का उपयोग करता हूं। लेकिन समस्या यह है कि मुझे इस कमांड का उपयोग एक सर्वर पर करना है, जिसमें 1.11 की छूट है और जब मैं उसी कमांड का उपयोग करता हूं, तो यह अतिरिक्त डोमेन जैसे कि:
www.website.de
www.website.it
...
मैं इस समस्या से कैसे बच सकता हूं? मैंने प्रयोग करने की कोशिश की
--exclude domains=www.website.de,www.website.it
हालाँकि यह उन डोमेन को डाउनलोड करता रहा।
यह भी ध्यान दें कि मैं उपयोग नहीं कर सकता --no-parent
क्योंकि मैं चाहता हूं कि फाइलें ऊपरी स्तर पर हैं (मुझे वेबसाइट.com/ABC के तहत फ़ाइलें चाहिए। वेबसाइट.com/XYZ के तहत लिंक क्रॉल करके)।
कोई संकेत?
wget
डिफ़ॉल्ट रूप से मेजबानों को पार नहीं करना चाहिए, और आपको पुनरावर्ती दांव करते समय मेजबानों को पार करने के लिए -H
/ --span-hosts
विकल्प की आवश्यकता है । "www.website.com" "www.website.de" से पूरी तरह से अलग मेजबान है।
-H
हमेशा मूल मेजबान के बाहर पुनरावृत्ति करना आवश्यक है। -D www.website.com
मदद करता है?