आप एक वेबसाइट को फिर से कैसे क्रॉल करने का निर्देश देते हैं और केवल कुछ प्रकार के चित्र डाउनलोड करते हैं?
मैंने एक साइट को क्रॉल करने के लिए इसका उपयोग करने की कोशिश की और केवल Jpeg चित्र डाउनलोड किया:
wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
हालाँकि, भले ही page1.html में उप -पृष्ठों के सैकड़ों लिंक शामिल हैं, जो स्वयं छवियों से सीधे लिंक रखते हैं, रिपोर्ट की चीजों को भूल जाते हैं जैसे "सबपेज 13.html हटाना क्योंकि इसे अस्वीकार कर दिया जाना चाहिए", और कभी भी कोई भी चित्र डाउनलोड नहीं करता है, क्योंकि कोई भी सीधे से जुड़ा नहीं है। शुरुआती पेज से।
मैं यह मान रहा हूं क्योंकि मेरे --accept को डाउनलोड करने के लिए क्रॉल और फ़िल्टर सामग्री दोनों को निर्देशित करने के लिए उपयोग किया जा रहा है, जबकि मैं चाहता हूं कि यह केवल सामग्री के डाउनलोड को निर्देशित करने के लिए उपयोग किया जाए। मैं सभी लिंक से wget क्रॉल कैसे कर सकता हूं, लेकिन * .jpeg जैसे कुछ एक्सटेंशन वाली फ़ाइलों को केवल डाउनलोड करें?
संपादित करें: इसके अलावा, कुछ पृष्ठ गतिशील हैं, और एक CGI स्क्रिप्ट (जैसे img.cgi; fo9s0f989wefw90e) के माध्यम से उत्पन्न होते हैं। यहां तक कि अगर मैं अपनी स्वीकारोक्ति सूची (जैसे --accept = jpg, jpeg, html, cgi) में cgi को जोड़ता हूं, तब भी ये हमेशा अस्वीकृत हो जाते हैं। क्या इसके चारों ओर एक रास्ता है?