URL पथ के अंतर्गत सामान डाउनलोड करें


0

मान लीजिए कि मेरे कुछ पृष्ठ हैं, जैसे www.abc.def / ghi / a.html; मैं www.abc.def / ghi के अंतर्गत सभी पेज कैसे डाउनलोड कर सकता हूं? (यानी www.abc.def / ghi / a.html, www.abc.def / ghi / b, ...)? अभी, मैं साधारण httrack http://www.abc.def/ghi/ -O <output-folder>कमांड का उपयोग कर रहा हूं , लेकिन यह कुछ साइटों के साथ विफल रहता है।

उदाहरण के लिए, जब मैं इसे http://www.getidekick.com/blog/ के साथ आज़माता हूं, तो यह कुछ भी डाउनलोड नहीं करता है। हालांकि, अगर मैं http://www.getsidekick.com/blog (गुम अंतिम स्लैश पर ध्यान देता हूं) का उपयोग कर रहा हूं, तो यह http://www.getidekick.com/blog/ के तहत सभी सामग्री को डाउनलोड करता है , लेकिन एक ही समय में यहां तक ​​कि http://www.getsidekick.com/ के तहत भी सामग्री । मुझे नहीं पता कि समस्या क्या हो सकती है (शायद यह तथ्य कि उन्होंने .htmlविस्तार नहीं किया है? उदाहरण के लिए http://www.getsidekick.com/blog/ultradian-rhythm-pomodoro-technique ) और मुझे नहीं मिला है मैनुअल या उनके आधिकारिक मंच पर एक काम कर समाधान।

इसके अलावा, मैं पहले से ही जानता हूं कि इसे कैसे करना है wget, लेकिन मैं उसी चीज को पूरा करना चाहता हूं httrack। तो, क्या ऐसा करने का कोई मानक तरीका है?

जवाबों:


0

यह पृष्ठ के प्रत्येक लिंक का अनुसरण कर रहा है, और शीर्ष स्तर पर वापस लिंक है।

wgetपुनरावर्ती और नो-पैरेंट विकल्पों के साथ उपयोग करने का प्रयास करें।

wget -r  --no-parent http://www.getsidekick.com/blog

क्षमा करें, शायद मुझे इसे प्रश्न में जोड़ना चाहिए था, लेकिन मैं पहले से ही जानता हूं कि इसे कैसे करना है wget, लेकिन मैं उसी चीज को पूरा करना चाहता हूं httrack
टाइगरजैक

मैंने आपका कोड ठीक करने की कोशिश की, लेकिन यह 6 से कम है, इसलिए मैं नहीं कर सकता। यह होना चाहिए --no-parent। Btw, मैंने आपके कोड की भी कोशिश की और, भले ही यह बहुत सारे सामान डाउनलोड करता हो, यह महत्वपूर्ण पृष्ठों को डाउनलोड नहीं करता है। जैसे पेज getsidekick.com/blog/stop-procrastinating-stay-focused बिल्कुल डाउनलोड नहीं किया गया है। आपको क्या लगता है कि ऐसा क्यों होता है?
टाइगरजैक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.