विकट करने के लिए विकल्प

13

मेरे पास एक सर्वर पर एक साइट है जो मूल रूप से HTML पृष्ठों, चित्रों और ध्वनियों का एक गुच्छा है।

मैंने उस सर्वर पर अपना पासवर्ड खो दिया है और मुझे वहां जमा होने वाली हर चीज को हथियाने की जरूरत है। मैं पृष्ठ दर पृष्ठ जा सकता हूं और सब कुछ बचा सकता हूं लेकिन साइट में 100 से अधिक पृष्ठ हैं।

मैं OSX का उपयोग कर रहा हूं। मैंने उपयोग करने की कोशिश की है wgetलेकिन मुझे लगता है कि सर्वर इसे रोक रहा है।

क्या कोई विकल्प है जो मैं उस सामग्री को हड़पने के लिए उपयोग कर सकता हूँ?

wget

— Spacedog
स्रोत

यदि आपके पास सर्वर तक भौतिक पहुंच है, तो एकल उपयोगकर्ता मोड में बूट करें और अपना पासवर्ड पुनर्प्राप्त करें। debuntu.org/…

— spuder

15

यदि सर्वर wget को ब्लॉक कर रहा है, तो यह http हेडर के "उपयोगकर्ता-एजेंट:" फ़ील्ड के आधार पर सबसे अधिक संभावना है, क्योंकि यह पहली बार में पता करने का एकमात्र तरीका है। यह आपके IP को ब्लॉक भी कर सकता है, ऐसे में अलग-अलग सॉफ्टवेयर का उपयोग करने से कोई मदद नहीं मिलेगी, या कुछ स्कीम जो ऑटोमेशन की पहचान इस आधार पर करती हैं कि रिक्वेस्ट कितनी तेजी से होती हैं (क्योंकि असली लोग 3.2 सेकंड में 100 पेज ब्राउज़ नहीं करते हैं) । मैंने किसी को ऐसा करते हुए नहीं सुना है, लेकिन यह संभव है।

मैंने यह भी नहीं किया है कि डगमगाने को धीमा करने का एक तरीका है, लेकिन उपयोगकर्ता-एजेंट फ़ील्ड को ख़राब करने का एक तरीका है:

wget --user-agent=""

मैन पेज ड्रॉप के अनुसार "उपयोगकर्ता-एजेंट:" पूरी तरह से, क्योंकि यह अनिवार्य नहीं है। यदि सर्वर ऐसा नहीं करता है, तो कोशिश करें कि वह --user-agent="Mozilla/5.0"पर्याप्त होना चाहिए।

बेशक, यह मदद करेगा यदि आपने बेहतर समझाया कि आप क्यों सोचते हैं कि "सर्वर अवरुद्ध है"। क्या कुछ भी कहना भूल जाता है, या सिर्फ समय निकल जाता है?

— गोल्डीलॉक्स
स्रोत

अरे हां! धन्यवाद। मुझे लगता है कि मदद पर चूक हो गई है। यह अब काम कर रहा है!!!!!!!!!!!!!!!!!!!!!!!!

— स्पेसडॉग

5

wgetप्रश्नों के बीच प्रतीक्षा करने, रेट या डाउनलोड की गई राशि को सीमित करने के लिए कई विकल्प हैं। infoविवरण के लिए पृष्ठ की जाँच करें ।

— स्टीफन चेज़लस

6

मैं आमतौर पर httrackकिसी साइट से वेब सामग्री को डाउनलोड / मिरर करने के लिए उपयोग करता हूं ।

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

इसके बाद यह चलता है कि आप एक निर्देशिका संरचना के साथ बचे हैं जो स्थानीय और ब्राउज़ करने योग्य है। उदाहरण के लिए:

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

जैसा कि आप डाउनलोड करते हैं, आप निम्न प्रकार के आउटपुट देखेंगे:

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

इसे पृष्ठभूमि और / या गर्भपात किया जा सकता है और बाद में फिर से शुरू किया जा सकता है। यह सुविधाओं के मामले में हिमशैल का सिर्फ एक सिरा है। डाउनलोड को सेट करने और उसकी प्रगति होने के साथ ही इसकी निगरानी के लिए एक GUI भी है।

httrackवेबसाइट पर और googling द्वारा व्यापक प्रलेखन है ।

— slm
स्रोत