जिस तरह से wayback
URL स्वरूपित किए गए हैं वे इस प्रकार हैं:
http://$BASEURL/$TIMESTAMP/$TARGET
यहाँ BASEURL
आमतौर पर http://web.archive.org/web
(मैं आमतौर पर कहता हूँ कि मैं अनिश्चित हूँ अगर यह एकमात्र आधार है)
TARGET
स्व व्याख्यात्मक है (आपके मामले में http://nature.com
, या कुछ समान URL)
TIMESTAMP
है YYYYmmddHHMMss
जब कब्जा (यूटीसी में) किया गया था:
YYYY
: साल
mm
: महीना (2 अंक - 01 से 12)
dd
: महीने का दिन (2 अंक - 01 से 31)
HH
: घंटा (2 अंक - 00 से 23)
MM
: मिनट (2 अंक - 00 से 59)
ss
: दूसरा (2 अंक - 00 से 59)
यदि आप उस कैप्चर टाइम का अनुरोध करते हैं जो मौजूद नहीं है, तो वेकबैक मशीन उस URL के निकटतम कैप्चर पर पुनर्निर्देश करती है, चाहे वह भविष्य में हो या अतीत में।
आप URL के सेट को प्राप्त करने के लिए प्रत्येक दैनिक URL curl -I
(HTTP HEAD
) का उपयोग करने के लिए उस सुविधा का उपयोग कर सकते हैं:
BASEURL='http://web.archive.org/web'
TARGET="SET_THIS"
START=1325419200 # Jan 1 2012 12:00:00 UTC (Noon)
END=1356998400 # Tue Jan 1 00:00:00 UTC 2013
if uname -s |grep -q 'Darwin' ; then
DATECMD="date -u '+%Y%m%d%H%M%S' -r "
elif uname -s |grep -q 'Linux'; then
DATECMD="date -u +%Y%m%d%H%M%S -d @"
fi
while [[ $START -lt $END ]]; do
TIMESTAMP=$(${DATECMD}$START)
REDIRECT="$(curl -sI "$BASEURL/$TIMESTAMP/$TARGET" |awk '/^Location/ {print $2}')"
if [[ -z "$REDIRECT" ]]; then
echo "$BASEURL/$TIMESTAMP/$TARGET"
else
echo $REDIRECT
fi
START=$((START + 86400)) # add 24 hours
done
यह आपको 2012 के प्रत्येक दिन दोपहर के करीब आने वाले URL प्राप्त करता है। बस डुप्लिकेट हटा दें, और, और पेज डाउनलोड करें।
नोट: उपरोक्त स्क्रिप्ट को संभवतः REDIRECT
भविष्य में 1 दिन से अधिक URL के लिए आगे बढ़ने के लिए बहुत बेहतर बनाया जा सकता है , लेकिन फिर उसे लौटाए गए URL को डिकंस्ट्रक्ट START
करने और सही तिथि मान को समायोजित करने की आवश्यकता होती है ।