जिस तरह से waybackURL स्वरूपित किए गए हैं वे इस प्रकार हैं:
http://$BASEURL/$TIMESTAMP/$TARGET
यहाँ BASEURLआमतौर पर http://web.archive.org/web(मैं आमतौर पर कहता हूँ कि मैं अनिश्चित हूँ अगर यह एकमात्र आधार है)
TARGETस्व व्याख्यात्मक है (आपके मामले में http://nature.com, या कुछ समान URL)
TIMESTAMPहै YYYYmmddHHMMssजब कब्जा (यूटीसी में) किया गया था:
YYYY: साल
mm: महीना (2 अंक - 01 से 12)
dd: महीने का दिन (2 अंक - 01 से 31)
HH: घंटा (2 अंक - 00 से 23)
MM: मिनट (2 अंक - 00 से 59)
ss: दूसरा (2 अंक - 00 से 59)
यदि आप उस कैप्चर टाइम का अनुरोध करते हैं जो मौजूद नहीं है, तो वेकबैक मशीन उस URL के निकटतम कैप्चर पर पुनर्निर्देश करती है, चाहे वह भविष्य में हो या अतीत में।
आप URL के सेट को प्राप्त करने के लिए प्रत्येक दैनिक URL curl -I(HTTP HEAD) का उपयोग करने के लिए उस सुविधा का उपयोग कर सकते हैं:
BASEURL='http://web.archive.org/web'
TARGET="SET_THIS"
START=1325419200 # Jan 1 2012 12:00:00 UTC (Noon)
END=1356998400 # Tue Jan 1 00:00:00 UTC 2013
if uname -s |grep -q 'Darwin' ; then
DATECMD="date -u '+%Y%m%d%H%M%S' -r "
elif uname -s |grep -q 'Linux'; then
DATECMD="date -u +%Y%m%d%H%M%S -d @"
fi
while [[ $START -lt $END ]]; do
TIMESTAMP=$(${DATECMD}$START)
REDIRECT="$(curl -sI "$BASEURL/$TIMESTAMP/$TARGET" |awk '/^Location/ {print $2}')"
if [[ -z "$REDIRECT" ]]; then
echo "$BASEURL/$TIMESTAMP/$TARGET"
else
echo $REDIRECT
fi
START=$((START + 86400)) # add 24 hours
done
यह आपको 2012 के प्रत्येक दिन दोपहर के करीब आने वाले URL प्राप्त करता है। बस डुप्लिकेट हटा दें, और, और पेज डाउनलोड करें।
नोट: उपरोक्त स्क्रिप्ट को संभवतः REDIRECTभविष्य में 1 दिन से अधिक URL के लिए आगे बढ़ने के लिए बहुत बेहतर बनाया जा सकता है , लेकिन फिर उसे लौटाए गए URL को डिकंस्ट्रक्ट STARTकरने और सही तिथि मान को समायोजित करने की आवश्यकता होती है ।