यूआरएल की सूची का HTTP स्टेटस कोड प्राप्त करने के लिए स्क्रिप्ट?

Question 1

मेरे पास URLS की एक सूची है जिसे मुझे जांचने की आवश्यकता है, यह देखने के लिए कि वे अभी भी काम करते हैं या नहीं। मैं एक बैश स्क्रिप्ट लिखना चाहूंगा जो मेरे लिए हो।

मुझे केवल दिए गए HTTP स्टेटस कोड की आवश्यकता है, यानी 200, 404, 500 और उसके बाद। और कुछ नहीं।

EDIT ध्यान दें कि एक समस्या है यदि पृष्ठ "404 नहीं मिला" कहता है, लेकिन एक 200 ओके संदेश लौटाता है। यह एक गलत वेब सर्वर है, लेकिन आपको इस मामले पर विचार करना पड़ सकता है।

इस पर अधिक जानकारी के लिए, देखें कि क्या कोई URL "404" टेक्स्ट वाले पृष्ठ पर जाता है

Question 2

इसके लिए कर्ल का एक विशिष्ट विकल्प है --write-out:

$ curl -o /dev/null --silent --head --write-out '%{http_code}\n' <url>
200

-o /dev/null सामान्य आउटपुट को निकाल फेंकता है
--silent प्रगति मीटर को दूर फेंकता है
--head GET के बजाय HEAD HTTP अनुरोध करता है
--write-out '%{http_code}\n' आवश्यक स्थिति कोड प्रिंट करता है

इसे पूरी बैश स्क्रिप्ट में लपेटने के लिए:

#!/bin/bash
while read LINE; do
  curl -o /dev/null --silent --head --write-out "%{http_code} $LINE\n" "$LINE"
done < url-list.txt

(ईगल-आईडेड रीडर्स ध्यान देंगे कि यह प्रति यूआरएल एक कर्ल प्रोसेस का उपयोग करता है, जो कांटा और टीसीपी कनेक्शन पेनल्टी लगाता है। यह बहुत तेजी से होगा यदि एक ही कर्ल में कई यूआरएल को जोड़ दिया गया, लेकिन राक्षस पुनरावृत्ति को लिखने के लिए जगह नहीं है। कर्ल करने के लिए विकल्प के विकल्प।

Question 3

wget --spider -S "http://url/to/be/checked" 2>&1 | grep "HTTP/" | awk '{print $2}'

आपके लिए केवल स्टेटस कोड प्रिंट करता है

Question 4

फिल द्वारा पहले से उपलब्ध कराए गए उत्तर का विस्तार। यदि आप कॉल के लिए xargs का उपयोग करते हैं, तो इसे समानांतर रूप से जोड़ना bash में कोई ब्रेनर नहीं है।

यहाँ कोड है:

xargs -n1 -P 10 curl -o /dev/null --silent --head --write-out '%{url_effective}: %{http_code}\n' < url.lst

-n1 : कर्ल कॉल के तर्क के रूप में (सूची से) सिर्फ एक मूल्य का उपयोग करें

-10 : किसी भी समय 10 कर्ल प्रक्रियाओं को जीवित रखें (यानी 10 समानांतर कनेक्शन)

write_outअधिक डेटा के लिए कर्ल के मैनुअल में पैरामीटर की जांच करें जिसे आप इसका उपयोग करके निकाल सकते हैं (समय, आदि)।

मामले में यह किसी को मदद करता है यह वह कॉल है जो मैं वर्तमान में उपयोग कर रहा हूं:

xargs -n1 -P 10 curl -o /dev/null --silent --head --write-out '%{url_effective};%{http_code};%{time_total};%{time_namelookup};%{time_connect};%{size_download};%{speed_download}\n' < url.lst | tee results.csv

यह सिर्फ csv फ़ाइल में डेटा का एक गुच्छा आउटपुट करता है जिसे किसी भी कार्यालय उपकरण में आयात किया जा सकता है।

Question 5

यह व्यापक रूप से उपलब्ध पर निर्भर करता है wget, लगभग हर जगह मौजूद है, यहां तक कि अल्पाइन लिनक्स पर भी।

wget --server-response --spider --quiet "${url}" 2>&1 | awk 'NR==1{print $2}'

स्पष्टीकरण इस प्रकार हैं:

--quiet

Wget का आउटपुट बंद करें।

स्रोत - wget मैन पेज

--spider

[...] यह पृष्ठों को डाउनलोड नहीं करेगा, बस जांच लें कि वे वहां हैं। [...]

स्रोत - wget मैन पेज

--server-response

HTTP सर्वर द्वारा भेजे गए हेडर और FTP सर्वर द्वारा भेजे गए प्रतिक्रियाओं को प्रिंट करें।

स्रोत - wget मैन पेज

वे जो नहीं कहते हैं, --server-responseवह यह है कि उन हेडर आउटपुट को मानक त्रुटि (sterr) पर प्रिंट किया जाता है , इस प्रकार स्टड को रीडायरेक्ट करने की आवश्यकता होती है ।

आउटपुट को मानक इनपुट पर भेजा जाता है, हम इसे awkHTTP स्थिति कोड निकालने के लिए पाइप कर सकते हैं । वह कोड है:

दूसरा ( $2) वर्णों का गैर-रिक्त समूह:{$2}
शीर्ष लेख की पहली पंक्ति पर: NR==1

और क्योंकि हम इसे प्रिंट करना चाहते हैं ... {print $2}।

wget --server-response --spider --quiet "${url}" 2>&1 | awk 'NR==1{print $2}'

Question 6

curlHTTP- हैडर को केवल (संपूर्ण फ़ाइल नहीं) लाने के लिए उपयोग करें और इसे पार्स करें:

$ curl -I  --stderr /dev/null http://www.google.co.uk/index.html | head -1 | cut -d' ' -f2
200

Question 7

wget -S -i *file* आप एक फ़ाइल में प्रत्येक यूआरएल से हेडर मिल जाएगा।

grepविशेष रूप से स्थिति कोड के लिए फ़िल्टर करें ।

Question 8

मुझे पायथन में लिखा एक टूल "वेबचैक" मिला, जो यूआरएल की सूची के लिए एक स्थिति कोड देता है। https://pypi.org/project/webchk/

आउटपुट इस तरह दिखता है:

▶ webchk -i ./dxieu.txt | grep '200'
http://salesforce-case-status.dxi.eu/login ... 200 OK (0.108)
https://support.dxi.eu/hc/en-gb ... 200 OK (0.389)
https://support.dxi.eu/hc/en-gb ... 200 OK (0.401)

उम्मीद है की वो मदद करदे!

Question 9

Https://mywiki.wooledge.org/BashPitashes#Non-atomic_writes_with_xargs_-P ( xargsमिश्रित नौकरियों में समानांतर नौकरियों से उत्पादन होने के कारण ), मैं GNU समानांतर का उपयोग समानांतर करने के बजाय करूंगा xargs:

cat url.lst |
  parallel -P0 -q curl -o /dev/null --silent --head --write-out '%{url_effective}: %{http_code}\n' > outfile

इस विशेष मामले में यह उपयोग करने के लिए सुरक्षित हो सकता है xargsक्योंकि आउटपुट बहुत कम है, इसलिए उपयोग करने के साथ समस्या xargsयह है कि यदि कोई बाद में कुछ बड़ा करने के लिए कोड को बदलता है, तो यह अब सुरक्षित नहीं होगा। या अगर कोई इस प्रश्न को पढ़ता है और सोचता है कि वह curlकिसी और चीज़ से बदल सकता है, तो वह भी सुरक्षित नहीं हो सकता है।