यदि आप gzip'ed सामग्री का अनुरोध करते हैं (स्वीकार-एन्कोडिंग का उपयोग करें: gzip हैडर, जो सही है), तो यह मेरी समझ है कि wget तब सामग्री को नहीं पढ़ सकता है। तो आप डिस्क पर पहले पेज के लिए सिंगल, gzipped फ़ाइल के साथ समाप्त हो जाएंगे, लेकिन आपके पास कोई अन्य सामग्री नहीं होगी।
अर्थात आप gzipped सामग्री का अनुरोध करने के लिए और एक ही समय में पूरी साइट को पुनः प्राप्त करने के लिए wget का उपयोग नहीं कर सकते।
मुझे लगता है कि एक पैच है जो इस फ़ंक्शन का समर्थन करने की अनुमति देता है लेकिन यह डिफ़ॉल्ट वितरण संस्करण में नहीं है।
यदि आप -S ध्वज को शामिल करते हैं, तो आप बता सकते हैं कि वेब सर्वर सही प्रकार की सामग्री के साथ प्रतिक्रिया कर रहा है या नहीं। उदाहरण के लिए,
wget -S --header="accept-encoding: gzip" wordpress.com
--2011-06-17 16:06:46-- http://wordpress.com/
Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126
Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Server: nginx
Date: Fri, 17 Jun 2011 15:06:47 GMT
Content-Type: text/html; charset=UTF-8
Connection: close
Vary: Accept-Encoding
Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000
Cache-Control: max-age=190, must-revalidate
Vary: Cookie
X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.
X-Pingback: http://wordpress.com/xmlrpc.php
Link: <http://wp.me/1>; rel=shortlink
X-nananana: Batcache
Content-Encoding: gzip
Length: unspecified [text/html]
सामग्री एन्कोडिंग स्पष्ट रूप से gzip बताती है, हालांकि linux.about.com (वर्तमान में) के लिए,
wget -S --header="accept-encoding: gzip" linux.about.com
--2011-06-17 16:12:55-- http://linux.about.com/
Resolving linux.about.com (linux.about.com)... 207.241.148.80
Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Date: Fri, 17 Jun 2011 15:12:56 GMT
Server: Apache
Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT
Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/
Set-Cookie: zBT=1; domain=.about.com; path=/
Vary: *
PRAGMA: no-cache
P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI"
Cache-Control: max-age=-3600
Expires: Fri, 17 Jun 2011 14:12:56 GMT
Connection: close
Content-Type: text/html
Length: unspecified [text/html]
यह पाठ / html लौटा रहा है।
चूँकि कुछ पुराने ब्राउज़रों में अभी भी गज़िप एन्कोडेड सामग्री के साथ समस्या है, कई साइटें केवल ब्राउज़र पहचान के आधार पर इसे सक्षम करती हैं। वे अक्सर इसे डिफ़ॉल्ट रूप से बंद कर देते हैं और इसे तब ही चालू करते हैं जब उन्हें पता होता है कि ब्राउज़र इसका समर्थन कर सकता है - और वे आमतौर पर उस सूची में शामिल नहीं करते हैं। इसका मतलब यह है कि आप पा सकते हैं कि अगर साइट आपके ब्राउज़र के लिए ऐसा करती है तो भी wz कभी भी gzip सामग्री नहीं लौटा सकती।