मैंने एक बैश स्क्रिप्ट लिखी है जो कर्ल का उपयोग करके वेबसाइट से आउटपुट प्राप्त करती है और HTML आउटपुट पर स्ट्रिंग हेरफेर का एक गुच्छा है। समस्या तब है जब मैं इसे एक ऐसी साइट के खिलाफ चलाता हूं जो अपने आउटपुट को वापस लौटा रही है। ब्राउज़र में साइट पर जाना ठीक काम करता है।
जब मैं हाथ से कर्ल चलाता हूं, तो मुझे आउटपुट मिलता है:
$ curl "http://example.com"
यहाँ उस विशेष साइट से हेडर दिया गया है:
HTTP/1.1 200 OK
Server: nginx
Content-Type: text/html; charset=utf-8
X-Powered-By: PHP/5.2.17
Last-Modified: Sat, 03 Dec 2011 00:07:57 GMT
ETag: "6c38e1154f32dbd9ba211db8ad189b27"
Expires: Sun, 19 Nov 1978 05:00:00 GMT
Cache-Control: must-revalidate
Content-Encoding: gzip
Content-Length: 7796
Date: Sat, 03 Dec 2011 00:46:22 GMT
X-Varnish: 1509870407 1509810501
Age: 504
Via: 1.1 varnish
Connection: keep-alive
X-Cache-Svr: p2137050.pubip.peer1.net
X-Cache: HIT
X-Cache-Hits: 425
मुझे पता है कि लौटाया गया डेटा gzipped है, क्योंकि यह html को लौटाता है, जैसा कि अपेक्षित था:
$ curl "http://example.com" | gunzip
मैं गनज़िप के माध्यम से आउटपुट को पाइप नहीं करना चाहता, क्योंकि स्क्रिप्ट अन्य साइटों पर काम करती है, और गज़िप के माध्यम से पाइपिंग उस कार्यक्षमता को तोड़ देगी।
मैंने क्या कोशिश की है
- उपयोगकर्ता-एजेंट को बदलना (मैंने उसी स्ट्रिंग की कोशिश की जिसे मेरा ब्राउज़र भेजता है, "मोज़िला / 4.0", आदि)
- आदमी कर्ल
- गूगल खोज
- stackoverflow खोज
सब कुछ खाली हो गया
कोई विचार?
curl 7.54.0 (x86_64-apple-darwin17.0) libcurl/7.54.0 LibreSSL/2.0.20 zlib/1.2.11 nghttp2/1.24.0
) - निकाल कर इसे हलbr
सेAccept-Encoding
। देखें stackoverflow.com/questions/18983719/…