चूंकि कुछ और नहीं है जो अधिक जटिल था, मैं इसे साझा करना चाहता था क्योंकि इससे मुझे मदद मिली।
यह वही है जो मैंने मूल रूप से इस्तेमाल किया था:
import requests
import re
url = '/programming/10711116/strip-spaces-tabs-newlines-python' # noqa
headers = {'user-agent': 'my-app/0.0.1'}
r = requests.get(url, headers=headers)
print("{}".format(r.content))
अघोषित परिणाम:
b'<!DOCTYPE html>\r\n\r\n\r\n <html itemscope itemtype="http://schema.org/QAPage" class="html__responsive">\r\n\r\n <head>\r\n\r\n <title>string - Strip spaces/tabs/newlines - python - Stack Overflow</title>\r\n <link
इसे मैंने इसे बदल दिया है:
import requests
import re
url = '/programming/10711116/strip-spaces-tabs-newlines-python' # noqa
headers = {'user-agent': 'my-app/0.0.1'}
r = requests.get(url, headers=headers)
regex = r'\s+'
print("CNT: {}".format(re.sub(regex, " ", r.content.decode('utf-8'))))
वांछित परिणाम:
<!DOCTYPE html> <html itemscope itemtype="http://schema.org/QAPage" class="html__responsive"> <head> <title>string - Strip spaces/tabs/newlines - python - Stack Overflow</title>
@MattH ने जिस सटीक रेगेक्स का जिक्र किया था, वह मेरे कोड में इसे फिट करने के लिए काम आया था। धन्यवाद!
नोट: यह है python3