यदि आपके पास ये अन्य उपकरण स्थापित नहीं हैं, केवल wget है, और पृष्ठ में केवल सादे पाठ और लिंक, जैसे स्रोत कोड या फ़ाइलों की सूची का कोई स्वरूपण नहीं है, तो आप HTML का उपयोग इस तरह से sed कर सकते हैं:
wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g'
यह पेज के स्रोत को STDOUT को डंप करने और किसी भी <> जोड़े और उनके बीच कुछ भी छीनने के लिए sed का उपयोग करता है।
फिर आप उस कमांड के आउटपुट को रीडायरेक्ट कर सकते हैं जिस फाइल का आप उपयोग करना चाहते हैं>:
wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt
NB: आप पा सकते हैं कि इसमें फ़ाइल में अतिरिक्त व्हाट्सएप है जो आप नहीं चाहते हैं (उदाहरण के लिए लाइनों को कुछ कॉलमों के लिए इंडेंट किया गया है)
फ़ाइल को साफ करने के लिए अपने पाठ संपादक का उपयोग करना सबसे आसान हो सकता है (या एक स्रोत फ़ॉर्मेटर जैसा कि आप सी स्रोत कोड डाउनलोड कर रहे हैं)।
यदि आपको फ़ाइल की प्रत्येक पंक्ति में एक ही सरल कार्य करने की आवश्यकता है, तो आप ऐसा करने के लिए एक कमांड शामिल कर सकते हैं जो कि sed कमांड में है (यहां एक अग्रणी स्थान को अलग करना):
wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt
.c
। यह कठिन नहीं है, लेकिन यह पृष्ठ संरचना पर निर्भर करता है। यदि आप एक लिंक प्रदान करते हैं तो कोई व्यक्ति सटीक कोड के साथ आपकी सहायता करेगा। अन्यथाsed
याperl
आपके मित्र हैं।