मैं वेब पेज के सभी बाहरी लिंक कैसे निकालूं और उन्हें एक फ़ाइल में सहेजूं?


11

मैं वेब पेज के सभी बाहरी लिंक कैसे निकालूं और उन्हें एक फ़ाइल में सहेजूं?

यदि आपके पास कोई कमांड लाइन टूल है जो बहुत अच्छा होगा।

जवाबों:


18

आपको 2 उपकरण चाहिए, lynx और awk , इसे आज़माएं:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

यदि आपको नंबरिंग लाइन की आवश्यकता है, तो कमांड nl का उपयोग करें , यह कोशिश करें:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

मुझे नहीं लगता कि यह रिश्तेदार के लिए काम करेगा
श्रीधर सरनोबत

8

यहाँ लेल्टन के उत्तर में सुधार किया गया है: आपको लिनेक्स के लिए कुछ उपयोगी विकल्प नहीं मिलेंगे।

lynx -listonly -nonumbers -dump http://www.google.com.br

अगर आपको नंबर चाहिए

lynx -listonly -dump http://www.google.com.br

0
  1. प्रश्न में वेब पृष्ठों को पुनः प्राप्त करने के लिए सुंदर सूप का उपयोग करें ।
  2. सभी URL खोजने के लिए awk का उपयोग करें जो आपके डोमेन की ओर इशारा नहीं करते हैं

मैं स्क्रीन स्क्रैपिंग तकनीकों पर सुंदर सूप की सिफारिश करूंगा।


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.