मैं <tr> </tr>
एक html डॉक्टर से इन दो टैग के बीच जो कुछ भी है उसे पुनः प्राप्त करना चाहता हूं । अब मेरे पास कोई विशिष्ट HTML आवश्यकताएं नहीं हैं जो एक html पार्सर के लिए वारंट करेगी। मैं सिर्फ सादा जरूरत कुछ मैचों <tr>
और </tr>
और बीच में सब कुछ हो जाता है और कई हो सकता tr
है। मैंने जागने की कोशिश की, जो काम करता है, लेकिन किसी कारण से यह मुझे प्रत्येक पंक्ति के डुप्लिकेट को निकालने के लिए समाप्त होता है।
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
इस बारे में कैसे जाना है?
awk
काम कर रहा है, लेकिन डुप्लिकेट देने से आपके awk के आउटपुट को पास करने की कोशिश की जाती sort -u
है ताकि उन्हें अलग
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
। कुछ उदाहरण इनपुट और अपेक्षित आउटपुट पोस्ट करें यदि यह काम नहीं करता है।