मैं पाठ की एक पंक्ति में एक स्ट्रिंग ढूंढना चाहता हूं और स्ट्रिंग (रिक्त स्थान के बीच) और वाक्यांश का पहला शब्द प्रिंट करना चाहता हूं।

उदाहरण के लिए:

"यह एक एकल पाठ पंक्ति है"
"एक और बात"
"यह बेहतर है कि आप फिर से कोशिश करें"

तार की सूची है:


मैं जो कोशिश कर रहा हूं वह इस तरह से एक तालिका प्राप्त करना है:

यह [टैब] पाठ
एक और [टैब] बात
यह [टैब] प्रयास करें

मैंने grep के साथ प्रयास किया लेकिन कुछ नहीं हुआ। कोई उपाय?

तो, मूल रूप से "यदि लाइन में स्ट्रिंग है, तो पहले शब्द + स्ट्रिंग प्रिंट करें"। सही ?
बैश / grep संस्करण:

# string-and-first-word.sh
# Finds a string and the first word of the line that contains that string.


for string; do
    # Find string in file. Process output one line at a time.
    grep "$string" "$text_file" | 
        while read -r line
        # Get the first word of the line.
        first_word="${line%% *}"
        # Remove special characters from the first word.

        # If the first word is the same as the string, don't print it twice.
        if [[ "$string" != "$first_word" ]]; then
            echo -ne "$first_word\t"

        echo "$string"

इसे ऐसे कॉल करें:

./string-and-first-word.sh /path/to/file text thing try Better


This    text
Another thing
It  try


बचाव के लिए पर्ल!

use warnings;
use strict;

my $file = shift;
my $regex = join '|', map quotemeta, @ARGV;
$regex = qr/\b($regex)\b/;

open my $IN, '<', $file or die "$file: $!";
while (<$IN>) {
    if (my ($match) = /$regex/) {
        print my ($first) = /^\S+/g;
        if ($match ne $first) {
            print "\t$match";
        print "\n";

जैसे बचाओ first-plus-word, दौड़ो

perl first-plus-word file.txt text thing try Better

यह इनपुट शब्दों से एक रेगीक्स बनाता है। प्रत्येक पंक्ति को फिर रेगेक्स के साथ मिलान किया जाता है, और यदि कोई मेल होता है, तो पहला शब्द मुद्रित होता है, और यदि यह शब्द से भिन्न होता है, तो शब्द भी मुद्रित होता है।


यहाँ एक अजीब संस्करण है:

awk '
  NR==FNR {a[$0]++; next;} 
    for (i=1; i<=NF; i++)
      if ($i in a) printf "%s\n", i==1? $i : $1"\t"$i;
  ' file2 file1

file2शब्द सूची कहां है और file1वाक्यांश शामिल हैं।

अच्छा था! मैंने इसे एक स्क्रिप्ट फ़ाइल में डाल दिया है, paste.ubuntu.com/23063130 , बस सुविधा के लिए
यहाँ अजगर संस्करण है:

#!/usr/bin/env python
from __future__ import print_function 
import sys

# List of strings that you want
# to search in the file. Change it
# as you fit necessary. Remember commas
strings = [
          'text', 'thing',
          'try', 'Better'

with open(sys.argv[1]) as input_file:
    for line in input_file:
        for string in strings:
            if string in line:
               words = line.strip().split()
               if len(words) > 1:


$> cat input_file.txt                                                          
This is a single text line
Another thing
It is better you try again
$> python ./initial_word.py input_file.txt                                      
This    text
Another     thing
It  try

साइड नोट : स्क्रिप्ट python3संगत है, इसलिए आप इसे python2या तो चला सकते हैं python3


इसे इस्तेमाल करे:

$ sed -En 's/(([[:alnum:]]+)[[:space:]].*)?(text|thing|try|Better).*/\2\t\3/p' File
This    text
Another thing
It      try

यदि Betterसमस्या होने से पहले टैब है, तो यह प्रयास करें:

$ sed -En 's/(([[:alnum:]]+)[[:space:]].*)?(text|thing|try|Better).*/\2\t\3/; ta; b; :a; s/^\t//; p' File
This    text
Another thing
It      try

उपरोक्त का परीक्षण GNU sed पर किया गया (जिसे gsedOSX कहा जाता है)। BSD sed के लिए, कुछ छोटे बदलावों की आवश्यकता हो सकती है।

यह काम किस प्रकार करता है

  • s/(([[:alnum:]]+)[[:space:]].*)?(text|thing|try|Better).*/\2\t\3/

    यह एक शब्द के लिए दिखता है [[:alnum:]]+, उसके बाद एक स्थान, [[:space:]]और उसके बाद कुछ भी .*, उसके बाद आपका एक शब्द text|thing|try|Better, उसके बाद कुछ भी। यदि यह पाया जाता है, तो इसे लाइन पर पहले शब्द (यदि कोई हो), एक टैब और मिलान किए गए शब्द से बदल दिया जाता है।

  • ta; b; :a; s/^\t//; p

    यदि प्रतिस्थापन कमांड के परिणामस्वरूप प्रतिस्थापन होता है, जिसका अर्थ है कि आपका एक शब्द लाइन पर पाया गया था, तो taकमांड लेबल पर कूदने के लिए sed को बताता है a। यदि नहीं, तो हम bअगली पंक्ति में शाखा ( ) करते हैं। :aलेबल को परिभाषित करता है a। इसलिए, यदि आपका एक शब्द पाया गया था, तो हम (ए) प्रतिस्थापन करते हैं s/^\t//जो एक अग्रणी टैब को हटाता है यदि एक है, और (बी) प्रिंट ( p) लाइन है।


एक साधारण बैश / sed दृष्टिकोण:

$ while read w; do sed -nE "s/\"(\S*).*$w.*/\1\t$w/p" file; done < words 
This    text
Another thing
It  try

while read w; do ...; done < wordsफ़ाइल में प्रत्येक पंक्ति से अधिक पुनरावृति जाएगा wordsऔर के रूप में सहेज $w-nबनाता है sedडिफ़ॉल्ट रूप से कुछ भी मुद्रित नहीं। sedआदेश तो, डबल कोट में गैर-सफ़ेद के बाद का स्थान ले लेगा ( \"(\S*), कोष्ठक "कब्जा" क्या के अनुरूप है की सेवा \S*, पहला शब्द है, और हम बाद में इसे करने के लिए के रूप में उल्लेख कर सकते हैं \1) 0 या अधिक वर्ण, ( .*) और फिर वह शब्द जो हम खोज रहे हैं ( $w) और 0 या अधिक वर्ण फिर से ( .*)। इस मैचों है, हम इसे केवल 1 शब्द, एक टैब और के साथ बदलें $w( \1\t$w), और लाइन प्रिंट (क्या है कि pमें s///pकरता है)।


यह रूबी संस्करण है

str_list = ['text', 'thing', 'try', 'Better']

File.open(ARGV[0]) do |f|
  lines = f.readlines
  lines.each_with_index do |l, idx|
    if l.match(str_list[idx])
      l = l.split(' ')
      if l.length == 1
        puts l[0]
        puts l[0] + "\t" + str_list[idx]

नमूना पाठ फ़ाइल hello.txtमें है

This is a single text line
Another thing
It is better you try again

ruby source.rb hello.txtमें परिणाम के साथ चल रहा है

This    text
Another thing
It      try
