जवाबों:
साइगविन (या लिनक्स मशीन तक पहुंच) के साथ
antiword file.doc | grep "my phrase"
या
catdoc file.doc | grep "my phrase"
वहाँ इसी तरह के एक समान तरीके से grep करने के लिए बहुत सारे कमांड-लाइन फ़ाइल प्रारूप कन्वर्टर्स हैं ।
विशुद्ध रूप से इन-वर्ड सॉल्यूशन Ctrl + F (फाइंड) हो सकता है , और फिर फाइंड ऑल - हालांकि, मुझे यकीन नहीं है कि एमएस वर्ड के सभी वर्जन में ऑल बटन है।
catdoc
प्रत्येक .doc
/ .docx
फ़ाइल पर segfaults का सबसे हालिया संस्करण , और antiword
मुझे अपना दस्तावेज़ बताता है "यह एक Word दस्तावेज़ नहीं है"। क्या आप किसी अन्य विकल्प के बारे में जानते हैं?
docx2txt
डेबियन रिपॉजिटरी में मौजूद हैं - काम कर सकते हैं। मैं OpenOffice / LibreOffice कमांड-लाइन प्रारूप रूपांतरण उपयोगिता (unoconv) में भी देखूंगा, जिसका उपयोग उसी उद्देश्य के लिए किया जा सकता है।
शब्द संदर्भ में "लाइन" का क्या अर्थ है? प्रदर्शित लाइन, जो पृष्ठ स्वरूपण के लिए कुछ भी करने पर बदलती है? अनुच्छेद? कुछ और?
आप Word के खोज-और-प्रतिस्थापित कार्यों के साथ सामान का एक गुच्छा कर सकते हैं, जिसमें स्वरूपण और अन्य गैर-स्पष्ट चीजें शामिल हैं, लेकिन वे सभी केवल खोज-क्या पाठ पर कार्य करेंगे, किसी भी आसपास के पाठ पर नहीं।
PowerGREP आपके लिए बिलकुल ऐसा ही करेगा , और तेज़ - लेकिन मुफ्त नहीं। यह मेरी राय में, हालांकि, हर पैसे के लायक है। साथ ही, 30 दिनों का नि: शुल्क परीक्षण है।
टिप्पणी करने के लिए पर्याप्त प्रतिनिधि नहीं मिला, लेकिन मैं इस डॉक बनाम डॉक के मुद्दे पर चर्चा कर सकता हूं ताकि किसी को भी धागे का पीछा करते हुए (जैसे मैं था) यह मददगार लग सकता है।
आपको डॉक्स फ़ाइलों के लिए एक विशेष उपकरण की आवश्यकता नहीं है। डॉक्स एक्सएमएल फाइलें ज़िप की जाती हैं।
एक्सएमएल को निकालने और छीनने के लिए कुछ के आधार पर प्रयास करें
unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'
तेज़, मुफ्त, मुक्त-स्रोत और क्रॉस-प्लेटफ़ॉर्म समाधान: https://github.com/phiresky/ripgrep-all