लिनक्स में एमएस ऑफिस दस्तावेजों से पाठ कैसे निकालें?


18

मुझे MS Office दस्तावेज़ प्रकारों (वर्ड, एक्सेल, पावरपॉइंट) से लिनक्स में पाठ को निकालने का एक तरीका चाहिए। मैं कल्पना करता हूं कि इसे पूरा करने के लिए कई अलग-अलग दृष्टिकोण हो सकते हैं, जैसे कि बैश या पाइथन स्क्रिप्ट, या उन्हें पीडीएफ में कनवर्ट करना और फिर pdftotext जैसे टूल का उपयोग करके टेक्स्ट को निकालना।

ऐसा लगता है कि यह एक सामान्य आवश्यकता हो सकती है। क्या इसे आसानी से पूरा करने के लिए कोई स्थापित प्रक्रिया या उपकरण है?

जवाबों:


16

Catdoc doc, xls और ppt को टेक्स्ट में बदल सकता है। दूसरा विकल्प wvWare होगा ।

अधिक बर्तनों की जांच के लिए शब्द को कवर करने के लिए http://www.linux.com/archive/articles/52385 चेक करें और


Catdoc! बात मैं देख रहा हूँ! क्या यह ओडीएफ के लिए भी काम करेगा?
फ़िओ अर्कार Lwin

बस googled और stosberg.net/odt2txt मिला । कभी कोशिश नहीं की, लगता है जैसे यह काम करता है।
नाहर

धन्यवाद। catdoc ठीक है, लेकिन यह xls को परिवर्तित नहीं कर सकता, परीक्षण के लिए ppt, मैं उनके लिए xls2csv और Apache-tika का उपयोग करता हूं। उनकी जाँच करो!
फियो अर्कार Lwin

@nahar, odt2txt केवल ओआरटी फॉर्मेट पर काम करता है, एमएस डॉक पर नहीं।
एलन

1
महान, कैटडॉक मुझे विभाजन दोष देता है
fotanus

8

मुझे अंततः दस्तावेज़ पार्सिंग के लिए सही उपकरण मिला, यह अपाचे-टिक है, यह टेक्स्ट में गज़िलिन के गैर-पाठ प्रारूपों को पार्स कर सकता है जो बहुत अच्छा है!

Apache Tika यहाँ प्राप्त करें:

http://tika.apache.org/

(मैक Homebrew उपयोगकर्ताओं: brew install tika)

कमांड-लाइन इंटरफ़ेस इस तरह काम करता है:

tika --text something.docx > something.txt


+1: Apache Tika एक गंभीर ओपन सोर्स प्रोजेक्ट है, विंडोज में भी काम करता है, कमांड लाइन से काम करता है, इसमें GUI ड्रैग एंड ड्रॉप के साथ होता है, कुछ भी खोलता है (Word, Excel, PowerPoint, PDF, svg), मेटाडाटा को निकालता है साथ ही दस्तावेज। ऊपर दिए गए अधिकांश उपकरणों को आज़माने के बाद, अपाचे टीका वह है जिसकी मुझे तलाश थी। यह स्वीकृत उत्तर होना चाहिए (मुझे नहीं पता कि क्या आप अपना स्वयं का उत्तर स्वीकार कर सकते हैं)
user2518618

2
किया, बेशर्मी से ...: D
Phyo Arkar Lwin

7

Abiword कमांडलाइन से किसी भी फ़ाइल स्वरूपों के बीच परिवर्तित कर सकता है जो इसे जानता है।

Word से सादे पाठ में परिवर्तित करें:

abiword --to=txt myfile.doc

वर्ड फ़ाइल से एक पीडीएफ बनाएं:

abiword --to=pdf myfile.doc

और इसी तरह। इन मामलों में परिणाम myfile.txt या myfile.pdf होंगे। यदि आप आउटपुट नाम निर्दिष्ट करना चाहते हैं, तो आप वह भी कर सकते हैं:

abiword --to=txt --to-name=output.txt myfile.doc

ODT को Word में बदलें:

abiword --to=doc myfile.odt

कन्वर्ट शब्द को ODT:

abiword --to=odt myfile.doc

अन्य उत्तरों के लिए निष्पक्षता में, यह ध्यान दिया जाना चाहिए कि AbiWord वर्ड दस्तावेजों को संभालने के लिए wvWare का उपयोग करता है, लेकिन यहां तक कि wvWare होमपेज भी अधिकांश रूपांतरणों के लिए AbiWord का उपयोग करने की सलाह देता है।

मुझे वर्ड प्रोसेसर से नफरत है। यह मुख्य कारण है जो मैंने एबियार्ड को स्थापित किया है।

तुम भी unoconv में रुचि हो सकती है , जो एक समान उपकरण का समर्थन करने वाला प्रारूप है OpenOffice जानता है (जिसमें स्प्रैडशीट और इस तरह शामिल होंगे), लेकिन मुझे व्यक्तिगत रूप से इसके साथ कोई अनुभव नहीं है।


.Docx दस्तावेज़ के लिए यह गड़बड़ है: S लेकिन .doc के लिए एक अच्छा समाधान
वॉरफेस

3

लिब्रे ऑफिस के साथ आप कर सकते हैं:

libreoffice --invisible --convert-to pdf file1.ppt file2.ppt

4
Txt में कनवर्ट करने के लिए आप टेक्स्ट फ़िल्टर का उपयोग कर सकते हैं: libreoffice --inv अदृश्य --convert-to txt: टेक्स्ट फाइलें
गगारो

0

आप CUPS (वर्चुअल प्रिंटर) और ld का उपयोग कर सकते हैं।


दिलचस्प है, कि किसी भी मुद्रण योग्य सामान को पीडीएफ में बदल सकते हैं? क्या आप मुझे इंगित कर सकते हैं और उदाहरण के लिए डॉक या एक्सएल?
फियो अर्कार Lwin

0

wv एक विकल्प है और IIRC OpenOffice को कमांड लाइन से पीडीएफ के रूप में निर्यात करने और बाहर निकलने के लिए कहा जा सकता है।


Unoconv OpenOffice- संबंधित उपकरण है जो मुझे याद नहीं है।
पीटीमैन


0

1.डॉक कैटडॉक या डॉक फाइल्स के लिए एंटीवर्ड आपको कन्वर्ट करने के लिए आप निम्न कमांड कैटडॉक फाइल का उपयोग कर सकते हैं। डॉक> फाइल या एंटवर्प फाइल। डॉक> फाइल

  1. docx docx2txt

  2. पीडीएफ emacs file.pdf ctrl-x ctrl-s फ़ाइल


(1) कैटडॉक को एक उत्तर में प्रस्तावित किया गया था जो लगभग तीन साल पहले प्रश्न के एक घंटे के भीतर पोस्ट किया गया था। आप इसे क्यों दोहरा रहे हैं? (२) एंटीड कहाँ से प्राप्त की जा सकती है? (३) आपके उत्तर के निचले आधे हिस्से का क्या अर्थ है?
स्कॉट

-1

Docsplit पीडीएफ से टेक्स्ट को निकालने के लिए सही उपकरण है। यह माणिक रत्न है। तो आपको डॉक्सप्लिट कमांड का उपयोग करने से पहले अपने लिनक्स सिस्टम में माणिक और मणि को स्थापित करना चाहिए।

यदि आपके सिस्टम में माणिक और मणि नहीं है, तो कृपया अनुदेश का पालन करें।

आपको सॉफ़्टवेयर इंस्टॉल करने के लिए रूट होना चाहिए (यह मानते हुए कि आप इसे सभी उपयोगकर्ताओं के लिए उपलब्ध होना चाहते हैं)।

माणिक को लिनक्स पर स्थापित
करें : यम स्थापित रूबी मणि स्थापित करें, कृपया नवीनतम मणि पैकेज डाउनलोड करें, फिर निर्देश का पालन करें

tar xzf rubygems-xxxx.tgz
cd रूबीज- xxxx
रूबी सेटअप.rb

अब जब RubyGems स्थापित हो गया है, तो आपके पास मणि कमांड होना चाहिए (मणि वह कमांड है जिसका उपयोग RubyGems पैकेज सिस्टम के साथ बातचीत करने के लिए किया जाता है)। इसे चलाकर परखें:

मणि की सूची

अब, डॉक्सप्लिट रत्न को स्थापित करने के लिए, अगले चरण पर जाएं, कृपया निम्न साइट को गोटो करें। http://documentcloud.github.com/docsplit/


यह ओपी ने जो मांगा है, उसके ठीक विपरीत है।
कार्लएफ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.