मुझे पाठ के लिए पीडीएफ फाइलों की आवश्यकता है ताकि मैं कमांडलाइन से थोक में उन पर खोज कर सकूं। क्या उबंटू, ओबीएसडी या इसी तरह के डिस्ट्रो के लिए कुछ कनवर्टर है?
शायद संबंधित पोस्ट, ubuntu के साथ OCR यहाँ ।
pdftotext
= pdfcat
।
मुझे पाठ के लिए पीडीएफ फाइलों की आवश्यकता है ताकि मैं कमांडलाइन से थोक में उन पर खोज कर सकूं। क्या उबंटू, ओबीएसडी या इसी तरह के डिस्ट्रो के लिए कुछ कनवर्टर है?
शायद संबंधित पोस्ट, ubuntu के साथ OCR यहाँ ।
pdftotext
= pdfcat
।
जवाबों:
आपके पास बहुत सारे विकल्प हैं!
pdftotext
से poppler पहले ही उल्लेख किया गया है।
वहाँ एक हास्केल कार्यक्रम कहा जाता हैpdf2line
जो अच्छी तरह से काम करता है।
कैलिबर का ebook-convert
कमांडलाइन प्रोग्राम (या खुद कैलिबर) एक और विकल्प है; यह पीडीएफ को सादे पाठ या अन्य ई-प्रारूप (RTF, ePub) में बदल सकता है, मेरी राय में यह pdftotext की तुलना में बेहतर परिणाम उत्पन्न करता है, हालांकि यह काफी धीमा है।
ebook-convert file.pdf file.txt
AbiWord कमांड-लाइन से ज्ञात किसी भी प्रारूप के बीच परिवर्तित हो सकता है, और कम से कम वैकल्पिक रूप से एक पीडीएफ आयात प्लगइन है:
abiword --to=txt file.pdf
फिर भी एक और विकल्प है podofotextextract
से podofo पीडीएफ उपकरण पुस्तकालय। मैंने वास्तव में ऐसा नहीं किया है।
यदि आप दो घोस्टस्क्रिप्ट उपकरण जोड़ते हैं, pdf2ps
और ps2ascii
, आपके पास एक और विकल्प है।
मैं वास्तव में कुछ और तरीकों के बारे में सोच सकता हूं, लेकिन मैं इसे अभी के लिए छोड़ दूंगा। ;)
pdftotext
की तुलना में अधिक सटीक परिणाम देता है ebook-convert
और यह बहुत तेज है। ebook-convert
सुस्त है।
pdftotext
-layout
विकल्प चट्टानों के साथ ! calibre
स्थापित करने के लिए 600mb से अधिक की आवश्यकता है! वह पागल है)
आप कमांड लाइन पर pdftotext (Ubuntu: poppler-utils ; OpenBSD; xpdf-utils
package) के साथ पीडीएफ को टेक्स्ट में बदल सकते हैं ।
आप पीडीएफ सहित विभिन्न स्वरूपित पाठ दस्तावेज़ प्रकारों की खोज करने के लिए Recoll
(Ubuntu: recoll ; OpenBSD: no port, but FreeBSD के लिए एक है ।) का उपयोग कर सकते हैं । वहाँ एक जीयूआई है, और यह हुड के नीचे एक सूचकांक स्वचालित रूप से बनाता है। यह pdftotext
पीडीएफ को टेक्स्ट में बदलने के लिए उपयोग करता है।
एक्रोबेट रीडर (लिनक्स के तहत कम से कम 9 संस्करण) में एक सीमित मल्टीपल-फ़ाइल खोज क्षमता है (आप एक निर्देशिका में सभी फ़ाइलों में खोज कर सकते हैं)।
pdftotext की संभावना है कि आप क्या देख रहे हैं: http://en.wikipedia.org/wiki/Pdftotext जब तक आप जिस पाठ को निकालना चाहते हैं वह वास्तव में एक चित्रमय रूप में है, जो कि पीडीएफ दस्तावेजों के साथ आम नहीं है।
gPDFText ASCII पाठ में ebook पीडीएफ सामग्री को रूपांतरित करता है, लंबी लाइन पैराग्राफ के लिए पुन: स्वरूपित होता है, यह मेरे लिए काम करता है और इसका एक ग्राफिकल इंटरफ़ेस है।
gPDFText
से प्राप्त किया जा सकता है, इसे कैसे स्थापित किया जा सकता है और ओपी के प्रश्न का उत्तर देने के लिए इसका उपयोग कैसे किया जाएगा।