मुझे पाठ के लिए पीडीएफ फाइलों की आवश्यकता है ताकि मैं कमांडलाइन से थोक में उन पर खोज कर सकूं। क्या उबंटू, ओबीएसडी या इसी तरह के डिस्ट्रो के लिए कुछ कनवर्टर है?
शायद संबंधित पोस्ट, ubuntu के साथ OCR यहाँ ।
pdftotext= pdfcat।
मुझे पाठ के लिए पीडीएफ फाइलों की आवश्यकता है ताकि मैं कमांडलाइन से थोक में उन पर खोज कर सकूं। क्या उबंटू, ओबीएसडी या इसी तरह के डिस्ट्रो के लिए कुछ कनवर्टर है?
शायद संबंधित पोस्ट, ubuntu के साथ OCR यहाँ ।
pdftotext= pdfcat।
जवाबों:
आपके पास बहुत सारे विकल्प हैं!
pdftotextसे poppler पहले ही उल्लेख किया गया है।
वहाँ एक हास्केल कार्यक्रम कहा जाता हैpdf2line जो अच्छी तरह से काम करता है।
कैलिबर का ebook-convertकमांडलाइन प्रोग्राम (या खुद कैलिबर) एक और विकल्प है; यह पीडीएफ को सादे पाठ या अन्य ई-प्रारूप (RTF, ePub) में बदल सकता है, मेरी राय में यह pdftotext की तुलना में बेहतर परिणाम उत्पन्न करता है, हालांकि यह काफी धीमा है।
ebook-convert file.pdf file.txt
AbiWord कमांड-लाइन से ज्ञात किसी भी प्रारूप के बीच परिवर्तित हो सकता है, और कम से कम वैकल्पिक रूप से एक पीडीएफ आयात प्लगइन है:
abiword --to=txt file.pdf
फिर भी एक और विकल्प है podofotextextractसे podofo पीडीएफ उपकरण पुस्तकालय। मैंने वास्तव में ऐसा नहीं किया है।
यदि आप दो घोस्टस्क्रिप्ट उपकरण जोड़ते हैं, pdf2psऔर ps2ascii, आपके पास एक और विकल्प है।
मैं वास्तव में कुछ और तरीकों के बारे में सोच सकता हूं, लेकिन मैं इसे अभी के लिए छोड़ दूंगा। ;)
pdftotextकी तुलना में अधिक सटीक परिणाम देता है ebook-convertऔर यह बहुत तेज है। ebook-convertसुस्त है।
pdftotext-layoutविकल्प चट्टानों के साथ ! calibreस्थापित करने के लिए 600mb से अधिक की आवश्यकता है! वह पागल है)
आप कमांड लाइन पर pdftotext (Ubuntu: poppler-utils ; OpenBSD; xpdf-utilspackage) के साथ पीडीएफ को टेक्स्ट में बदल सकते हैं ।
आप पीडीएफ सहित विभिन्न स्वरूपित पाठ दस्तावेज़ प्रकारों की खोज करने के लिए Recoll
(Ubuntu: recoll ; OpenBSD: no port, but FreeBSD के लिए एक है ।) का उपयोग कर सकते हैं । वहाँ एक जीयूआई है, और यह हुड के नीचे एक सूचकांक स्वचालित रूप से बनाता है। यह pdftotextपीडीएफ को टेक्स्ट में बदलने के लिए उपयोग करता है।
एक्रोबेट रीडर (लिनक्स के तहत कम से कम 9 संस्करण) में एक सीमित मल्टीपल-फ़ाइल खोज क्षमता है (आप एक निर्देशिका में सभी फ़ाइलों में खोज कर सकते हैं)।
pdftotext की संभावना है कि आप क्या देख रहे हैं: http://en.wikipedia.org/wiki/Pdftotext जब तक आप जिस पाठ को निकालना चाहते हैं वह वास्तव में एक चित्रमय रूप में है, जो कि पीडीएफ दस्तावेजों के साथ आम नहीं है।
gPDFText ASCII पाठ में ebook पीडीएफ सामग्री को रूपांतरित करता है, लंबी लाइन पैराग्राफ के लिए पुन: स्वरूपित होता है, यह मेरे लिए काम करता है और इसका एक ग्राफिकल इंटरफ़ेस है।
gPDFTextसे प्राप्त किया जा सकता है, इसे कैसे स्थापित किया जा सकता है और ओपी के प्रश्न का उत्तर देने के लिए इसका उपयोग कैसे किया जाएगा।