वहाँ पाठ के लिए पीडीएफ के कुछ प्रकार है -कंटक्टर?


21

मुझे पाठ के लिए पीडीएफ फाइलों की आवश्यकता है ताकि मैं कमांडलाइन से थोक में उन पर खोज कर सकूं। क्या उबंटू, ओबीएसडी या इसी तरह के डिस्ट्रो के लिए कुछ कनवर्टर है?

शायद संबंधित पोस्ट, ubuntu के साथ OCR यहाँ



यदि यह एक "वास्तविक" पीडीएफ (पाठ आदि से बना) है, तो pdftotext आपका सबसे अच्छा दांव है। यदि यह एक छवि है, तो आपका सबसे अच्छा शर्त कुछ ओसीआर सामान है।
वॉनब्रांड

1
मैं हमेशा उपयोग करता हूं pdftotext= pdfcat
isomorphismes

जवाबों:


22

आपके पास बहुत सारे विकल्प हैं!

pdftotextसे poppler पहले ही उल्लेख किया गया है।

वहाँ एक हास्केल कार्यक्रम कहा जाता हैpdf2line जो अच्छी तरह से काम करता है।

कैलिबर का ebook-convertकमांडलाइन प्रोग्राम (या खुद कैलिबर) एक और विकल्प है; यह पीडीएफ को सादे पाठ या अन्य ई-प्रारूप (RTF, ePub) में बदल सकता है, मेरी राय में यह pdftotext की तुलना में बेहतर परिणाम उत्पन्न करता है, हालांकि यह काफी धीमा है।

ebook-convert file.pdf file.txt

AbiWord कमांड-लाइन से ज्ञात किसी भी प्रारूप के बीच परिवर्तित हो सकता है, और कम से कम वैकल्पिक रूप से एक पीडीएफ आयात प्लगइन है:

abiword --to=txt file.pdf

फिर भी एक और विकल्प है podofotextextractसे podofo पीडीएफ उपकरण पुस्तकालय। मैंने वास्तव में ऐसा नहीं किया है।

यदि आप दो घोस्टस्क्रिप्ट उपकरण जोड़ते हैं, pdf2psऔर ps2ascii, आपके पास एक और विकल्प है।

मैं वास्तव में कुछ और तरीकों के बारे में सोच सकता हूं, लेकिन मैं इसे अभी के लिए छोड़ दूंगा। ;)


कैलिबर की ईबुक-कन्वर्ट ... क्या आपने देखा है कि यह क्या करता है? bleargh। चलो इसे इस तरह से रखें: यह एक बहुत ई ective कार्यक्रम नहीं है। pdftotext ज्यादा वफादार है। मैंने कभी भी इसके आउटपुट में कोई त्रुटि नहीं खोजी है।
ixtmixilix

1
आप पीडीएफ-फाइलों को पाठ के रूप में देखने के लिए कम उपयोग कर सकते हैं । यह pdftotext या इसी तरह के औजारों का आह्वान करने के लिए एक प्रीप्रोसेसर यानी लेसपाइप देता है।
डैनियल नेल्सन

pdftotextकी तुलना में अधिक सटीक परिणाम देता है ebook-convertऔर यह बहुत तेज है। ebook-convertसुस्त है।
अमित पटेल

pdftotext-layoutविकल्प चट्टानों के साथ ! calibreस्थापित करने के लिए 600mb से अधिक की आवश्यकता है! वह पागल है)
स्टालिंको

9

आप कमांड लाइन पर pdftotext (Ubuntu: poppler-utils ; OpenBSD; xpdf-utilspackage) के साथ पीडीएफ को टेक्स्ट में बदल सकते हैं ।

आप पीडीएफ सहित विभिन्न स्वरूपित पाठ दस्तावेज़ प्रकारों की खोज करने के लिए Recoll (Ubuntu: recoll ; OpenBSD: no port, but FreeBSD के लिए एक है ।) का उपयोग कर सकते हैं । वहाँ एक जीयूआई है, और यह हुड के नीचे एक सूचकांक स्वचालित रूप से बनाता है। यह pdftotextपीडीएफ को टेक्स्ट में बदलने के लिए उपयोग करता है।

एक्रोबेट रीडर (लिनक्स के तहत कम से कम 9 संस्करण) में एक सीमित मल्टीपल-फ़ाइल खोज क्षमता है (आप एक निर्देशिका में सभी फ़ाइलों में खोज कर सकते हैं)।


4

pdftotext की संभावना है कि आप क्या देख रहे हैं: http://en.wikipedia.org/wiki/Pdftotext जब तक आप जिस पाठ को निकालना चाहते हैं वह वास्तव में एक चित्रमय रूप में है, जो कि पीडीएफ दस्तावेजों के साथ आम नहीं है।



-1

gPDFText ASCII पाठ में ebook पीडीएफ सामग्री को रूपांतरित करता है, लंबी लाइन पैराग्राफ के लिए पुन: स्वरूपित होता है, यह मेरे लिए काम करता है और इसका एक ग्राफिकल इंटरफ़ेस है।


3
नमस्ते और साइट पर आपका स्वागत है। हम यहाँ कुछ अधिक व्यापक होने के जवाब पसंद करते हैं। उदाहरण के लिए, आप जोड़ सकते हैं कि कहां gPDFTextसे प्राप्त किया जा सकता है, इसे कैसे स्थापित किया जा सकता है और ओपी के प्रश्न का उत्तर देने के लिए इसका उपयोग कैसे किया जाएगा।
terdon
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.