लिनक्स पर स्क्रिप्ट में पीडीएफ से टेक्स्ट कैसे निकालें?


23

लिनक्स पर - किस टेक्स्ट से .pdfटेक्स्ट को वास्तव में कैसे निकालना है, स्कैन की गई छवि नहीं है? मुझे ऐसी कोई चीज चाहिए जो मैं कमांड लाइन / स्क्रिप्ट में उपयोग कर सकूं, इंटरएक्टिवली नहीं। (मैं .tifओसीआर का उपयोग और रूपांतरित नहीं करना चाहता हूं - पाठ पहले से ही .pdfफ़ाइल में उपलब्ध है , इसलिए अपूर्ण ओसीआर से गलतियां क्यों पेश करें?)


जवाबों:


25

pdftotext जो पॉपलर के साथ आता है वह पीडीएफ में पाए गए किसी भी पाठ को निकालने की कोशिश करेगा।


1
आपकी त्वरित प्रतिक्रिया के लिए धन्यवाद, इग्नासियो! मैं पहले से ही pdftotext की जाँच कर रहा था जो w xpdf (foolabs.com से) आता है - आपके जवाब ने मुझे एक और रूप लेने के लिए प्रेरित किया, और मुझे यह काम कर गया। पॉपलर xpdf से विकसित हुआ प्रतीत होता है, इसलिए मैं उस पर भी एक नज़र डालूंगा। एक बार फिर धन्यवाद!
रॉब नोव

9

इग्नासियो का जवाब अभी ठीक है। वास्तव में, यह मेरी सूची में पहली बात होगी। ठीक है, कि और शायद सुझाव देने के लिए pdftohtmlउपकरण भी poppler, के साथ संयुक्त के साथ आता है कि pdfreflow अगर आप पैराग्राफों, आदि में पाठ को पुनः एकत्रित करने की कोशिश करना चाहते (बेशक, यह आप HTML आउटपुट दे देंगे, लेकिन सादा पाठ कर सकते हैं करने के लिए HTML परिवर्तित कई तरीकों से किया जा सकता है।)

यहाँ कुछ अन्य विकल्प भी हैं।

ebook-convertसे कमांड लाइन टूल कैलिबर , जो सादे पाठ में .PDFs परिवर्तित कर सकते हैं (या RTF या ebook प्रारूपों के एक नंबर, ePub, आदि)

pdftxtextractसे Podofo

Abiword को कमांडलाइन से बुलाया जा सकता है, किसी भी प्रारूप के बीच से इसे / निर्यात से इनपुट कर सकते हैं और उचित आयात प्लगइन के साथ, इसमें PDF शामिल हैं:

abiword --to=txt file.pdf

(निष्पक्षता में, मुझे लगता है कि AbiWord और कैलिबर दोनों पॉपलर पुस्तकालयों का उपयोग करते हैं, लेकिन मैं सकारात्मक नहीं हूं।)


धन्यवाद frabjous! इस मामले में, मैं केवल पाठ निकाल रहा हूं ताकि मैं विशिष्ट स्ट्रिंग्स (विक्रेता नाम, खाता संख्या) और पैटर्न (इनवॉइस नंबर और दिनांक) के लिए स्कैन कर सकूं - इसलिए इसे सुधारने या फिर से खोलने की आवश्यकता नहीं है। मैं पुष्टि और विकल्प की सराहना करता हूं - और मुझे यकीन है कि अन्य लोग भी करेंगे! - रॉब
बजे
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.