कैसे एक पीडीएफ फाइल OCR और पीडीएफ के भीतर संग्रहीत पाठ पाने के लिए?


23

सबसे पहले, माफी अगर यह पहले पूछा गया है - मैंने मौजूदा पदों के माध्यम से थोड़ी देर तक खोज की, लेकिन समर्थन नहीं मिला।

मुझे फेडोरा के लिए OCR में एक मल्टीएज नॉन-सेचेबल पीडीएफ OCR के समाधान में दिलचस्पी है और इस पीडीएफ को एक नई पीडीएफ फाइल में बदलना है जिसमें इमेज के ऊपर टेक्स्ट लेयर है। मैक ओएसएक्स या विंडोज पर हम एडोब एक्रोबैट का उपयोग कर सकते हैं, लेकिन लिनक्स पर, विशेष रूप से फेडोरा पर?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/ एक समाधान का वर्णन करने के लिए लगता है - लेकिन दुर्भाग्य से मैं सटीक छवि को पुनः प्राप्त करते समय पहले से ही खो गया हूं।


अच्छा pdfocr लिपि के साथ एक समस्या है कि जिस पृष्ठ को आप अनुशंसा करने के लिए लिंक कर रहे हैं: यह pdftk पर निर्भर करता है जो अनिवार्य रूप से पदावनत किया जाता है (दो कारणों से, libgcj पर इसकी निर्भरता और iText5 + पर)। इसलिए एक अलग समाधान की आवश्यकता है ...
मैक्सिम

जवाबों:


24

pypdfocrइसका उपयोग करने के लिए सबसे अच्छा और आसान तरीका है कि यह पीडीएफ नहीं बदलता है। pypdfocr यहां एक अजगर मॉड्यूल लिंक है।

pypdfocr your_document.pdf

अंत में आपके पास एक your_document_ocr.pdfऔर तरीका होगा जिसे आप खोजे गए पाठ के साथ चाहते हैं। एप्लिकेशन छवि की गुणवत्ता को नहीं बदलता है। ओवरले टेक्स्ट को जोड़कर फ़ाइल का आकार थोड़ा बढ़ाता है।

मुझे लगता है कि यह आदेश बहुत आसान है कि इसे किसी GUI की आवश्यकता नहीं है। शायद pypdfocr स्थापित करना थोड़ा अधिक क्रिया है:

sudo dnf -y install tesseract 
pip install pypdfocr 

अपडेट 3 नवंबर 2018:

pypdfocr2016 से अब समर्थित नहीं है और मैंने मेंटल न होने के कारण कुछ समस्याओं पर ध्यान दिया। ocrmypdf( मॉड्यूल ) एक काम करता है और इस तरह इस्तेमाल किया जा सकता है:

ocrmypdf in.pdf out.pdf

स्थापित करने के लिए:

pip install ocrmypdf

या

sudo apt install ocrmypdf  #ubuntu
sudo dnf -y install ocrmypdf #fedora

आप ubuntu में (apt का उपयोग करके) ocrmypdf को क्यों स्थापित करते हैं, लेकिन फेडोरा में टेसरैक्ट स्थापित करते हैं? मुझे लगता है कि आपने
iuridiniz

@iuridiniz ने इसे ठीक किया। यह एक गलती थी जो फिसल गई
एडुअर्ड फ्लोरिनेस्कु

8

यह जानने के बाद कि टेसरेक्ट अब खोजा जा सकने वाले pdfs का उत्पादन कर सकता है, मुझे स्क्रिप्ट सैंडविच मिली: http://www.tobias-elze.de/pdfsandwich/

निर्भरता स्थापित करने के बाद (यह पूरी सूची नहीं हो सकती है)

sudo dnf install svn ocaml unpaper tesseract

मैंने स्रोत से संकलन के लिए स्क्रिप्ट के गाइड का पालन किया

स्रोतों से संकलन

pdfsandwich ओपन सोर्स सॉफ्टवेयर (लाइसेंस: GPL) है। आप प्रोजेक्ट वेबसाइट पर डाउनलोड क्षेत्र से .tar.bz2 पैकेज के रूप में स्रोतों को डाउनलोड कर सकते हैं या तोड़फोड़ द्वारा बाहर की जाँच कर सकते हैं:

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

यदि आपके सिस्टम पर OCaml स्थापित है, तो आप निम्नानुसार संकलित और स्थापित कर सकते हैं:

cd pdfsandwich
./configure
make
sudo make install

और यह अब मुझे चलाने की अनुमति देता है

sandwich multipaged-non-searchable.pdf

एक खोज योग्य पीडीएफ में जिसके परिणामस्वरूप।


एक संबंधित, लेकिन अलग प्रश्न के लिए, इस पर निर्माण करें, देखें unix.stackexchange.com/questions/306051/…
ingli

1
FWIW: pdfsandwich, Ubuntu के apt पैकेज रिपॉजिटरी में भी उपलब्ध है। अन्य distros यह भी हो सकता है।
लॉरेंस गोंसाल्वेस


बस Fedoramagazine.org/4-cool-new-projects-try-copr-october-2018 को फेडोरा के लिए एक COPR पैकेज दिखा रहा है जो संकुल pdfsandwich
ingli

3

उबंटू में उपलब्ध एक आसान उपकरण 'ऑरोफीडर' है, यह मूल दस्तावेजों पर ओसीआर पाठ के साथ पीडीएफ की पीढ़ी की अनुमति देता है। यह Tesseract plus के साथ अन्य OCR इंजनों का उपयोग करता है (जो निश्चित नहीं है) और इमेज रोटेशन / 'unpaper' इत्यादि के लिए भी प्रदान करता है।


1

मुझे भी यही समस्या थी इसलिए मैंने इसे सप्ताहांत में लिखा। इसे आजमा कर देखें; यह बहुत अच्छा काम करता है! यह एक साधारण आवरण है tesseract। यह pdftoppmएक पीडीएफ को TIFF फ़ाइलों के एक समूह में परिवर्तित करने के लिए उपयोग करता है, फिर यह tesseractउन पर OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) करने के लिए उपयोग करता है और आउटपुट के रूप में खोज योग्य पीडीएफ का उत्पादन करता है। स्क्रिप्ट पूरा होने पर सभी मध्यवर्ती अस्थायी फ़ाइलें स्वचालित रूप से हटा दी जाती हैं।

स्रोत कोड: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF

स्थापित करने और उपयोग करने के निर्देश pdf2searchablepdf:

11 नवंबर 2019 को उबंटू 18.04 पर परीक्षण किया गया।

इंस्टॉल करें:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

उपयोग:

pdf2searchablepdf mypdf.pdf

अब आपके पास mypdf_searchable.pdf नामक एक पीडीएफ होगा , जिसमें खोज योग्य पाठ है!

किया हुआ। इसकी कोई अजगर निर्भरता नहीं है, क्योंकि यह वर्तमान में पूरी तरह से बैश में लिखा गया है।

संदर्भ या संबंधित संसाधन:

  1. PDF2SearchablePDF : https://github.com/ElectricRCAircraftGuy/PDF2SeartPDF
  2. /ubuntu/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
  3. /ubuntu/16268/whats-the-best-simplest-ocr-solution
  4. /ubuntu/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
  5. pdfsandwich : वैकल्पिक सॉफ़्टवेयर रैपर मैंने अभी-अभी खोजा है, यह भी जांचने लायक है! http://www.tobias-elze.de/pdfsandwich/
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.