कमांड लाइन / स्क्रिप्ट के माध्यम से मौजूदा पीडीएफ खोजा (ओसीआर) बनाएं


21

मैं एक ऑफ़लाइन स्क्रिप्ट योग्य टूल की तलाश कर रहा हूं, जो उस पर OCR चलाकर एक मौजूदा पीडीएफ फाइल को खोज योग्य बनाता है, जो कि खोज योग्य संस्करण के साथ मूल गैर-खोज योग्य फ़ाइल की जगह ले सकता है, और अनअटेंडेड चल सकता है।

उदाहरण के लिए, www.pdfscannerapp.com - ठीक वही है जो मुझे चाहिए, लेकिन यह केवल GUI है - स्क्रिप्ट योग्य नहीं।

मुझे पता है कि एवरनोट पीडीएफ फाइलों को खोज योग्य बनाता है, लेकिन वे केवल एवरनोट के भीतर खोज योग्य रहते हैं।

मैं सही ओसीआर की तलाश नहीं कर रहा हूं, यहां तक ​​कि मामूली स्वीकार्य ओसीआर भी ठीक है, लेकिन मैं भारी सॉफ्टवेयर पैकेज के बजाय एक छोटी उपयोगिता पसंद करूंगा।

(मैं AD पर एक समान, लेकिन अलग-अलग प्रश्न से अवगत हूं: खोज करने के लिए सॉफ्टवेयर की खोज करना या खोज करने योग्य और संकेत करने योग्य पीडीएफ में बदलना - हालांकि, मुझे पीडीएफ को साइन या भरने की आवश्यकता नहीं है, और मेरी आवश्यकता यह है कि समाधान स्क्रिप्ट करने योग्य है)

संपादित करें:

1) कई उपयोगिताओं संरचित पाठ निष्कर्षण की अनुमति देते हैं, हालांकि निकाले जाने के लिए, पाठ होना चाहिए; मैं मुख्य रूप से पीडीएफ को संदर्भित कर रहा हूं जो बिटमैप्स से लिपटे हैं, जैसा कि स्कैनर्स द्वारा उत्पन्न सादे पीडीएफ के साथ है।

2) मैं जरूरी नहीं कि एक नि: शुल्क समाधान की तलाश कर रहा हूं, और मैं एक अच्छी उपयोगिता के लिए भुगतान करने से ज्यादा खुश रहूंगा जो कि मुझे बस जरूरत है, लेकिन मैं एक लाख सुविधाओं के साथ भारी अनुप्रयोगों की तलाश नहीं कर रहा हूं जिसमें ओसीआर सुविधा शामिल है लेकिन जिनकी लागत केवल OCR कार्यक्षमता के लिए उन्हें खरीदने का औचित्य नहीं है।

3) जैसा कि ऊपर कहा गया है, मैं सही ओसीआर की तलाश नहीं कर रहा हूं, बस एक मामूली स्वीकार्य ओसीआर है। दुर्भाग्य से, मेरे अनुभव में, टीज़रैक्ट वास्तव में उस सीमा से नीचे है। मैं "मध्यम रूप से स्वीकार्य" एक ओसीआर को परिभाषित कर सकता हूं, जो कह सकता है, ओसीआर एक उपयोगिता बिल ताकि कम से कम खाता संख्या (ग्राहक संख्या) को सही ढंग से पहचाना जाए।

संपादित करें: "स्क्रिप्ट करने योग्य" या "ऑटोमैटेबल", अर्थात, स्वचालित रूप से ट्रिगर होने में सक्षम है और मानव इनपुट के बिना अप्राप्य चलता है।


2
... यह नहीं पता कि यह करना कितना कठिन होगा, लेकिन Tesseract OCR में अक्सर कोड का उल्लेख किया गया है । Unix.SE में OCR / tesseract-ocr और OCR का उल्लेख किया गया है ।
hhh

1
यहां एक समान प्रश्न है , क्या उत्तर आपकी आवश्यकताओं के अनुरूप है?
nohillside

1
आप OCR का उल्लेख करें। क्या आपकी आवश्यकताओं में पीडीएफ, या स्कैन की हुई पीडीएफ फाइलें शामिल हैं? उन फ़ाइलों के लिए जिनके पास साधारण पोस्टस्क्रिप्ट के रूप में पाठ है, फिर "PDF2Text Pilot" जैसे एक पीडीएफ से पाठ कनवर्टर आपके लिए काम कर सकते हैं।
टिम बी

@patrix मैं एक छोटी सी उपयोगिता की तलाश में था, जरूरी नहीं कि वह मुफ्त हो लेकिन एक अलग मूल्य सीमा में हो। फिर भी, यह एक संभव समाधान है, धन्यवाद।
मैग्मा

@TimothyButler दुर्भाग्य से मैं स्कैन किए गए PDF (छवियों) के साथ काम कर रहा हूं। लेकिन, अच्छा संकेत, धन्यवाद।
मैग्मा

जवाबों:


5

यह मेरे लिए पूरी तरह से स्पष्ट नहीं है कि "कमांड लाइन" से "स्क्रिप्ट" के लिए आपकी आवश्यकताएं क्या हैं।

यदि आप स्वचालन के बारे में बात कर रहे हैं, तो यह किसी भी उपयोगिताओं के साथ संभव है।

ABBYY फाइनरएडर एक्सप्रेस + कीबोर्ड मेस्ट्रो + हेज़ेल

मैं ABBYY FineReader Express + कीबोर्ड Maestro + Hazel का उपयोग करता हूं जैसे:

  1. हेज़ेल किसी भी नए पीडीएफ के लिए दिए गए फ़ोल्डर की निगरानी करता है

  2. यदि एक पीडीएफ पाया जाता है, तो इसे "ABBYY FineReader Express" में खोला जाता है।

  3. कीबोर्ड मेस्ट्रो तब पीडीएफ को खोज योग्य पीडीएफ (ओसीआर) में बदलने की प्रक्रिया को स्वचालित करता है और फ़ाइल को एक अलग निर्देशिका में सहेजता है।

अब, यदि आप पहले से ही हेज़ल और कीबोर्ड मेस्ट्रो के मालिक नहीं हैं, तो आपकी शुरुआती लागत बहुत तेज़ी से बढ़ने वाली है (हालांकि मैं दोनों पर निर्भर करता हूं इसलिए मैं उन्हें एक सौदा मानता हूं)।

PDFPen + AppleScript + फ़ोल्डर क्रियाएँ

आप PDFPen (या PDFPenPro) और फ़ोल्डर क्रियाओं और AppleScript के साथ कुछ ऐसा ही कर सकते हैं। एक उदाहरण के लिए https://gist.github.com/prenagha/1355037 देखें ।

मार्को अरमेंट ने मैक के लिए ओसीआर ऐप का एक सर्वेक्षण किया और पाया कि पीडीएफपेन के शानदार परिणाम थे और स्वचालित करने में आसान थे।

"PDFpen एप्सस्क्रिप्ट OCR" के लिए एक Google खोज कई विकल्पों को चालू करेगी।


अच्छा जवाब टीजे। हेज़ल अद्भुत है, मैं इसका मालिक हूं और मैं इसका भरपूर उपयोग करता हूं। मैं वर्तमान में एबी / कीबोर्ड उस्ताद का मालिक नहीं हूं, लेकिन हेज़ल + पीडीएफपेन एक अद्भुत कॉम्बो है। कुल मिलाकर, जबकि यहां सभी उत्तर आम तौर पर बहुत अच्छे हैं, और थोड़ा अलग दर्शकों की सेवा करते हैं, मुझे लगता है कि हेज़ल + पीडीएफपेन मूल समस्या के लिए एक अच्छा फिट है। स्वीकार किए जाते हैं।
मैग्मा

ABBYYFineReader एक्सप्रेस पर +1, वहां अभी सबसे अच्छा OCR आसानी से उपलब्ध है और मैं अपनी खुद की एक परियोजना के लिए लगभग एक दर्जन से गुजर रहा हूँ
TechZen

12

आप क्या चाहते हैं Tesseract OCR है। यह एक खुला स्रोत OCR है जो Google द्वारा बनाए रखा गया है और विभिन्न प्लेटफार्मों का समर्थन करता है। इसमें एक देशी कमांड लाइन इंटरफ़ेस भी है। यह वही है जो आप देख रहे हैं और मैक पोर्ट्स प्रोजेक्ट के साथ-साथ होमब्रे से भी उपलब्ध है

प्रोजेक्ट होम: https://github.com/tesseract-ocr

ओएस एक्स पर कैसे स्थापित करें: http://blog.matt-swain.com/post/26419042500/installing-tesseract-ocr-on-mac-os-x-lion

उपयोग उदाहरण: tesseract -l eng input.pdf output


अच्छा प्रोजेक्ट है। मेरे परीक्षणों में, मान्यता खराब थी, लेकिन मुझे यकीन है कि यह ठीक करने में मेरी अक्षमता पर निर्भर करता है। मैं एक आलसी समाधान की तलाश में था, लेकिन यह एक अच्छा विकल्प हो सकता है, खासकर यदि आप अधिक नियंत्रण चाहते हैं और इसके लिए समय समर्पित कर सकते हैं।
मैग्मा

अधिक वर्तमान स्वामित्व वाले ऐप की तुलना में टेसरैक्ट बहुत अच्छा नहीं मिलता है। विशेष रूप से इसमें एन्कोडिंग और गणित के साथ समस्याएं हैं, अक्सर बहुत सारे ग्रीक वर्णों को मंथन किया जाता है।
22

क्या ओएस एक्स संस्करण पीडीएफ इनपुट की अनुमति देता है? विंडोज़ संस्करण नहीं है।
डग

8

अस्वीकरण: एक ओसीआर समाधान नहीं (लेकिन यह उत्तर अभी भी पीडीएफ से पाठ निकालने के लिए उपयोगी है)

Apache Tika नामक एक Apache Software Foundation परियोजना है :

एक टूलकिट मौजूदा पार्सर पुस्तकालयों का उपयोग करके विभिन्न दस्तावेजों से मेटाडेटा और संरचित पाठ सामग्री का पता लगाता है और निकालता है

वे PDFBox का उपयोग करके पीडीएफ टेक्स्ट निष्कर्षण का समर्थन करते हैं :

नए पीडीएफ दस्तावेजों के निर्माण, मौजूदा दस्तावेजों में हेरफेर और दस्तावेजों से सामग्री निकालने की क्षमता की अनुमति देता है। Apache PDFBox में कई कमांड लाइन उपयोगिताओं को भी शामिल किया गया है

और उन्होंने हाल ही में ओसीआर (टेसेरैक के माध्यम से) के लिए समर्थन भी जोड़ा

पाठ आधारित समाधान के लिए, PDF से पीडीएफ निकालने के लिए PDFBox बहुत सरल है:

इसके कुछ अन्य अच्छे विकल्प भी हैं जिन्हें आप ExtractText डॉक्स में देख सकते हैं ।


निश्चित रूप से पाठ निकालने के लिए एक अच्छा विकल्प है, लेकिन कोई ओसीआर क्षमता नहीं है जिसे मैं देख सकता हूं।
मैग्मा

1
@ मगमा ओसीआर का अर्थ है "ऑप्टिकल चरित्र मान्यता", निश्चित रूप से "ओसीआर क्षमता" है। अब आपको स्पष्ट करने की आवश्यकता है: क्या आपकी समस्या खराब-रिज़ॉल्यूशन छवि से पाठ निकालने के लिए है जैसे कि वीजीए कैम, खराब स्कैनर या दूर की तस्वीर के साथ उत्पन्न? फिर आपकी समस्या अलग है और इसके लिए सुपर-रिज़ॉल्यूशन जैसी चीज़ों पर विचार करने की आवश्यकता है। कृपया, अधिक विशिष्ट और छोटे प्रश्न पूछें ताकि उनका उत्तर दिया जा सके। मेरा सुझाव है कि आप इस प्रश्न को एक विशेषता के लिए सरल करें जो आप चाहते हैं। यदि आप कुछ और चाहते हैं, तो एक नया प्रश्न पूछें।
hhh

3
@ हं, एक बात बाइनरी फ़ाइल (जैसे एक पीडीएफ) से पाठ निकाल रही है ताकि यह द्विआधारी प्रारूप को पार्स करके, प्रयोग करने योग्य और पठनीय हो। इसके बारे में कुछ भी ऑप्टिकल नहीं है। पाठ पहले से ही है, इन उपयोगिताओं ने इसे केवल इसलिए निकाला है ताकि यह आपकी आंखों पर आसान हो, इसलिए बोलने के लिए। ऑप्टिकल कैरेक्टर रिकग्निशन इस मायने में अलग है कि यह बिटमैप में पिक्सल्स के पैटर्न को पहचानने की कोशिश करता है और उनमें यह समझ भी पैदा करता है कि यह एक अलग-अलग फ्रेगमेंट पैदा कर सकता है।
मैग्मा

यह मूल प्रश्न का उत्तर नहीं देता है। AFAICT, PDFbox-app OCR नहीं करता है।
Feuermurmel

5

मैं DEVONThink प्रो ऑफिस की सिफारिश करूंगा । यह एक उत्कृष्ट अनुप्रयोग है और इसमें बहुत अच्छा AppleScript समर्थन है। काश केवल 'प्रो ऑफिस' संस्करण में OCR क्षमता होती है - इसलिए आपको £ 100 ($ 150) प्राप्त करना होगा।

यह ओवरकिल होगा यदि आप इसे केवल स्क्रिप्टेड ओसीआर के लिए उपयोग कर रहे हैं - लेकिन यह एक बहुत अच्छा ऐप है।

[संपादित करें] - आह बस अपनी पोस्ट को फिर से पढ़ें - यह निश्चित रूप से ओवरकिल होगा!

यदि आप केवल शेल से ओसीआर चाहते हैं, तो आप एबीबीवाई से बात करने की कोशिश कर सकते हैं जिसका इंजन डीईवन लाइसेंस है:

http://www.abbyy-developers.com/en:tech:samples:commandline_ocr


हालांकि OS X में DEVONThink प्रो ऑफिस एक ओवरकिल है, लेकिन यह दिलचस्प है। अगर डेवलपर्स ने इसे OS X और iOS पर डिज़ाइन किया है, तो यह काम कर सकता है (UI को अधिक सरल रखते हुए) - क्या आप ऐसा कुछ जानते हैं? हालांकि विचार अच्छा है - इसलिए प्रो संस्करण स्वचालित रूप से स्क्रीनशॉट और पीडीएफ जैसी सभी प्रकार की चीजों में ओसीआर परत जोड़ता है? और उपयोगकर्ता किसी भी तरह से "स्क्रिप्ट" कर सकता है?
hhh

2
हां - ऐप में एक अच्छा AppleScript डिक्शनरी है, जो अन्य बातों के अलावा, आपको ऐप में संग्रहीत छवियों को खोज योग्य PDF में बदलने की अनुमति देता है।
डिगोरी

मान लीजिए कि मैं iPhone X के साथ iPhone या स्क्रीनशॉट के साथ चित्र लेता हूं और उन्हें एक फ़ोल्डर ProjectA में डाल देता हूं, तो क्या DEVONThink OCR परत को स्वचालित रूप से भाषा को निर्दिष्ट किए बिना भी उनके साथ जोड़ देती है? मान लीजिए कि आपने उन्हें ड्रॉपबॉक्स में डाल दिया और फिर फ़ोल्डर को स्वचालित रूप से जांचने के लिए OSX में DEVONThink करें, तो आप इसके बाद OS X और iOS पर काम कर सकते हैं? यह एक आकर्षक अवधारणा है अगर अच्छा किया जाए ... +1
hhh

एक तरह से, यह एवरनोट जैसा लगता है, जहां एवरनोट ओसीआर जोड़ता है, लेकिन इसके निर्यात की अनुमति नहीं देता है। क्या ओसीआर के साथ इस सॉफ्टवेयर से अपनी परियोजनाओं को निर्यात करना संभव है? यदि नहीं, तो कुछ बहुत ही साधारण OCR लिब और फिर कुछ भाषाई विश्लेषण lib सबसे अच्छा काम कर सकते हैं। शायद अन्य एबीबीवाई है, मुझे अभी तक पता नहीं है।
hhh

2
: यह कई भाषाओं में पहचान सकते हैं i.stack.imgur.com/buDLI.png
डिगरी

5

आप अपने मौजूदा पीडीएफ को पाठ फ़ाइल में परिवर्तित करके खोज योग्य बना सकते हैं। आपको उस कम से कम इमेजमैगिक , घोस्टस्क्रिप्ट (पीडीएफ रूपांतरण के लिए) और टेसरैक्ट ओसीआर टूल की आवश्यकता है।

कुछ कमांड-लाइन उदाहरण:

$ wget http://www.fmwconcepts.com/misc_tests/pdf_tests/test.pdf
$ convert -density 300 -depth 8 test.pdf test.png
$ tesseract test*.png test.txt
$ grep -i --color=auto the test*.txt
**The** details as told by surviving crew members, to **the** German publication Spiegel and published on ABC's

यह आपकी आवश्यकताओं के लिए आगे बढ़ाया जा सकता है।

ओएसएक्स पर आवश्यक उपकरण स्थापित करने के लिए, आप इसे होमब्रे के माध्यम से स्थापित कर सकते हैं :

brew install imagemagick jpeg libpng ghostscript tesseract

लिनक्स उपयोग पर apt-getया yumइसके बजाय brew

अधिक ओसीआर टूल के लिए, जांचें: लिनक्स सिस्टम पर ओसीआर

सम्बंधित:


4

एक समाधान जो आसानी से लागू होने योग्य है और इनपुट फ़ाइल की एक ही गुणवत्ता के साथ आउटपुट पीडीएफ प्रदान करता है, जो उचित आकार है OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF


यह एक शांत समाधान की तरह दिखता है, हालांकि मैंने ओसीआर बैकेंड, टेसेरैक्ट पाया है, बल्कि निराशाजनक (निश्चित रूप से इसे ठीक से कॉन्फ़िगर करने में मेरी अपनी सीमाओं के कारण)।
मैग्मा

मुझे OCRmyPDF से प्यार है, नीचे मेरा उत्तर देखें जिसमें बताया गया है कि कैसे स्थापित करें और ड्रैग-एंड-ड्रॉप इसे जल्दी और दर्द रहित तरीके से स्वचालित करें।
तड़के

1

Stackoverflow में PDFBox और Apache के TIKA जैसे PDFBox का उपयोग करने वाली चीजों को पीडीएफ-पार्सिंग के तहत संबंधित प्रश्न हैं । नीचे दिया गया माणिक कोड पीडीएफ से लेखन। इस प्रकार के कोडों को मजबूती से काम करने के लिए आपके पास पर्याप्त पर्याप्त रिज़ॉल्यूशन होना चाहिए। तो बड़े रिज़ॉल्यूशन के साथ एक अच्छा पर्याप्त स्कैनर प्राप्त करें और फिर देखें कि क्या कुछ सॉफ्टवेयर्स काम करते हैं।

उदाहरण

  1. https://github.com/yob/pdf-reader/tree/master/examples

अतः सूत्र

  1. /programming/5217783/pdf-parse-to-text-in-java

  2. /programming/8149179/alternative-to-tika-pdfbox-for-parsing-pdf-in-solr-any-version-later-than-1-4

  3. /programming/320621/ruby-pdf-parsing-gem-library

  4. /programming/15186740/haskell-parsing-reading-content-of-pdf-files

[संपादित करें]

मुझे यकीन नहीं है कि क्या मैं अब आपकी समस्या को समझ गया हूं। आप ओसीआर परत को विभिन्न प्रकार की सामग्री जैसे कि यादृच्छिक फोटो, स्क्रीनशॉट, पीडीएफ बिना ओसीआर परत और इत्यादि के साथ जोड़ना चाहते हैं? मुझे इसका समाधान नहीं पता है, लेकिन मुझे यकीन है कि किसी को पता है कि एक विशिष्ट प्रश्न पूछा गया है कि इसे ऑटोमेकर और कुछ ओसीआर सॉफ्टवेयर के साथ कैसे किया जाए:

स्वचालित रूप से सामग्री में ओसीआर जोड़ने के लिए एक ओसीआर-सॉफ्टवेयर के साथ ऑटोमेटर-स्क्रिप्ट?


दोबारा: मैं पाठ को पार्स या निकालने के लिए नहीं देख रहा हूं जो पहले से ही है। मैं पीडीएफ फाइल में पाठ (ओसीआर) को पहचानना चाहता हूं जो अनिवार्य रूप से छवियां, बिटमैप हैं; उनमें मूल रूप से कोई पाठ नहीं है।
मैग्मा

@ मम्मा कृपया, मेरा अपडेट देखें। आप ओसीआर परत के अतिरिक्त को स्वचालित करना चाहते हैं ताकि आप "खोज योग्य पाठ" के बिना भी विभिन्न प्रकार के दस्तावेजों की खोज कर सकें? यदि आप ऐसा कर सकते हैं, तो आप खोजक के सभी दस्तावेजों पर खोज कर सकते हैं - आप समझते हैं? मुझे आश्चर्य है कि अगर आने वाले उन्नयन में Apple ऐसा नहीं करता है ...
hhh

जैसा कि मेरे प्रश्न में कहा गया है, हाँ।
मैग्मा

1

इस प्रकार के स्व-निर्देशित आवेदन के लिए, मैं हेज़ल का बहुत बड़ा प्रशंसक हूं।

यह बिना किसी अधिक कमांड लाइन उन्मुख टूल जैसे पर्ल या पाइथन सीखने की आवश्यकता के बिना स्क्रिप्ट क्रिया को बेहद आसान बनाता है और आपकी पसंद के ओसीआर इंजन के साथ जोड़ा जाता है (मेरा वर्तमान में पीडीएफ पेन प्रो है) आपको अपनी फ़ाइलों को न्यूनतम से संसाधित करने में कोई समस्या नहीं होनी चाहिए। गड़बड़।

इन दोनों को सॉफ्टवेयर का भुगतान किया जाता है, लेकिन दोनों की उपयोगिता इस एक मामले में पिछले है। मेरी स्थिति में, मेरे पिछले स्कैन किए गए रिकॉर्ड (और चल रहे कागज) को डिजिटाइज़ करने में शामिल श्रम के साथ, इन दूर की कीमत उस समय की है जब मैं इस प्रोग्रामिंग को कहीं और खर्च करूँगा और अब जब मेरे पास दोनों उपकरण हैं, तो मैं कई अन्य कार्यों के साथ कर सकता हूं उन्हें।


0

PDFScannerApp में एक अनौपचारिक स्क्रिप्टिंग समर्थन है। ऑटोमेकर कार्रवाई के लिए लेखक से संपर्क करें।


0

मैं बैच में OCR के लिए Adobe acrobat का उपयोग करता हूं। स्कैनिंग के बाद मेरा डुप्लेक्स स्कैनर ओसीआर हो सकता है लेकिन एक्रोबैट में ओसीआर तकनीक मेरे विचार में अधिक सटीक है। मैं सिर्फ उस फ़ोल्डर को इंगित करता हूं जिसमें कोई ओसीआर नहीं है फिर एक्रोबैट री पीडीएफ को एक पाठ परत सहित अब खोजा पीडीएफ के रूप में बचाता है। यदि मैं कमांड लाइन के माध्यम से ओसीआर करना चाहता था, तो मुझे एक तरीका नहीं पता है लेकिन मैं ऑटोहोटेकी का उपयोग करके जीयूआई को स्वचालित कर सकता हूं। कमांड लाइन के रूप में विश्वसनीय या तेज़ नहीं है, लेकिन यह GUI इंटरैक्शन को कम करने के लिए वर्कफ़्लो कार्रवाई सेट करने के बाद काम करता है।

मैक के लिए, ऐप्पल स्क्रिप्ट वह करता है जो ऑटोहोटेकी पीसी पर करता है, हालांकि मैंने अपने मैक पर अभी तक कोशिश नहीं की है।

ऑटो हॉट की एक रिकॉर्डर के साथ आता है इसलिए अधिकांश स्क्रिप्ट लेखन आपके लिए रात्रिभोज के साथ एक बिट बिट एडिटिंग के लिए होता है और यदि आप चाहते हैं कि शायद लूपिंग।

मैं ओसीआर छवियों का प्रयोग कर रहा हूं, लेकिन एक्रोबेट के माध्यम से पूरी तरह से प्रक्रिया को स्वचालित नहीं किया है। कमांड लाइन आदर्श है लेकिन इसमें एक गुणवत्ता वाला OCR इंजन नहीं मिला है जो एक्रोबेट से अधिक है इसलिए मैं अभी के लिए एक्रोबेट के साथ छड़ी करता हूं।


0

मैं इस पर हाल ही में ठोकर खाई: http://ocrkit.com/faq.html

हालांकि आपको 14 दिनों के बाद भुगतान करना होगा


1
अलग पूछने के लिए आपका स्वागत है! हम सर्वश्रेष्ठ उत्तर ढूंढने का प्रयास कर रहे हैं और वे उत्तर यह जानकारी प्रदान करेंगे कि वे सबसे अच्छे क्यों हैं। बताएं कि आपको क्यों लगता है कि आपके द्वारा सुझाए गए सॉफ्टवेयर वहां मौजूद अन्य लोगों से बेहतर हैं। सामान्य तौर पर, लिंक-ओनली उत्तर डिलीट होने की आशंका होती है, इसलिए आप हमेशा अपने उत्तर को सभी संबंधित जानकारी के साथ सम्मिलित करना चाहते हैं। देखें जवाब कैसे कैसे एक गुणवत्ता उत्तर प्रदान करने पर।
fsb

0

मुझे डॉकर का उपयोग करके उच्च गुणवत्ता वाला ड्रैग एंड ड्रॉप रूपांतरण काम कर रहा है।

अगर तुम:

  1. अपने मैक के लिए डॉकर स्थापित करें और
  2. फिर एक नया ऑटोमेटर ऐप बनाएं
  3. इन सामग्रियों के साथ "रन ए शैल स्क्रिप्ट" क्रिया। पास इनपुट चुनें:"as arguments"

/bin/bash स्क्रिप्ट पाठ:

cd "`dirname "$1"`"
/usr/local/bin/docker run --rm -v "$(pwd):/home/docker" jbarlow83/OCRmyPDF --force-ocr "`basename "$1"`" "`basename -s .pdf "$1"`-ocr.pdf"

फिर आपको पीडीएफ को इस पर ड्रैग-एंड-ड्रॉप करना अच्छा होगा और आपको पीडीएफ नाम के साथ "-क्रोक" के समान पीडीएफ नाम मिलेगा।

मुझे लगता है कि इसे कहीं भी कॉपी करने के लिए ऑटोमेटर को फाइल वापस करने के लिए आसानी से संशोधित किया जा सकता है। ठीक OCRmyPDF docker पैकेज के बारे में अधिक जानकारी। और मुख्य उपकरण (एक अलग उत्तर में भी उल्लेख किया गया है)।

आप इसे "इसके बारे में इनपुट के रूप में निर्दिष्ट खोजक आइटम प्राप्त करें" कार्रवाई के साथ स्वचालक में इसका परीक्षण कर सकते हैं।

पहली बार जब यह चलता है, तो इसे अधिक समय लगता है क्योंकि इसे OCRmyPDF (अदृश्य रूप से) के लिए डॉकर चित्रों को डाउनलोड करना होगा। टर्मिनल में, आप docker pull jbarlow83/ocrmypdfपहले रन को गति देने के लिए वैकल्पिक रूप से चला सकते हैं। एक विशिष्ट रन उच्च डीपीआई पृष्ठ पर लगभग 10 सेकंड लेता है, लेकिन टेबल या आरेख होने पर भी स्वचालित रूप से पाठ-से-देखने योग्य परिणाम होते हैं। OCRing से पहले, मैं Sejda का उपयोग कर फसल करता हूं इसलिए अन्य पृष्ठों से बकवास मार्जिन शब्द हटा दिए जाते हैं।

--force-ocrतर्क ध्यान न दें और किसी भी पहले ओसीआर प्रयास करता है, जो मेरे मामलों में आमतौर पर केवल आंशिक और बेकार हैं अधिलेखित करने के लिए उपकरण बताता है।


0

OCRKit में AppleScript समर्थन और CLI दोनों हैं। उनके मदद पृष्ठ से :

AppleScript

आप OCRKit को अपने विशिष्ट वर्कफ़्लो में एकीकृत करने के लिए भी स्क्रिप्ट कर सकते हैं। उदाहरण के लिए आने वाली फाइलें, साझा किए गए फ़ोल्डर के माध्यम से, एमएफपी कॉपी मशीन, आदि से और बस OCRKit को खोलने के लिए बताएं और इस प्रकार प्रक्रिया AppleScript के लिए है:

tell application "OCRKit"
   -- the wonders of AppleScript POSIX path handling, ...
   open "Users:admin:Desktop:orderform.pdf"
   open POSIX path of "/Users/Admin/Desktop/orderform.pdf"
end tell 

कमांड लाइन

चूंकि OCRKit संस्करण 2.5 डायरेक्ट कमांड लाइन स्क्रिप्टिंग समर्थित है। यह बैच प्रसंस्करण में OCRKit के उपयोग को बहुत सरल करता है, अधिक विकल्प सेट करने की अनुमति देता है और यूसीसट्रिप की तुलना में अधिक मजबूत और क्रॉस-प्लेटफॉर्म भी है।

OCRKit.app/Contents/MacOS/OCRKit \ 
    --lang en | de | fr | es | ... \
    --format pdf | html | rtf | text \
    --no-progress \
    --output out-file in-file

चूंकि OCRKit संस्करण 16.9 अतिरिक्त कमांड लाइन विकल्प समर्थित हैं:

-r, --recursive directory

नई फ़ाइलों के लिए पुनरावर्ती स्कैन निर्देशिका। पाठ परत या वेक्टर ग्राफिक्स के साथ, OCRKit की फ़ाइलें।

--pattern "regex"

पैटर्न का उपयोग पुनरावर्ती स्कैन के दौरान फ़ाइल नाम से मेल खाता था। %.pdf$TIFF के लिए अनुशंसा, डिफ़ॉल्ट है%.tiff?$

--log file

फ़ाइल में पुनरावर्ती स्कैन के दौरान लॉग फ़ाइल जानकारी और आंकड़े लिखें।

--password secret

बैच प्रोसेसिंग के दौरान पीडीएफ फाइलों को डिक्रिप्ट करने के लिए गुप्त पासवर्ड का उपयोग करें।

--test-run [ fast ]

पीडीएफ फाइलों का परीक्षण करने या कुल प्रसंस्करण समय का अनुमान लगाने के लिए पृष्ठ गणना प्राप्त करने के लिए केवल परीक्षण मोड में परीक्षण बैच प्रसंस्करण चलाएं। "तेज़" केवल प्रत्येक फ़ाइल के पहले पृष्ठ की जांच करेगा, छवि और वेक्टर विश्लेषण के लिए सभी पृष्ठों को जाने के बजाय।

--tag name

बैच प्रोसेसिंग के दौरान फ़ाइलों की प्रोसेसिंग स्थिति को टैग करने के लिए विस्तारित विशेषता नाम का उपयोग करें। macos:OCRKit (%s)इसके बजाय देशी macOS खोजक टैग का उपयोग करेंगे, या केवल macos:OCRKitराज्य विशेषता को शामिल नहीं करेंगे। राज्य विशेषता के आदेश दिए गए हैं: started, analyzed, processed, और यह भी हो सकता है encrypted

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.