ऑप्टिकल चरित्र मान्यता सॉफ्टवेयर सिफारिशें?


15

मैंने कुछ ई-बुक्स / पेपर देखे हैं जो उनके पेपर वर्जन से जाहिर तौर पर स्कैन किए गए थे लेकिन ई-बुक्स / पेपर्स के टेक्स्ट को आश्चर्यजनक रूप से कॉपी किया जा सकता है। मुझे लगता है कि सीधे स्कैन किए गए संस्करणों को कुछ ऑप्टिकल कैरेक्टर मान्यता सॉफ्टवेयर द्वारा संसाधित किया जाना चाहिए था।

इसलिए मैं जानना चाहूंगा कि अनुशंसित ऑप्टिकल कैरेक्टर रिकग्निशन सॉफ्टवेयर्स क्या हैं? विशेष रूप से वे जो उबंटू के लिए या मुफ्त हैं? यदि विंडोज के लिए वे अधिक बेहतर हैं, तो कृपया मुझे भी बताएं।

मुझे उन OCRs में विशेष रूप से दिलचस्पी है, जो स्कैन की गई पीडीएफ फाइल को इनपुट के रूप में स्वीकार कर सकते हैं और फिर भी आउटपुट के रूप में एक और पीडीएफ फाइल का उत्पादन कर सकते हैं, जो इनपुट के समान है, लेकिन इसकी पाठ प्रतिलिपि के साथ।

धन्यवाद एवं शुभकामनाएँ!

कृपया प्रति उत्तर एक सॉफ़्टवेयर सीमित करें

जवाबों:


10

टेसरैक्ट OCR Tesseract OCR स्थापित करें

मूल इंजन को एचपी और आईबीएम द्वारा 80 के दशक के अंत में वापस विकसित किया गया था लेकिन यह मेरे द्वारा उपयोग किए जाने वाले सबसे अच्छे ओकुलर रिकग्निशन सॉफ्टवेयर्स में से एक साबित हुआ है। यह हाल ही में इंजन में कई अपडेट से गुजरा है और बाजार पर सबसे व्यापक ओसीआर उपकरणों में से एक बन गया है। अन्य सभी ओसीआर टूल्स (टेक्स्ट मैचों के उच्चतर 90 प्रतिशत में कुछ के साथ) के खिलाफ आउटकॉर्स्टिंग करना यह आसानी से मानक दस्तावेज़ टाइप-फेस को टेक्स्ट में बदल सकता है।

निम्नलिखित एक उदाहरण है:

tesseract ScannedDocument.png out

एक फ़ाइल का उत्पादन करेगा जिसे out.txt कहा जाता है


धन्यवाद! मैंने यह नहीं देखा कि Tesseract आउटपुट पीडीएफ का समर्थन करता है। क्या आप इसके बारे में जानते हैं?
टिम

@ समय पर, मूल रूप से मुझे विश्वास नहीं होता कि टेसरैक्ट कई इनपुट / आउटपुट प्रारूपों का समर्थन करता है। हालांकि, जेएनसी के जवाब में उल्लेख किया गया है, gscan2pdf OCR के लिए Tesseract का उपयोग करता है, और जैसा कि इसका नाम है, यह पीडीएफ आउटपुट का समर्थन करता है।
टिम लिटल

ध्यान दें कि ओसीआर ऑप्टिकल कैरेक्टर मान्यता के लिए है: en.wikipedia.org/wiki/Optical_character_recognition
जोस गोमेज़

8

एक अन्य प्रोजेक्ट जो ऐसा करने में सक्षम होना चाहिए, वह है gscan2pdf

sudo apt-get install gscan2pdf

यह परियोजना टेसरैक्ट, साथ ही अन्य खुले स्रोत ओसीआर टूल का भी उपयोग कर सकती है।


3

मुझे उबंटू के लिए कोई ओसीआर नहीं पता है, लेकिन विंडोज के लिए एक है जिसमें आपके लिए आवश्यक विशेषताएं हैं। यह ABBYY FineReader यह पृष्ठ है, लेकिन यह मुफ़्त नहीं है


1
मैंने ठीक उसी तरह का उपयोग किया जैसे टिम टिम (संरक्षित पीडीएफ खोलने के लिए) चाहता है
एक्सटेंडर करें

3

नि: शुल्क समाधान में मौजूद है, CunieForm (और इसके लिए सूक्ति के रूप में YAGF )


धन्यवाद! CunieForm इनपुट और आउटपुट प्रारूपों के रूप में पीडीएफ का समर्थन करता है? मैंने इसे इसके विकिपीडिया पृष्ठ और इसके आधिकारिक पृष्ठ पर नहीं देखा।
टिम

शायद नहीं, लेकिन TIFF की श्रृंखला के लिए पीडीएफ को विभाजित करना सरल कार्य है :)
एक्स्टेंडर

3

ऐसा लगता है कि Decapod प्रोजेक्ट PDF को निर्यात करेगा या निर्यात करेगा, इसलिए Tesseract को किसी भी तरह से यह जानने के लिए आवश्यक जानकारी का निर्यात करना चाहिए कि क्या पाठ मिला।


1

Adobe Acrobat (पाठक नहीं, एक नि: शुल्क आवेदन नहीं) OCR-ing एक स्कैन किए गए पीडीएफ दस्तावेज़ में सक्षम है और छवि के शीर्ष पर एक अदृश्य पाठ परत जोड़ रहा है, ताकि पाठ को चुना और कॉपी किया जा सके। दुर्भाग्य से मेरे पास यह जांचना आसान नहीं है कि एक्रोबैट के यूआई में यह सुविधा कहाँ स्थित है, लेकिन मैंने इसे उसी उद्देश्य के लिए सफलतापूर्वक उपयोग किया है जैसा आपने उल्लेख किया है।

और हाँ, यह एक विंडोज सॉफ्टवेयर है, लिनक्स एक नहीं, बल्कि वाइन मुख्यालय एप्लिकेशन डेटाबेस के अनुसार, यह वाइन के तहत काम करता है


1

सबसे अच्छा ओसीआर सॉफ्टवेयर आमतौर पर प्रिंटर / स्कैनर / कॉपियर में एम्बेडेड होता है। मेरे कार्यालय में Canon IRC 3880, OCR'd pdfs को किसी भी डेस्कटॉप प्रोग्राम की तुलना में आसान और तेज़ आउटपुट कर सकता है, जो मुझे पता है। पुस्तक को ट्रे (अनबाउंड) पर रखें, अपना मेल पता चुनें, हरे बटन को दबाएं।

OCR के अधिकांश PDF जो आप नेट पर पा सकते हैं, समान मशीनों के लिए आते हैं। समस्या यह है कि घरेलू उपयोग (लगभग 12000 यूरो आईआरसी) के लिए कीमत बहुत अधिक है।


1

मेरा पसंदीदा मुफ्त, ऑनलाइन OCR सॉफ्टवेयर रिको इनोवेशन द्वारा पेश किया गया है। यह एक बीटा कार्यक्रम है, लेकिन मुझे लगता है कि यह काफी अच्छी तरह से काम करता है। इसे देखें: http://beta.rii.ricoh.com/betalabs/content/document-conversion


1

OCRFeeder

यह एक जीयूआई अनुप्रयोग है।

यहाँ छवि विवरण दर्ज करें

यह ओसीआर इंजन के रूप में टेसरैक्ट - ऑक्रॉट या ऑक्रेड का उपयोग करता है ।

सॉफ्टवेयर केंद्र के साथ या के साथ स्थापित कर सकते हैं

sudo apt-get install ocrfeeder

0

FineReader का एक ऑनलाइन संस्करण भी है। यह इनपुट प्रारूप के रूप में पीडीएफ को संसाधित करने में सक्षम होने का दावा करता है --- http://finereader.abbyyonline.com/en/Help/Faq/

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.