सबसे अच्छा, सबसे सरल ओसीआर समाधान क्या है?


77

मैं कम से कम संभव परेशानी के साथ, मेरे पास झूठ बोलने वाले कागजात की एक अच्छी मात्रा को स्कैन करना चाहता हूं। मैं उन्हें साधारण स्कैन का उपयोग करके छवियों में परिवर्तित करना चाहूंगा, फिर उन्हें ओसीआर का उपयोग करके पाठ में परिवर्तित कर सकता हूं। क्या GUI के साथ एक अच्छा OCR ऐप है जो मुझे एक बटन के पुश पर अच्छे परिणाम देगा?


हमें वास्तव में इस धागे में बहुत कुछ चाहिए। इतने पुराने / मूल्यह्रास / ... बातें। कोई एक-लाइनर परीक्षण नहीं करता है। ज्यादातर कॉपी-पेस्ट किए गए परिणाम / सूची यहां। गुणवत्ता-आश्वासन नहीं।
लेओ लेपोल्ड हर्ट्ज़ '

2018 में, अब तक का सबसे सरल ओसीआर समाधान ऑनलाइन ocr एप का उपयोग कर रहा है : Google विज़न OCR, Azure OCR या मुफ्त OCR.space OCR API सभी अत्यधिक गुणवत्ता वाले OCR परिणाम प्रदान करते हैं - निश्चित रूप से केवल तभी जब आपका एप्लिकेशन / उपयोग किसी क्लाउड समाधान की अनुमति देता है। ।
निक एंडो

जवाबों:


70
  • GOCR से एक ओसीआर (ऑप्टिकल वर्ण पहचान) program.It पाठ की स्कैन किए गए चित्रों वापस धर्मान्तरित पाठ फ़ाइलों के लिए है।

  • क्लारा एक और अच्छा चित्रमय विकल्प है।

  • OCRAD से एक ओसीआर, एक स्टैंड-अलोन सांत्वना आवेदन के रूप में इस्तेमाल किया जा सकता या अन्य कार्यक्रमों के लिए एक बैकेंड के रूप में है।

  • कूका से एक केडीई अनुप्रयोग है लेकिन ठीक काम करता है, इसके अलावा में आप की तरह GOCR और OCRAD.After कूका और ओसीआर प्रोग्राम स्थापित वास्तविक ओसीआर प्रोग्राम इंस्टॉल करने का है, तो आप क्रम में स्थान ओसीआर स्थापित करने के लिए कूका बात करने के लिए यह करने के लिए सक्षम होने के लिए के लिए है JPEG को टेक्स्ट में बदलें।

  • OCRFeeder से एक दस्तावेज़ लेआउट विश्लेषण और ऑप्टिकल चरित्र पहचान प्रणाली है।

  • Tesseract से कमांड लाइन उपयोगिता है और यह बहुत सरल है use.You भाषा पैकेज स्थापित कर सकते हैं करने के लिए Tesseract-ओसीआर-eng से यहाँ

इस पृष्ठ पर एक नज़र डालें ।

नोट: टेसटरैक्ट गोटो टर्मिनल
चलाने के लिए और निम्न टाइप करें

tesseract imagefile.tif outputfile.txt

Tesseract केवल एक TIFF फ़ाइल पढ़ सकता है - यदि आपको JPEG या PDF या जो कुछ भी मिला है, आपको उसे परिवर्तित करना होगा। इसके अलावा, फ़ाइल नाम एक्सटेंशन .tif होना चाहिए, न कि .tiff, अन्यथा टेसरैक्ट त्रुटियां बाहर।


1
अगर आपकी बोली जाने वाली भाषा अंग्रेजी नहीं है? क्या अन्य भाषा के लिए कोई एक्सटेंशन है?
वासिलिस

3
@Vassilis: ओसीआर सिस्टम भाषा स्वतंत्र हैं क्योंकि वे वर्णों को पहचानते हैं, शब्दों को नहीं। हालाँकि यदि आपके वर्णमाला में लैटिन-वर्ण (जैसे सिरिलिक) नहीं है, तो यह उन लोगों को याद कर सकता है।
OpenNingia

2
@OpenNingia: केवल लैटिन अक्षरों का उपयोग कर लेखन प्रणाली के साथ भी भाषा महत्वपूर्ण हो सकती है। यह OCR को अस्पष्ट अक्षरों के बीच भेदभाव करने में मदद करता है।
Frédéric Grosshans

13
इस तरह के सवाल / जवाब वास्तव में आस्कुबंटु को गड़बड़ करते हैं। उस व्यक्ति ने "क्या सबसे अच्छा, सबसे सरल ओसीआर समाधान है" नहीं पूछा "लिनक्स के लिए सभी ओसीआर एप्लिकेशन उपलब्ध हैं"। इस समाधान को स्वीकार नहीं किया जाना चाहिए था! वास्तव में भ्रमित और मददगार नहीं।
एलिन आंद्रेई

1
वर्तमान Ubuntu tesseract(Ubuntu 15.10 पर 3.04.00) को PNGइनपुट फ़ाइलों के साथ कोई समस्या नहीं है । यह स्वीकार करता है JPGफ़ाइलें, लेकिन उनके लिए भी बदतर परिणाम देता है, के रूप में एक संपीड़न के अतिरिक्त कलाकृतियों से उम्मीद होती है।
वोल्कर सीगल

10

कुछ लोकप्रिय ओसीआर कमांड-लाइन टूल हैं जिनका आप उपयोग कर सकते हैं (मुझे यकीन नहीं है कि उनके पास जीयूआई है):

  • Tesseract ( ReadMe , FAQ ) (पायथन)

    इसके लिए भी उपलब्ध: Tesseract .NET , Tesseract iOS

    एक OCR इंजन जो 1985 और 1995 के बीच HP लैब्स में विकसित किया गया था ... और अब Google पर। Tesseract संभवतः सबसे सटीक ओपन सोर्स OCR इंजन है।

    उपयोग:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    ओपन-सोर्स चरित्र मान्यता। यह पाठ की स्कैन की गई छवियों को वापस पाठ फ़ाइलों में परिवर्तित करता है। GOCR का उपयोग विभिन्न फ्रंट-एंड के साथ किया जा सकता है, जो विभिन्न ओएस और आर्किटेक्चर को पोर्ट करना बहुत आसान बनाता है। यह कई अलग-अलग छवि प्रारूप खोल सकता है, और इसकी गुणवत्ता में दैनिक आधार पर सुधार हुआ है।

  • OCRopus ™ ( अकसर किये गए सवाल ) (पायथन, NumPy, और SciPy में लिखा गया है)

    ओसीआर प्रणाली दस्तावेज़ विश्लेषण में समस्याओं को संबोधित करने के लिए बड़े पैमाने पर मशीन सीखने के उपयोग पर ध्यान केंद्रित करती है, जिसमें प्लगेबल लेआउट विश्लेषण, प्लगेबल चरित्र मान्यता, सांख्यिकीय प्राकृतिक भाषा मॉडलिंग, और बहुभाषी क्षमताओं की विशेषता है।

    OCRopus इंजन दो शोध परियोजनाओं पर आधारित है: 90 के दशक के मध्य में विकसित और यूएस जनगणना ब्यूरो, और उपन्यास उच्च प्रदर्शन लेआउट विश्लेषण विधियों द्वारा तैनात एक उच्च-प्रदर्शन हस्तलिपि पहचानकर्ता।

    OCRopus विकास Google द्वारा प्रायोजित है और शुरू में उच्च-थ्रूपुट, उच्च-वॉल्यूम दस्तावेज़ रूपांतरण प्रयासों के लिए लक्षित है। हम उम्मीद करते हैं कि यह कई अन्य अनुप्रयोगों के लिए एक उत्कृष्ट ओसीआर प्रणाली भी होगी।

  • Tessnet2 (खुला स्रोत, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    Tesseract एक C ++ ओपन सोर्स OCR इंजन है। Tessnet2 .NET असेंबली है जो OCR करने के लिए बहुत ही सरल तरीकों को उजागर करता है। Tessnet2 Apache 2 लाइसेंस (जैसे tesseract) के तहत है, जिसका अर्थ है कि आप इसका उपयोग कर सकते हैं जैसे आप चाहते हैं, वाणिज्यिक उत्पादों में शामिल हैं।

कुछ अन्य: लिनक्स के लिए एबीबीवाई सीएलआई ओसीआर , अस्सिटेंट ओसीआर

अधिक संपूर्ण सूची के लिए, चेक करें: विकिपीडिया पर ऑप्टिकल चरित्र पहचान सॉफ्टवेयर की सूची

इसे भी देखें: wanghaisheng/awesome-ocr- GitHub में OCR संसाधनों का वादा करने वाली एक क्यूरेट सूची


9

लिनक्स बुद्धिमान-ओसीआर-समाधान

अस्वीकरण - मैं इस ओपनसोर्स समाधान के विकास के साथ निकटता से जुड़ा हुआ हूं

Lios, स्कैनर या कैमरे का उपयोग कर प्रिंट को टेक्स्ट में बदल सकता है।

यह अन्य स्रोतों जैसे कि पीडीएफ, छवि या फ़ोल्डर युक्त छवियों से स्कैन की गई छवियों से भी पाठ का उत्पादन कर सकता है।

कार्यक्रम को दृष्टिबाधितों के लिए कुल पहुंच प्रदान की जाती है।

चूंकि मैं निकटता से जुड़ा हुआ हूं - मुझे प्रतिक्रिया पसंद आएगी।


उपयोग पर प्रलेखन कहां है? lios उतना सहज नहीं है जितना कि मुझे उम्मीद थी।
एक कोडर

परियोजना यहां चली गई है
सुजान

क्या सर्वर पर केवल हेडलेस मोड में कमांड लाइन के माध्यम से इसे चलाना संभव है?
डेडलॉक

8

Gscan2PDF

मल्टी पेज पीडीएफ या स्कैन किए गए दस्तावेजों पर ओसीआर

यह शायद सबसे आसान तरीका है। Gscan2pdf एक ग्राफिकल टूल है जो आपको न केवल फाइलों को स्कैन करने देता है, बल्कि फाइलों को आयात भी करता है और उन पर ओसीआर करता है। यहाँ Gscan2pdf स्थापित करें से Ubuntu सॉफ्टवेयर सेंटर से या टर्मिनल में इस कमांड को चलाने के लिए gscan2pdf स्थापित करें :

sudo apt-get install gscan2pdf
  • Gscan2pdf चलाएं
  • पीडीएफ आयात करें (Ctrl + O)
  • वैकल्पिक: उपकरण> साफ करें
  • उपकरण चुनें> OCR सहेजें (Ctrl + S)

Gscan2PDF अनुकूलन OCR इंजन का उपयोग कर सकता है, डिफ़ॉल्ट है tesseract-ocr

आप उपयुक्त भाषा का चयन करने पर विचार कर सकते हैं। उस स्थिति में आपको tesseract-ocr-LANGपैकेज स्थापित करने की आवश्यकता होगी , जहां LANGतीन अक्षर आईएसओ 639-2 भाषा कोड है। अभी आपके पास 16.04 रेपो पर 108 भाषाएं हैं।


मैं इस सॉफ्टवेयर के साथ कुछ नहीं कर सकता। कोई पर्याप्त पहचान नहीं है। उनकी सिफारिशों से पहले ऐप्स के बारे में कोई भी परीक्षण नमूने प्राप्त करना बहुत अच्छा होगा।
लेओ लेपोल्ड हर्ट्ज़ o

gscan2pdf के लिए 16.04 कम से कम कोई Ctrl + i विकल्प शॉर्टकट नहीं है। एक पीडीएफ फाइल को सही ढंग से खोलने से "पृष्ठों को निकालने" की पहचान होती है, लेकिन "ओके" का चयन करना कुछ नहीं करता है।
1975 में user75505

3

मुझे अभी तक सफलता मिली है (16.04 के तहत) pdfocr.rb के साथ । यह उबंटू विकी पर सूचीबद्ध है

यहाँ एक ppa है, लेकिन 16.04 के लिए भंडार अपडेट नहीं किया गया है। गितुब से ऊपर की रूबी लिपि हालांकि 16.04 के साथ काम करती है।

आप इसे Github से डाउनलोड कर सकते हैं। आपको निम्नलिखित संकुल स्थापित करने की आवश्यकता होगी:

ruby tesseract-ocr pdftk exactimage

तब pdfocr.rb को निष्पादन योग्य बनाया और चलाया गया:

./pdfocf.rb -i source.pdf -o output.pdf

वैकल्पिक रूप से आप -l LANGपैरामीटर का उपयोग कर सकते हैं । उस स्थिति में आपको tesseract-ocr-LANGपैकेज स्थापित करने की आवश्यकता होगी , जहां LANGतीन अक्षर आईएसओ 639-2 भाषा कोड है। अभी आपके पास 16.04 रेपो पर 108 भाषाएं हैं।


3

pypdfocrइसका उपयोग करने के लिए सबसे अच्छा और आसान तरीका है कि यह पीडीएफ नहीं बदलता है। pypdfocr यहां एक अजगर मॉड्यूल लिंक है।

pypdfocr your_document.pdf

अंत में आपके पास एक your_document_ocr.pdfऔर तरीका होगा जिसे आप खोजे गए पाठ के साथ चाहते हैं। एप्लिकेशन छवि की गुणवत्ता को नहीं बदलता है। ओवरले टेक्स्ट को जोड़कर फ़ाइल का आकार थोड़ा बढ़ाता है।

मुझे लगता है कि यह आदेश बहुत आसान है कि इसे किसी GUI की आवश्यकता नहीं है। शायद pypdfocr स्थापित करना थोड़ा अधिक क्रिया है:

sudo apt install tesseract-ocr 
pip install pypdfocr 

अपडेट 3 नवंबर 2018:

pypdfocr2016 से अब समर्थित नहीं है और मैंने मेंटल न होने के कारण कुछ समस्याओं पर ध्यान दिया। ocrmypdf( मॉड्यूल एक काम करता है और इस तरह इस्तेमाल किया जा सकता है:

ocrmypdf in.pdf out.pdf

स्थापित करने के लिए:

pip install ocrmypdf

या

apt install ocrmypdf

यह एक बहुत ही दिलचस्प उपकरण है, हालांकि मुझे लगता है कि ओपी एक जीयूआई उपकरण एक पाठ फ़ाइल का उत्पादन करना चाहता था, न कि एक पीडीएफ सैंडविच। यह अच्छा होगा यदि आप परियोजना की वेबसाइट को शामिल कर सकते हैं।
एंड्रिया लज्जाज़ारो

@AndreaLazzarotto हां मैंने देखा लेकिन चूंकि कॉमैंड इतना सरल है कि मुझे लगता है कि बहुत से लोग इसके लिए टर्मिनल का उपयोग कर सकते हैं। तो मैं यहाँ समाधान शामिल करने के लिए
सोचा

1
एक संयोग के रूप में, अभी हाल ही में मैंने "ocrmypdf" की खोज की। क्या आपने इसकी जाँच की? यह बहुत अच्छा है। :)
एंड्रिया लेज़ारोत्तो

@AndreaLazzarotto एक अच्छा विकल्प की तरह लगता है जिसे आप एक उत्तर पोस्ट करना चाहते हैं;) मैं यह देखने की कोशिश करूँगा कि यह कैसे काम करता है :)
Eduard Florinescu

@AndreaLazzarotto ऐसा नहीं है कि सीधे ubuntu 16.04 github.com/jbarlow83/OCRmyPDF/issues/118
ubard Florentcu

3

सिर्फ इसलिए कि यह बहुत अच्छी तरह से काम करता है और निश्चित रूप से सूची में होना चाहिए:


स्क्रीनशॉट से gimageReader उदाहरण:

यहाँ छवि विवरण दर्ज करें

यह रेपो में है (18.10 को उत्तर दिया गया है, लेकिन इसका उपयोग उम्र के लिए किया गया है)


जब मैंने पहली बार gimageReader को लॉन्च किया, तो इसने मुझे टेसेक्ट के लिए "कोई भाषा उपलब्ध नहीं" संदेश दिया। " मैं टीज़र के लिए एक नया भाषा पैक कैसे स्थापित करूं " उत्तर engएक विकल्प के रूप में सूचीबद्ध करने में विफल रहता है ... लेकिन मैंने इसे काम किया! :) रनिंग sudo apt install tesseract-ocr-engटर्मिनल में चाल किया था। यह अच्छा होगा अगर इसे gimageReader की हेल्प फाइल या "README" पर github ... या कहीं और प्रलेखित किया गया। यहाँ की तरह, शायद।
4vɑd

1

gscan2pdf में 3 अलग-अलग ocr इंजन शामिल हैं। आप प्रोग्राम के लिए सही स्कैन कर सकते हैं या अपने पीडीएफ को प्रोग्राम में आयात कर सकते हैं। मैंने पाया है कि Tesseract इंजन शानदार काम करता है, और उपयोग करने में बहुत आसान है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.