लिनक्स सिस्टम पर OCR [बंद]


14

मैंने हमेशा OCR तकनीक को ओपन सोर्स सिस्टम पर पीछे पाया है । मैंने बचपन से ही Ocropus परियोजना को देखा है । मैंने कोशिश की है कि मैंने जो सुना है वह लिनक्स, टेसेरैक्ट के लिए सबसे अच्छा ओसीआर इंजन उपलब्ध है , और यह पाया है कि व्यवसाय के दस्तावेजों की कमी है। क्या कोई अन्य आशाजनक ओसीआर कार्यान्वयन हैं? लिखावट की व्याख्या के लिए और भी अधिक उम्मीद के लक्ष्य के बारे में क्या? इस क्षेत्र में * nix सिस्टम पर क्या संभव है?


1
क्या यह सॉफ्टवेयर्स में माइग्रेट किया जाना चाहिए?
जेफ स्कालर

@ जेफ शायद नहीं, यह लगभग सात साल पुराना है। तब से बहुत कुछ हुआ है। OCR में कुछ ... ;-)
roaima

जवाबों:


4

Tesseract

2018 तक, सबसे अच्छा उपलब्ध खुला स्रोत ओसीआर सॉफ्टवेयर अपने नए एलएसटीएम तंत्रिका नेटवर्क ओसीआर मॉडल के साथ टेसरैक्ट 4 (बीटा) है । इसका ओसीआर प्रदर्शन संस्करण 3 में उपयोग किए गए पिछले ओसीआर मॉडल की तुलना में बहुत बेहतर है।

उदाहरण ( output.pdfस्कैन किए गए जर्मन दस्तावेज़ के लिए एक पाठ परत के साथ एक पीडीएफ फ़ाइल का उत्पादन करें):

$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf

मान्यता प्राप्त पाठ को प्रिंटआउट में प्रिंट करें:

$ tesseract --oem 1 -l deu page page-0001.png stdout

सूची स्थापित भाषाएँ:

$ tesseract --list-langs

काफी भाषाओं / स्क्रिप्ट के लिए समर्थन एक डाउनलोड किए गए प्रशिक्षित डेटा सेट के रूप में उपलब्ध है , उदाहरण के लिए, यहां तक ​​कि फ्रैक्टुर के लिए एक डेटा सेट भी है।

नए LSTM मॉडल के साथ, Tesseract OCRopus अनुसंधान परियोजना से कुछ प्रेरणा लेता है ।

Tesseract संस्करण 3 अच्छी गुणवत्ता इनपुट छवियों पर भी अपेक्षाकृत खराब प्रदर्शन करता है, अर्थात अक्सर यह धूल के पिक्सल्स (किसी भी पाठ्य संदर्भ के बाहर) में एकल वर्णों का गलत पता लगाता है और आसानी से प्रसिद्ध शब्दों में एकल वर्ण त्रुटियों का परिचय देता है।

क्यूनेइफ़ॉर्म

क्यूनीफॉर्म OCR प्रदर्शन उतना बुरा नहीं है, लेकिन यह सक्रिय रूप से बनाए नहीं रखा जाता है (2011, संस्करण 1.1 में अंतिम रिलीज) और आसानी से दुर्घटनाग्रस्त हो जाता है और इसके अन्य कई कारण हैं:

  • विभिन्न पैकेज और रिलीज के साथ विभाजन दोष
  • इसका लेआउट एल्गोरिदम बस टूट गया है, यानी एक-कॉलम दस्तावेजों में पैराग्राफ अक्सर बेतरतीब ढंग से चारों ओर फेर दिए जाते हैं
  • यह अज्ञात विकल्पों पर त्रुटि नहीं करता है

आप इस तरह लेआउट एल्गोरिथ्म को निष्क्रिय कर सकते हैं:

$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001

( -lस्रोत दस्तावेज़ की भाषा निर्दिष्ट करता है)

ocrad

$ ocrad -F utf8 image-0001

टेक्स्ट को डिफ़ॉल्ट रूप से प्रिंटआउट द्वारा प्रिंट किया जाता है।

एक व्यावसायिक दस्तावेज़ में, यह एक रेखांकित शब्द से चूक गया, जहाँ cuneiform / tesseract / gocr नहीं था।

gocr

$ gocr image-0001

टेक्स्ट को डिफ़ॉल्ट रूप से प्रिंटआउट द्वारा प्रिंट किया जाता है।

हार्डवेयर

Ave और Fujitsu वालों के लिए बहुत सारे स्वचालित दस्तावेज़ फ़ीड (ADF) स्कैनर्स के लिए साने का बहुत अच्छा समर्थन है।

Sane के साथ शामिल scanimageकमांड लाइन प्रोग्राम है जिसका उपयोग आप स्क्रिप्टेड स्कैन पाइपलाइन (cf. उदा। मेरी adf2pdf.pyस्क्रिप्ट) बनाने के लिए कर सकते हैं ।


मैंने क्यूनिफॉर्म की कोशिश की। यह अच्छी तरह से काम करता है अगर आपको स्कैन की गई छवि (फोटो नहीं) को पहचानने की आवश्यकता है। मैंने एक GUI के रूप में Yagf का उपयोग किया।
सर्गेई

3

मुझे StackOverflow और Asprise OCR SDK पर एक समान प्रश्न मिला , जो एक लिंक किए गए वाणिज्यिक उत्पादों में से एक है, एक लिनक्स संस्करण का दावा करता है।


हालांकि यह लिंक प्रश्न का उत्तर दे सकता है, लेकिन उत्तर के आवश्यक हिस्सों को यहां शामिल करना और संदर्भ के लिए लिंक प्रदान करना बेहतर है। लिंक-केवल उत्तर अमान्य हो सकते हैं यदि लिंक किए गए पृष्ठ बदल जाते हैं। - समीक्षा से
थॉमस

1
@ थोमस लिंक ओपी द्वारा अनुरोध किए गए लिंक के बाद से एक विशिष्ट उपकरण के लिए केवल संभव उत्तर है। सभी लिंक केवल उत्तर खराब नहीं हैं। यह एक विशिष्ट सॉफ्टवेयर का नाम और इसके वेबपेज का लिंक देता है। यहां तक ​​कि अगर लिंक टूट जाता है, तो भी आपको इसे नाम से खोजने में सक्षम होना चाहिए।
terdon

1

कुछ लोकप्रिय ओसीआर कमांड लाइन उपकरण हैं:

  • टेसरैक्ट ( ReadMe , FAQ ) (पायथन)

    इसके लिए भी उपलब्ध: Tesseract .NET , Tesseract iOS

    एक OCR इंजन जो 1985 और 1995 के बीच HP लैब्स में विकसित किया गया था ... और अब Google पर। Tesseract संभवतः सबसे सटीक खुला स्रोत OCR इंजन उपलब्ध है।

    उपयोग:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    

    उदाहरण: कमांड लाइन / स्क्रिप्ट के माध्यम से मौजूदा पीडीएफ खोज योग्य (OCR) बनाएं

  • GOCR

    ओपन-सोर्स चरित्र मान्यता। यह पाठ की स्कैन की गई छवियों को पाठ फ़ाइलों में परिवर्तित करता है। GOCR का उपयोग विभिन्न फ्रंट-एंड के साथ किया जा सकता है, जो विभिन्न ओएस और आर्किटेक्चर को पोर्ट करना बहुत आसान बनाता है। यह कई अलग-अलग छवि प्रारूप खोल सकता है, और इसकी गुणवत्ता में दैनिक आधार पर सुधार हुआ है।

  • OCRopus ™ ( अकसर किये गए सवाल ) (पायथन, NumPy, और SciPy में लिखा गया है)

    ओसीआर प्रणाली दस्तावेज़ विश्लेषण में समस्याओं को संबोधित करने के लिए बड़े पैमाने पर मशीन सीखने के उपयोग पर ध्यान केंद्रित करती है, जिसमें प्लगेबल लेआउट विश्लेषण, प्लगेबल चरित्र मान्यता, सांख्यिकीय प्राकृतिक भाषा मॉडलिंग, और बहुभाषी क्षमताओं की विशेषता है।

    OCRopus इंजन दो शोध परियोजनाओं पर आधारित है: 90 के दशक के मध्य में विकसित और यूएस जनगणना ब्यूरो, और उपन्यास उच्च-प्रदर्शन लेआउट विश्लेषण विधियों द्वारा विकसित एक उच्च प्रदर्शन लिखावट पहचानकर्ता।

    OCRopus विकास Google द्वारा प्रायोजित है और शुरू में उच्च-थ्रूपुट, उच्च-वॉल्यूम दस्तावेज़ रूपांतरण प्रयासों के लिए लक्षित है। हम उम्मीद करते हैं कि यह कई अन्य अनुप्रयोगों के लिए एक उत्कृष्ट ओसीआर प्रणाली भी होगी।

  • Tessnet2 (खुला स्रोत, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    Tesseract एक C ++ ओपन सोर्स OCR इंजन है। Tessnet2 .NET असेंबली है जो OCR करने के लिए बहुत ही सरल तरीकों को उजागर करता है। Tessnet2 Apache 2 लाइसेंस (जैसे tesseract) के तहत है, जिसका अर्थ है कि आप इसका उपयोग कर सकते हैं जैसे आप चाहते हैं, वाणिज्यिक उत्पादों में शामिल हैं।

अन्य पहले से ही सुझाव दिया गया है: लिनक्स के लिए एबीबीवाई सीएलआई ओसीआर , एसरॉन ओसीआर

यह भी पढ़ें:

अधिक संपूर्ण सूची के लिए, जांचें: विकिपीडिया पर ऑप्टिकल चरित्र पहचान सॉफ्टवेयर की सूची


0

... OCR "केवल चरित्र पहचान" से अधिक है। इमेज हैंडलिंग, प्रीप्रोसेसिंग - टेक्स्ट, इमेज, टेबल या बारकोड खोजने के लिए पेज / लेआउट विश्लेषण। मान्यता के लिए, आपको विभिन्न फोंट, आकारों और भाषाओं से निपटना होगा। यह महत्वपूर्ण है क्योंकि अच्छे परिणाम प्राप्त करने के लिए आपको शब्दकोशों और भाषा की परिभाषाओं का उपयोग करना होगा। अंत में लोग पाठ से अधिक निर्यात विकल्प की उम्मीद करते हैं (जैसे, एक्सएमएल, आरटीएफ, या खोजा पीडीएफ)। एसडीके के लिए कुछ वाणिज्यिक विकल्प हैं, लेकिन वे सस्ते और मुफ्त में नहीं हैं।

हाल ही में मैंने ABBYY से लिनक्स के लिए एक CLI OCR पाया । नि: शुल्क 100 पृष्ठ का परीक्षण है।


0

यदि आपके पास एक बजट है, तो मैं लिनक्स के लिए ABBYY FineReader Engine CLI की दृढ़ता से अनुशंसा करता हूं । हमारी कंपनी एक साल से हमारे वेब-एप्लिकेशन में इसका उपयोग कर रही है और हम लाइसेंस को नवीनीकृत करने की योजना बना रहे हैं। बहुत अच्छी मान्यता गुणवत्ता, कमांड-लाइन इंटरफ़ेस, कई भाषाओं में मान्यता।


2
इस उत्पाद का पहले से ही एक उत्तर में उल्लेख किया गया था । कृपया उत्तर की नकल न करें!
डेविड फ़ॉस्टर 8
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.