Tesseract
2018 तक, सबसे अच्छा उपलब्ध खुला स्रोत ओसीआर सॉफ्टवेयर अपने नए एलएसटीएम तंत्रिका नेटवर्क ओसीआर मॉडल के साथ टेसरैक्ट 4 (बीटा) है । इसका ओसीआर प्रदर्शन संस्करण 3 में उपयोग किए गए पिछले ओसीआर मॉडल की तुलना में बहुत बेहतर है।
उदाहरण ( output.pdf
स्कैन किए गए जर्मन दस्तावेज़ के लिए एक पाठ परत के साथ एक पीडीएफ फ़ाइल का उत्पादन करें):
$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf
मान्यता प्राप्त पाठ को प्रिंटआउट में प्रिंट करें:
$ tesseract --oem 1 -l deu page page-0001.png stdout
सूची स्थापित भाषाएँ:
$ tesseract --list-langs
काफी भाषाओं / स्क्रिप्ट के लिए समर्थन एक डाउनलोड किए गए प्रशिक्षित डेटा सेट के रूप में उपलब्ध है , उदाहरण के लिए, यहां तक कि फ्रैक्टुर के लिए एक डेटा सेट भी है।
नए LSTM मॉडल के साथ, Tesseract OCRopus अनुसंधान परियोजना से कुछ प्रेरणा लेता है ।
Tesseract संस्करण 3 अच्छी गुणवत्ता इनपुट छवियों पर भी अपेक्षाकृत खराब प्रदर्शन करता है, अर्थात अक्सर यह धूल के पिक्सल्स (किसी भी पाठ्य संदर्भ के बाहर) में एकल वर्णों का गलत पता लगाता है और आसानी से प्रसिद्ध शब्दों में एकल वर्ण त्रुटियों का परिचय देता है।
क्यूनेइफ़ॉर्म
क्यूनीफॉर्म OCR प्रदर्शन उतना बुरा नहीं है, लेकिन यह सक्रिय रूप से बनाए नहीं रखा जाता है (2011, संस्करण 1.1 में अंतिम रिलीज) और आसानी से दुर्घटनाग्रस्त हो जाता है और इसके अन्य कई कारण हैं:
- विभिन्न पैकेज और रिलीज के साथ विभाजन दोष
- इसका लेआउट एल्गोरिदम बस टूट गया है, यानी एक-कॉलम दस्तावेजों में पैराग्राफ अक्सर बेतरतीब ढंग से चारों ओर फेर दिए जाते हैं
- यह अज्ञात विकल्पों पर त्रुटि नहीं करता है
आप इस तरह लेआउट एल्गोरिथ्म को निष्क्रिय कर सकते हैं:
$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001
( -l
स्रोत दस्तावेज़ की भाषा निर्दिष्ट करता है)
ocrad
$ ocrad -F utf8 image-0001
टेक्स्ट को डिफ़ॉल्ट रूप से प्रिंटआउट द्वारा प्रिंट किया जाता है।
एक व्यावसायिक दस्तावेज़ में, यह एक रेखांकित शब्द से चूक गया, जहाँ cuneiform / tesseract / gocr नहीं था।
gocr
$ gocr image-0001
टेक्स्ट को डिफ़ॉल्ट रूप से प्रिंटआउट द्वारा प्रिंट किया जाता है।
हार्डवेयर
Ave और Fujitsu वालों के लिए बहुत सारे स्वचालित दस्तावेज़ फ़ीड (ADF) स्कैनर्स के लिए साने का बहुत अच्छा समर्थन है।
Sane के साथ शामिल scanimage
कमांड लाइन प्रोग्राम है जिसका उपयोग आप स्क्रिप्टेड स्कैन पाइपलाइन (cf. उदा। मेरी adf2pdf.py
स्क्रिप्ट) बनाने के लिए कर सकते हैं ।