सॉफ्टवेयर आंशिक रूप से टेसरैक्ट पर आधारित है, जो अब तक का सबसे अच्छा ओपन सोर्स ओसीआर इंजन है। हालांकि यह परियोजना अगले साल के अंत में जारी होने की उम्मीद है और इसका उपयोग Google की पुस्तक स्कैनिंग परियोजना के लिए किया जाएगा, टीम के पास कुछ दिलचस्प अनुप्रयोग हैं:
- एक वेब सेवा इंटरफ़ेस
- पीडीएफ, कैमरा, और स्क्रीन OCR
- डेस्कटॉप खोज टूल के साथ एकीकरण: बीगल, स्पॉटलाइट, Google डेस्कटॉप
OCRopus (tm) एक अत्याधुनिक दस्तावेज़ विश्लेषण और OCR प्रणाली है, जिसमें प्लग करने योग्य लेआउट विश्लेषण, प्लग करने योग्य चरित्र पहचान, सांख्यिकीय प्राकृतिक भाषा मॉडलिंग और बहुभाषी क्षमताओं की विशेषता है।
OCRopus इंजन दो शोध परियोजनाओं पर आधारित है: 90 के दशक के मध्य में विकसित और यूएस जनगणना ब्यूरो, और उपन्यास उच्च प्रदर्शन लेआउट विश्लेषण विधियों द्वारा विकसित एक उच्च प्रदर्शन लिखावट पहचानकर्ता।
OCRopus विकास Google द्वारा प्रायोजित है और शुरू में उच्च-थ्रूपुट, उच्च-वॉल्यूम दस्तावेज़ रूपांतरण प्रयासों के लिए लक्षित है। हम उम्मीद करते हैं कि यह कई अन्य अनुप्रयोगों के लिए एक उत्कृष्ट ओसीआर प्रणाली भी होगी।
लिंक:
GOCR एक OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) प्रोग्राम है, जो GNU पब्लिक लाइसेंस के तहत विकसित किया गया है। यह पाठ की स्कैन की गई छवियों को पाठ फ़ाइलों में परिवर्तित करता है। जोर्ग शुल्लेन ने कार्यक्रम शुरू किया, और अब डेवलपर्स की एक टीम का नेतृत्व किया। GOCR का उपयोग विभिन्न फ्रंट-एंड के साथ किया जा सकता है, जिससे विभिन्न OS और आर्किटेक्चर को पोर्ट करना बहुत आसान हो जाता है। यह कई अलग-अलग छवि प्रारूप खोल सकता है, और इसकी गुणवत्ता में दैनिक आधार पर सुधार हुआ है।