कोई उपकरण एक्रोबैट की ओसीआर सुविधा के समान स्कैन की गई पीडीएफ फाइलों के ओसीआर को स्वचालित करने के लिए? [बन्द है]


10

खुला स्रोत पसंदीदा है, लेकिन आवश्यक नहीं है।

मुझे Adobe Acrobat 8 ​​मिला है, और वास्तव में OCR सुविधा की तरह है जो अनिवार्य रूप से स्कैन किए गए दस्तावेज़ के शीर्ष पर OCR'd टेक्स्ट की एक अदृश्य परत डाल सकता है। इस प्रकार आप स्क्रीन पर जो देखते हैं वह मूल स्कैन किया हुआ दस्तावेज़ है, लेकिन परिणाम खोज योग्य है।

मैं जो देख रहा हूं वह इस प्रक्रिया को स्वचालित करने का एक तरीका है। मुझे वर्तमान में कुछ स्क्रिप्ट मिली हैं जिनका उपयोग हम स्कैन की गई फ़ाइलों को संसाधित करने और संग्रहीत करने के लिए करते हैं, और कुछ ऐसी चीज़ की तलाश कर रहे हैं जो मैं इस बैच प्रक्रिया में सही तरीके से ओसीआर करने के लिए प्लग इन कर सकूं जो मैं एक्रोबेट के साथ कर सकता हूं।

सभी सुझावों का स्वागत है, धन्यवाद!


1
पीएस - मैं सुपरसुसर पर उपयोगकर्ता के सवालों को रखने की कोशिश करता हूं। हालांकि, इस प्रश्न के परिणामस्वरूप लागू होने वाले सर्वर पर निश्चित रूप से लाइव होगा जो मुझे स्कैन किए गए दस्तावेज़ों को संसाधित करने में मिला है ... इसलिए यह एक टॉसअप था।
बोडेन

जवाबों:


8

मैंने इसे एक कंपनी दस्तावेज़ अभिलेखीय परियोजना में लागू किया है। स्कैन की गई फ़ाइल एक tif फ़ाइल (एकल पृष्ठ) है। फिर सिंगल टिफ़ की एक हॉटो फ़ाइल बनाने के लिए क्यूनिफॉर्म का उपयोग करना। फिर पीडीएफ फाइल को आउटपुट करने के लिए hocr2pdf का उपयोग करना । यदि एकाधिक स्कैन पृष्ठ, मैं PDF को एक एकल PDF दस्तावेज़ में संयोजित करने के लिए gs का उपयोग करता हूं। वास्तव में अच्छी तरह से काम करता है, ओसीआर हमारी जरूरतों के लिए काफी अच्छा है और किसी भी पीडीएफ दर्शक में खोजा जा सकता है।


दिलचस्प। इससे पहले कि मैं इसे देखने में बहुत अधिक समय बिताऊं, क्या परिणामस्वरूप पीडीएफ एक अंतर्निहित पाठ परत के साथ मूल स्कैन से छवि है, या यह केवल पाठ है?
बोडेन

इसकी मूल स्कैन की छवि एम्बेडेड टेक्स्ट लेयर के साथ है। Hocr फ़ाइल html मार्कअप के साथ टेक्स्ट आउटपुट है।
xeon

अति उत्कृष्ट। मैं इसे एक शॉट देने जा रहा हूं। यदि ऐसा लगता है कि यह काम करेगा तो मैं आपके उत्तर को स्वीकार कर लूंगा। धन्यवाद!
बोडेन

1
एक बार फिर धन्यवाद। इन दो लोगों को स्थापित करने के लिए थोड़ा सा दर्द, लेकिन यह काम कर रहा है। मैंने नई .tif फ़ाइलों के लिए एक एफ़टीपी फ़ोल्डर की जांच करने के लिए एक सरल स्क्रिप्ट लिखी थी, जिस पर वह क्यूनिफॉर्म और hocr2pdf चलाता है, फिर कर्ल का उपयोग करके एक तेज दस्तावेज़ लाइब्रेरी में परिणाम अपलोड करता है। इस प्रकार लोग कॉपी मशीन से दस्तावेजों को संग्रहीत कर सकते हैं, और अभिलेखागार पूरी तरह से पाठ खोज योग्य हैं। प्रश्न: क्या आप जानते हैं कि hocr2pdf में "रिज़ॉल्यूशन ओवरराइट" विकल्प क्या है?
बोडेन

मुझे खुशी है कि यह आपके लिए काम कर रहा है। मुझे नहीं पता कि -r तर्क करता है।
Xeon

1

क्या आपने WatchOCR को देखा है? आप इसे http://www.watchocr.com से डाउनलोड कर सकते हैं यह एक निशुल्क और खुला स्रोत OCR सर्वर है जो छवि को केवल पीडीएफ़ को एक देखे गए फ़ोल्डर या नेटवर्क साझा से पाठ खोज योग्य पीडीएफ़ में बदल देता है।


0

मुझे xeon के उत्तर की आवाज़ पसंद है , हालाँकि OCRopus बहुत मज़ेदार लगता है।


जब मैं विभिन्न समाधानों पर शोध और परीक्षण कर रहा था। मैंने कोशिश की है कि और tesseract-ocr और उनके पास उस समय पीडीएफ के लिए एक अच्छा तरीका नहीं था। मैंने गौर नहीं किया है कि क्या वे विशेषताएं हैं ... मुझे पता है कि टेसेर्ट-ऑकोर्ट ने अपनी समयरेखा में ...
xeon
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.