कोई उपकरण एक्रोबैट की ओसीआर सुविधा के समान स्कैन की गई पीडीएफ फाइलों के ओसीआर को स्वचालित करने के लिए? [बन्द है]

बन्द है। यह सवाल ऑफ टॉपिक है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है।

इस प्रश्न को सुधारना चाहते हैं? प्रश्न अपडेट करें तो यह है -विषय पर सर्वर दोष के लिए।

5 साल पहले बंद हुआ ।

खुला स्रोत पसंदीदा है, लेकिन आवश्यक नहीं है।

मुझे Adobe Acrobat 8 मिला है, और वास्तव में OCR सुविधा की तरह है जो अनिवार्य रूप से स्कैन किए गए दस्तावेज़ के शीर्ष पर OCR'd टेक्स्ट की एक अदृश्य परत डाल सकता है। इस प्रकार आप स्क्रीन पर जो देखते हैं वह मूल स्कैन किया हुआ दस्तावेज़ है, लेकिन परिणाम खोज योग्य है।

मैं जो देख रहा हूं वह इस प्रक्रिया को स्वचालित करने का एक तरीका है। मुझे वर्तमान में कुछ स्क्रिप्ट मिली हैं जिनका उपयोग हम स्कैन की गई फ़ाइलों को संसाधित करने और संग्रहीत करने के लिए करते हैं, और कुछ ऐसी चीज़ की तलाश कर रहे हैं जो मैं इस बैच प्रक्रिया में सही तरीके से ओसीआर करने के लिए प्लग इन कर सकूं जो मैं एक्रोबेट के साथ कर सकता हूं।

सभी सुझावों का स्वागत है, धन्यवाद!

pdf document-management ocr

— Boden
स्रोत

पीएस - मैं सुपरसुसर पर उपयोगकर्ता के सवालों को रखने की कोशिश करता हूं। हालांकि, इस प्रश्न के परिणामस्वरूप लागू होने वाले सर्वर पर निश्चित रूप से लाइव होगा जो मुझे स्कैन किए गए दस्तावेज़ों को संसाधित करने में मिला है ... इसलिए यह एक टॉसअप था।

— बोडेन

जवाबों:

मैंने इसे एक कंपनी दस्तावेज़ अभिलेखीय परियोजना में लागू किया है। स्कैन की गई फ़ाइल एक tif फ़ाइल (एकल पृष्ठ) है। फिर सिंगल टिफ़ की एक हॉटो फ़ाइल बनाने के लिए क्यूनिफॉर्म का उपयोग करना। फिर पीडीएफ फाइल को आउटपुट करने के लिए hocr2pdf का उपयोग करना । यदि एकाधिक स्कैन पृष्ठ, मैं PDF को एक एकल PDF दस्तावेज़ में संयोजित करने के लिए gs का उपयोग करता हूं। वास्तव में अच्छी तरह से काम करता है, ओसीआर हमारी जरूरतों के लिए काफी अच्छा है और किसी भी पीडीएफ दर्शक में खोजा जा सकता है।

— जिऑन
स्रोत

दिलचस्प। इससे पहले कि मैं इसे देखने में बहुत अधिक समय बिताऊं, क्या परिणामस्वरूप पीडीएफ एक अंतर्निहित पाठ परत के साथ मूल स्कैन से छवि है, या यह केवल पाठ है?

— बोडेन

इसकी मूल स्कैन की छवि एम्बेडेड टेक्स्ट लेयर के साथ है। Hocr फ़ाइल html मार्कअप के साथ टेक्स्ट आउटपुट है।

— xeon

अति उत्कृष्ट। मैं इसे एक शॉट देने जा रहा हूं। यदि ऐसा लगता है कि यह काम करेगा तो मैं आपके उत्तर को स्वीकार कर लूंगा। धन्यवाद!

— बोडेन

एक बार फिर धन्यवाद। इन दो लोगों को स्थापित करने के लिए थोड़ा सा दर्द, लेकिन यह काम कर रहा है। मैंने नई .tif फ़ाइलों के लिए एक एफ़टीपी फ़ोल्डर की जांच करने के लिए एक सरल स्क्रिप्ट लिखी थी, जिस पर वह क्यूनिफॉर्म और hocr2pdf चलाता है, फिर कर्ल का उपयोग करके एक तेज दस्तावेज़ लाइब्रेरी में परिणाम अपलोड करता है। इस प्रकार लोग कॉपी मशीन से दस्तावेजों को संग्रहीत कर सकते हैं, और अभिलेखागार पूरी तरह से पाठ खोज योग्य हैं। प्रश्न: क्या आप जानते हैं कि hocr2pdf में "रिज़ॉल्यूशन ओवरराइट" विकल्प क्या है?

— बोडेन

मुझे खुशी है कि यह आपके लिए काम कर रहा है। मुझे नहीं पता कि -r तर्क करता है।

— Xeon

क्या आपने WatchOCR को देखा है? आप इसे http://www.watchocr.com से डाउनलोड कर सकते हैं । यह एक निशुल्क और खुला स्रोत OCR सर्वर है जो छवि को केवल पीडीएफ़ को एक देखे गए फ़ोल्डर या नेटवर्क साझा से पाठ खोज योग्य पीडीएफ़ में बदल देता है।

— rlangner
स्रोत

मुझे xeon के उत्तर की आवाज़ पसंद है , हालाँकि OCRopus बहुत मज़ेदार लगता है।

— कारा मार्फिया
स्रोत

जब मैं विभिन्न समाधानों पर शोध और परीक्षण कर रहा था। मैंने कोशिश की है कि और tesseract-ocr और उनके पास उस समय पीडीएफ के लिए एक अच्छा तरीका नहीं था। मैंने गौर नहीं किया है कि क्या वे विशेषताएं हैं ... मुझे पता है कि टेसेर्ट-ऑकोर्ट ने अपनी समयरेखा में ...

— xeon