tl; डॉ? Nuance PowerPDF एडवांस्ड से शुरू करें।
मैंने एक बड़े प्रोजेक्ट के लिए दिसंबर 2014 में ओसीआर सॉफ्टवेयर का मूल्यांकन किया - बैचों में किए गए लाखों अंग्रेजी-भाषा के पृष्ठों पर ओसीआर। यदि आप कुछ सौ डॉलर खर्च करने को तैयार हैं, तो आपके पास कई विकल्प हैं; यदि आपको केवल कुछ सौ पृष्ठों को बदलने की आवश्यकता है, तो परीक्षण संस्करण आपको प्राप्त हो सकते हैं।
कई सॉफ्टवेयर पैकेज सभी इनपुट फाइलों को लोड करना चाहते हैं, ओसीआर करते हैं और गड़बड़ को एक आउटपुट में ले जाते हैं। IMHO यह गलत है, मुझे नहीं पता कि कौन ऐसा चाहेगा। मैं सच्चे बैच की तलाश कर रहा था: प्रत्येक इनपुट फ़ाइल के लिए एक आउटपुट फाइल, अनअटेंडेड ऑपरेशन, किसी भी चीज के लिए न रुकें, मुझे अंत में एक विस्तृत रिपोर्ट दें। स्पॉयलर अलर्ट: मुझे वह नहीं मिला।
वर्णमाला क्रम में पैकेज का पालन करें। नीचे दिखाए गए मूल्य सूची हैं लेकिन छूट लाजिमी है। नमक के एक दाने के साथ सटीकता के बारे में मेरी टिप्पणी लें; आपके इनपुट मेरे इनपुट्स के समान नहीं होंगे, इसलिए आपका माइलेज निश्चित रूप से भिन्न होगा।
एबीबीवाई फिनएडर 12 कॉर्पोरेट: $ 400। बैच फीचर को "टास्क मैनेजर" कहा जाता है और यह टूल मेनू पर है। यह सबफ़ोल्डर सहित एक फ़ोल्डर से फ़ाइलों को संसाधित करेगा; यह खुशी से प्रत्येक इनपुट फ़ाइल के लिए एक अलग आउटपुट फ़ाइल बनाएगा। यह इनपुट फ़ोल्डर पदानुक्रम को संरक्षित करने में सक्षम नहीं लगता है; सभी आउटपुट फाइलें एक ही आउटपुट फ़ोल्डर में गईं। मेरे परीक्षणों में सटीकता अधिक थी, फिर भी मैं यहां सूचीबद्ध पैकेजों में सबसे कम था।
Adobe Acrobat XI: $ 300। बैच फीचर को "टेक्स्ट रिकॉग्निशन / इन मल्टीपल फाइल्स" कहा जाता है, जो टूल्स (तीसरे टूलबार, मुख्य स्क्रीन के ऊपर दाईं ओर) पर क्लिक करके पाया जा सकता है। सबफ़ोल्डर्स को प्रोसेस करता है, प्रत्येक इनपुट के लिए एक आउटपुट। यदि यह पासवर्ड से सुरक्षित फ़ाइल पाता है तो रुक जाता है और एक संकेत देता है। डिफ़ॉल्ट रूप से इनपुट डायरेक्टरी ट्री को संरक्षित नहीं करता है; इनपुट के समान फ़ोल्डर में आउटपुट लिखकर ऐसा कर सकते हैं। मेरे परीक्षणों में सटीकता काफी अच्छी थी।
Nuance OmniPage Ultimate (उर्फ v19): $ 500। बैच फीचर को "डॉक्युमेंटडायरेक्ट" कहा जाता है और यह एक अलग प्रोग्राम है जो पैकेज के साथ आता है। यह फ़ोल्डर्स और सबफ़ोल्डर्स को प्रोसेस करेगा; यदि आप सुविधाओं को सही चुनते हैं, तो यह आउटपुट क्षेत्र में इनपुट डायरेक्टरी ट्री को संरक्षित करेगा। प्रत्येक इनपुट के लिए एक आउटपुट। स्टॉप और एक संरक्षित फ़ाइल के लिए पासवर्ड की मांग करता है। समानांतर में कार्यों को चलाने के लिए मल्टी-कोर प्रोसेसर का उत्कृष्ट लाभ उठाने लगता है। सटीकता उत्कृष्ट थी । लेकिन बैच प्रोसेसर की स्थिरता खराब है; फ़ज़ी डॉक्यूमेंट इसे अपने ट्रैक्स में बंद कर देगा, कभी ठीक न होने के लिए, एक बैच को आसानी से पटरी से उतारना।
Nuance PowerPDF उन्नत v1.1 (ओमनीपेज परम के उत्तराधिकारी): $ 150। बैच सुविधा को "बैच कनवर्टर" कहा जाता है और यह उन्नत प्रसंस्करण टैब के तहत मुख्य कार्यक्रम से उपलब्ध है। यह फ़ोल्डर और सबफ़ोल्डर्स को प्रोसेस करेगा, आउटपुट में इनपुट संरचना को संरक्षित करेगा। प्रत्येक इनपुट के लिए एक आउटपुट। कई कोर का उपयोग करेगा, लेकिन आक्रामक रूप से नहीं; इसका मतलब यह है कि मैं एक मल्टी-कोर होस्ट को संतृप्त करने के लिए इसे प्राप्त नहीं कर सका। सटीकता ओमनीपेज की तुलना में अच्छी या बेहतर है। खराब या फ़ज़ी फ़ाइल्स ने इसे हैंग करने का कारण नहीं बनाया। बैच प्रोसेसर आउटपुट निर्देशिका के लिए एक सादा-पाठ लॉग फ़ाइल लिखता है ( झटका )।
ReadIris कॉर्पोरेट 14: $ 600। बैच फीचर "बैच ओसीआर" आइटम द्वारा लागू किया जाता है जो मुख्य स्क्रीन पर "फाइलों से" बटन पर क्लिक करके प्रकट होता है। यह फ़ोल्डर्स और सबफ़ोल्डर्स को संसाधित करेगा, प्रत्येक इनपुट के लिए एक आउटपुट, और डिफ़ॉल्ट रूप से आउटपुट निर्देशिका संरचना इनपुट निर्देशिका संरचना से मेल खाती है। अमान्य फ़ाइल पर उपयोगकर्ता इनपुट को रोकता है और मांगता है; आगे की प्रक्रिया के बिना प्रक्रियाएं सभी संरक्षित दस्तावेजों को स्पष्ट रूप से ओसीआर-इंग द्वारा छवि प्रदान करती हैं। सटीकता बहुत अच्छी थी, एक्रोबेट के साथ सममूल्य पर।
मेरी डेस्कटॉप मशीन (केवल दोहरे कोर) पर, मेरे चुने हुए इनपुट के साथ, एक पेज को संसाधित करने के लिए हर पैकेज में कम से कम 3 सेकंड की आवश्यकता होती है; कुछ और लिया। अधिक कोर वाली मशीन पर इसे नीचे चलाने में सक्षम हो सकता है।
गोचैस लाजिमी है, उनके लिए योजना बनाना सुनिश्चित करें: अमान्य PDF (कुछ पैकेज हॉल्ट), पासवर्ड-प्रोटेक्टेड PDF (कुछ पैकेज रुके, अन्य किसी भी तरह से परिवर्तित होते हैं!), और रोटेट किए गए पृष्ठ (चित्र के बजाय परिदृश्य)। यदि आप चाहते हैं कि बैच पूर्ण होने के लिए चला जाए, तो आपको इन पैकेजों के लिए इनपुट क्षेत्र को प्रस्तुत करना होगा बहुत, बहुत सावधानी से। PDF से सुरक्षा हटाने के तरीके के लिए GhostScript पैकेज के प्रिंट-टू-पीडीएफ फ़ीचर को देखें।
बड़े बैचों को चलाने से मेमोरी-थकावट और फांसी की समस्या हो सकती है, यहां तक कि यह भी नहीं होना चाहिए (अर्ग - शायद मेमोरी लीक)। यदि आप किसी भी तरह का स्वचालन कर रहे हैं, तो एक बड़ी समस्या यह है कि वास्तव में क्या हुआ है, के बाद की खोज की जा रही है - कौन से दस्तावेज संसाधित नहीं किए जा सकते हैं, जो प्रसंस्करण के दौरान विफल रहे हैं, आदि यह डेस्कटॉप सॉफ्टवेयर की तरह है लोगों ने कभी भी कुछ नहीं सुना है जिसे एक कहा जाता है "लॉग फ़ाइल"।
अंत में एक भुगतान ग्राहक के रूप में समर्थन प्राप्त करना, इन मास-मार्केट पैकेजों के लिए बहुत मुश्किल है। उदाहरण के लिए मैंने कुछ बड़े इनपुट्स के लिए एक पैकेज (जो नाममात्र का रह जाएगा) के बारे में एक सम्मानित ग्राहक सहायता प्रतिनिधि से शिकायत की। मैंने हार मानने से 36 घंटे पहले इंतजार किया :)। उन्होंने मीठे रूप से 300 दस्तावेजों को बैच आकार को सीमित करने का सुझाव दिया। यह सिर्फ मेरे लिए पूरी तरह से अस्वीकार्य था, लेकिन हे यह है कि समर्थन टिकट जल्दी खतरे में बंद हो गया, है ना? और यही सब मायने रखता है, है ना? आह।
HTH