कई पीडीएफ फाइलों के लिए बैच ओसीआर (पहले से ही ओसीआर नहीं)? [बन्द है]


9

मैं Google डेस्कटॉप खोज का उपयोग करता हूं (मैं विस्टा पर हूं) और मेरे सभी पीडीएफ फाइलों को मेरे संग्रह फ़ोल्डर में मान्यता प्राप्त नहीं है। यह सामान्य है " पीडीएफ फाइलें जिसमें स्कैन की गई छवियां होती हैं " अनुक्रमित नहीं होती हैं ( http://desktop.google.com/support/bin/answer.py?hl=hi&answer=90651 )

इसलिए मैं अपनी कई पीडीएफ फाइलों को OCR करना चाहूंगा जो पहले से OCRed नहीं हैं। मेरा लक्ष्य: मैं प्रोग्राम को एक फ़ोल्डर देता हूं और यह सबफ़ोल्डर्स पीडीएफ फाइलों में अकेले खोज करता है जिन्हें पीडीएफ-ओसीआरड फ़ाइलों में परिवर्तित करने की आवश्यकता होती है।

नोट: अतीत में, यदि एक पीडीएफ फाइल पासवर्ड से सुरक्षित थी, तो मैंने पासवर्ड को दूसरे बैच (भुगतान) टूल से हटा दिया: verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

कोई भी (बहुत महंगा नहीं) विचार?

मैंने पहले ही कोशिश की थी: Finereader 6 pro उस समय xp पर था, लेकिन इसमें कोई बैच प्रोसेसर शामिल नहीं था ... Paperfile paperfile.net जो Tesseract http://code.google.com/p/tesseract-ocr/ का उपयोग करता है । लेकिन OCR केवल PDF टू टेक्स्ट है, पीडीएफ टू पीडीएफ नहीं! एक अन्य परियोजना http://code.google.com/p/ocropus/ भी है

अग्रिम में धन्यवाद ;)


एक साल बाद अपडेट: हैलो, जाहिरा तौर पर "एबीबीवाई हॉट फोल्डर और शेड्यूलिंग" सॉफ्टवेयर, केवल एबीबीवाई फाइनरएडर (> वी। 9.0) में शामिल है, कॉर्पोरेट और साइट लाइसेंस संस्करण, मदद कर सकते हैं (मैंने यह कोशिश नहीं की: 600 डॉलर!) इसके अलावा टेसरैक्ट को अभी खिड़कियों पर काम करना चाहिए (मेरे लिए अभी सफलता के बिना
!?

इसके अलावा, ABBYY FineReader (> v। 9.0) प्रो संस्करण में एक स्वचालन कार्य है: आप मुख्य फ़ोल्डर + उसके सबफ़ोल्डर चुनते हैं, और यह काम करता है। लेकिन मुख्य समस्या यह है कि यह एक ही बार में सभी पीडीएफ़ (!!) को खोलता है, फिर उन्हें (= ocr) पढ़ें और फिर एक अद्वितीय pdf फ़ाइल सहेजें! तो अगर आपके पास सैकड़ों pdf हैं तो लानत की बात मेरे लिए काम नहीं कर रही है! ; (बहुत बुरा, क्या बुरा सपना?!
एरब

जवाबों:


6

tl; डॉ? Nuance PowerPDF एडवांस्ड से शुरू करें।

मैंने एक बड़े प्रोजेक्ट के लिए दिसंबर 2014 में ओसीआर सॉफ्टवेयर का मूल्यांकन किया - बैचों में किए गए लाखों अंग्रेजी-भाषा के पृष्ठों पर ओसीआर। यदि आप कुछ सौ डॉलर खर्च करने को तैयार हैं, तो आपके पास कई विकल्प हैं; यदि आपको केवल कुछ सौ पृष्ठों को बदलने की आवश्यकता है, तो परीक्षण संस्करण आपको प्राप्त हो सकते हैं।

कई सॉफ्टवेयर पैकेज सभी इनपुट फाइलों को लोड करना चाहते हैं, ओसीआर करते हैं और गड़बड़ को एक आउटपुट में ले जाते हैं। IMHO यह गलत है, मुझे नहीं पता कि कौन ऐसा चाहेगा। मैं सच्चे बैच की तलाश कर रहा था: प्रत्येक इनपुट फ़ाइल के लिए एक आउटपुट फाइल, अनअटेंडेड ऑपरेशन, किसी भी चीज के लिए न रुकें, मुझे अंत में एक विस्तृत रिपोर्ट दें। स्पॉयलर अलर्ट: मुझे वह नहीं मिला।

वर्णमाला क्रम में पैकेज का पालन करें। नीचे दिखाए गए मूल्य सूची हैं लेकिन छूट लाजिमी है। नमक के एक दाने के साथ सटीकता के बारे में मेरी टिप्पणी लें; आपके इनपुट मेरे इनपुट्स के समान नहीं होंगे, इसलिए आपका माइलेज निश्चित रूप से भिन्न होगा।

एबीबीवाई फिनएडर 12 कॉर्पोरेट: $ 400। बैच फीचर को "टास्क मैनेजर" कहा जाता है और यह टूल मेनू पर है। यह सबफ़ोल्डर सहित एक फ़ोल्डर से फ़ाइलों को संसाधित करेगा; यह खुशी से प्रत्येक इनपुट फ़ाइल के लिए एक अलग आउटपुट फ़ाइल बनाएगा। यह इनपुट फ़ोल्डर पदानुक्रम को संरक्षित करने में सक्षम नहीं लगता है; सभी आउटपुट फाइलें एक ही आउटपुट फ़ोल्डर में गईं। मेरे परीक्षणों में सटीकता अधिक थी, फिर भी मैं यहां सूचीबद्ध पैकेजों में सबसे कम था।

Adobe Acrobat XI: $ 300। बैच फीचर को "टेक्स्ट रिकॉग्निशन / इन मल्टीपल फाइल्स" कहा जाता है, जो टूल्स (तीसरे टूलबार, मुख्य स्क्रीन के ऊपर दाईं ओर) पर क्लिक करके पाया जा सकता है। सबफ़ोल्डर्स को प्रोसेस करता है, प्रत्येक इनपुट के लिए एक आउटपुट। यदि यह पासवर्ड से सुरक्षित फ़ाइल पाता है तो रुक जाता है और एक संकेत देता है। डिफ़ॉल्ट रूप से इनपुट डायरेक्टरी ट्री को संरक्षित नहीं करता है; इनपुट के समान फ़ोल्डर में आउटपुट लिखकर ऐसा कर सकते हैं। मेरे परीक्षणों में सटीकता काफी अच्छी थी।

Nuance OmniPage Ultimate (उर्फ v19): $ 500। बैच फीचर को "डॉक्युमेंटडायरेक्ट" कहा जाता है और यह एक अलग प्रोग्राम है जो पैकेज के साथ आता है। यह फ़ोल्डर्स और सबफ़ोल्डर्स को प्रोसेस करेगा; यदि आप सुविधाओं को सही चुनते हैं, तो यह आउटपुट क्षेत्र में इनपुट डायरेक्टरी ट्री को संरक्षित करेगा। प्रत्येक इनपुट के लिए एक आउटपुट। स्टॉप और एक संरक्षित फ़ाइल के लिए पासवर्ड की मांग करता है। समानांतर में कार्यों को चलाने के लिए मल्टी-कोर प्रोसेसर का उत्कृष्ट लाभ उठाने लगता है। सटीकता उत्कृष्ट थी । लेकिन बैच प्रोसेसर की स्थिरता खराब है; फ़ज़ी डॉक्यूमेंट इसे अपने ट्रैक्स में बंद कर देगा, कभी ठीक न होने के लिए, एक बैच को आसानी से पटरी से उतारना।

Nuance PowerPDF उन्नत v1.1 (ओमनीपेज परम के उत्तराधिकारी): $ 150। बैच सुविधा को "बैच कनवर्टर" कहा जाता है और यह उन्नत प्रसंस्करण टैब के तहत मुख्य कार्यक्रम से उपलब्ध है। यह फ़ोल्डर और सबफ़ोल्डर्स को प्रोसेस करेगा, आउटपुट में इनपुट संरचना को संरक्षित करेगा। प्रत्येक इनपुट के लिए एक आउटपुट। कई कोर का उपयोग करेगा, लेकिन आक्रामक रूप से नहीं; इसका मतलब यह है कि मैं एक मल्टी-कोर होस्ट को संतृप्त करने के लिए इसे प्राप्त नहीं कर सका। सटीकता ओमनीपेज की तुलना में अच्छी या बेहतर है। खराब या फ़ज़ी फ़ाइल्स ने इसे हैंग करने का कारण नहीं बनाया। बैच प्रोसेसर आउटपुट निर्देशिका के लिए एक सादा-पाठ लॉग फ़ाइल लिखता है ( झटका )।

ReadIris कॉर्पोरेट 14: $ 600। बैच फीचर "बैच ओसीआर" आइटम द्वारा लागू किया जाता है जो मुख्य स्क्रीन पर "फाइलों से" बटन पर क्लिक करके प्रकट होता है। यह फ़ोल्डर्स और सबफ़ोल्डर्स को संसाधित करेगा, प्रत्येक इनपुट के लिए एक आउटपुट, और डिफ़ॉल्ट रूप से आउटपुट निर्देशिका संरचना इनपुट निर्देशिका संरचना से मेल खाती है। अमान्य फ़ाइल पर उपयोगकर्ता इनपुट को रोकता है और मांगता है; आगे की प्रक्रिया के बिना प्रक्रियाएं सभी संरक्षित दस्तावेजों को स्पष्ट रूप से ओसीआर-इंग द्वारा छवि प्रदान करती हैं। सटीकता बहुत अच्छी थी, एक्रोबेट के साथ सममूल्य पर।

मेरी डेस्कटॉप मशीन (केवल दोहरे कोर) पर, मेरे चुने हुए इनपुट के साथ, एक पेज को संसाधित करने के लिए हर पैकेज में कम से कम 3 सेकंड की आवश्यकता होती है; कुछ और लिया। अधिक कोर वाली मशीन पर इसे नीचे चलाने में सक्षम हो सकता है।

गोचैस लाजिमी है, उनके लिए योजना बनाना सुनिश्चित करें: अमान्य PDF (कुछ पैकेज हॉल्ट), पासवर्ड-प्रोटेक्टेड PDF (कुछ पैकेज रुके, अन्य किसी भी तरह से परिवर्तित होते हैं!), और रोटेट किए गए पृष्ठ (चित्र के बजाय परिदृश्य)। यदि आप चाहते हैं कि बैच पूर्ण होने के लिए चला जाए, तो आपको इन पैकेजों के लिए इनपुट क्षेत्र को प्रस्तुत करना होगा बहुत, बहुत सावधानी से। PDF से सुरक्षा हटाने के तरीके के लिए GhostScript पैकेज के प्रिंट-टू-पीडीएफ फ़ीचर को देखें।

बड़े बैचों को चलाने से मेमोरी-थकावट और फांसी की समस्या हो सकती है, यहां तक ​​कि यह भी नहीं होना चाहिए (अर्ग - शायद मेमोरी लीक)। यदि आप किसी भी तरह का स्वचालन कर रहे हैं, तो एक बड़ी समस्या यह है कि वास्तव में क्या हुआ है, के बाद की खोज की जा रही है - कौन से दस्तावेज संसाधित नहीं किए जा सकते हैं, जो प्रसंस्करण के दौरान विफल रहे हैं, आदि यह डेस्कटॉप सॉफ्टवेयर की तरह है लोगों ने कभी भी कुछ नहीं सुना है जिसे एक कहा जाता है "लॉग फ़ाइल"।

अंत में एक भुगतान ग्राहक के रूप में समर्थन प्राप्त करना, इन मास-मार्केट पैकेजों के लिए बहुत मुश्किल है। उदाहरण के लिए मैंने कुछ बड़े इनपुट्स के लिए एक पैकेज (जो नाममात्र का रह जाएगा) के बारे में एक सम्मानित ग्राहक सहायता प्रतिनिधि से शिकायत की। मैंने हार मानने से 36 घंटे पहले इंतजार किया :)। उन्होंने मीठे रूप से 300 दस्तावेजों को बैच आकार को सीमित करने का सुझाव दिया। यह सिर्फ मेरे लिए पूरी तरह से अस्वीकार्य था, लेकिन हे यह है कि समर्थन टिकट जल्दी खतरे में बंद हो गया, है ना? और यही सब मायने रखता है, है ना? आह।

HTH


हैलो क्रिसलॉट, आपके विस्तृत उत्तर के लिए धन्यवाद। ;) मैंने सराहना की। ;) हम 4 साल से अधिक समय के बाद हैं और अविश्वसनीय रूप से अभी भी कोई भी सॉफ्टवेयर सही नहीं है, बस एक फ़ोल्डर में एक स्वचालित ओसीआर करने के लिए और त्रुटियों के साथ एक लॉग फ़ाइल जारी करने के बाद समाप्त हो गया! ... शायद मैं Nuance से संपर्क करने की कोशिश करूँगा।
एरब

अभी के लिए मैं एक्रोबैट प्रो और कई फ्रीवेयर के पुराने संस्करण का उपयोग करता हूं। यह एक लंबी प्रक्रिया है। जरूरत पड़ने पर मैं इसका विवरण कर सकता हूं! लेकिन जितना संभव हो उतना अच्छा काम किया जाता है! ;)
एरब

3

Adobe Acrobat PDF के एक फ़ोल्डर को प्रोसेस करेगा और अधिकांश Adobe उत्पादों की तरह इसमें 30 दिन का ट्रायल होगा
फ़ंक्शन 'दस्तावेज़' मेनू में स्थित है:

दस्तावेज़> OCR टेक्स्ट रेगोकेशन> OCR का उपयोग करके कई फ़ाइलों में टेक्स्ट को पहचानें

जहां से आप अपना फोल्डर जोड़ सकते हैं।

Acrobat X में फ़ंक्शन निम्नानुसार उपलब्ध है:

उपकरण> पाठ पहचानें> कई फ़ाइलों में

धन्यवाद "पेल्मस"। ;) मैं इसे समय की अनुमति के रूप में कोशिश करूँगा। मुझे finereader.abbyy.com के अपने पिछले परीक्षण में जो पसंद आया वह यह है कि यह कई अलग-अलग भाषाओं को पहचान सकता है। ;)
एरब

1

वास्तव में, pdfsandwich को पिछले वर्ष के भीतर अपडेट किया गया था और लिनक्स मिंट में स्थापित करना मेरे लिए बिल्कुल भी मुश्किल नहीं था। परिणाम जो देता है वह Adobe Acrobat से हीन है, लेकिन यह एकमात्र कारगर समाधान है जो मैंने अब तक लिनक्स में पाया है।


1
बहुत ही रोचक! मुझे इसकी जानकारी नहीं थी। मैं en.wikisource.org/wiki/… से एक लिंक जोड़ रहा हूं और भविष्य में किसी बिंदु पर इसका परीक्षण करूंगा। (वास्तव में कई अन्य समाधान हैं, लेकिन मैं यहां शुरू नहीं करूंगा!)
नेमो

0

WatchOCR का प्रयास करें । यह एक खुला स्रोत सॉफ़्टवेयर पैकेज है जो स्कैन की गई छवियों को पाठ खोज योग्य पीडीएफ़ में परिवर्तित करता है। यह स्वतंत्र और खुला स्रोत है और दूरदराज के प्रशासन के लिए एक अच्छा वेब इंटरफेस है। सही कॉन्फ़िगरेशन के साथ इसका उपयोग smb शेयर्स के माध्यम से पूरे नेटवर्क के लिए एक बैच pdf / ocr सर्विस बनाने के लिए किया जाता है। दुर्भाग्य से यह केवल लिनक्स है। लेकिन आप इसे एक पुराने सर्वर पर स्थापित कर सकते हैं और फिर आपका पूरा संगठन इसका उपयोग कर सकता है।

यदि आप कुछ भी स्थापित किए बिना समान ऑनलाइन करना चाहते हैं, तो PDFCubed.com आज़माएं


वॉचओआरसी होमपेज को स्क्वैट किया गया है, हालांकि संग्रहित है
टोबियास किंजलर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.