मैं एक ऑफ़लाइन स्क्रिप्ट योग्य टूल की तलाश कर रहा हूं, जो उस पर OCR चलाकर एक मौजूदा पीडीएफ फाइल को खोज योग्य बनाता है, जो कि खोज योग्य संस्करण के साथ मूल गैर-खोज योग्य फ़ाइल की जगह ले सकता है, और अनअटेंडेड चल सकता है।
उदाहरण के लिए, www.pdfscannerapp.com - ठीक वही है जो मुझे चाहिए, लेकिन यह केवल GUI है - स्क्रिप्ट योग्य नहीं।
मुझे पता है कि एवरनोट पीडीएफ फाइलों को खोज योग्य बनाता है, लेकिन वे केवल एवरनोट के भीतर खोज योग्य रहते हैं।
मैं सही ओसीआर की तलाश नहीं कर रहा हूं, यहां तक कि मामूली स्वीकार्य ओसीआर भी ठीक है, लेकिन मैं भारी सॉफ्टवेयर पैकेज के बजाय एक छोटी उपयोगिता पसंद करूंगा।
(मैं AD पर एक समान, लेकिन अलग-अलग प्रश्न से अवगत हूं: खोज करने के लिए सॉफ्टवेयर की खोज करना या खोज करने योग्य और संकेत करने योग्य पीडीएफ में बदलना - हालांकि, मुझे पीडीएफ को साइन या भरने की आवश्यकता नहीं है, और मेरी आवश्यकता यह है कि समाधान स्क्रिप्ट करने योग्य है)
संपादित करें:
1) कई उपयोगिताओं संरचित पाठ निष्कर्षण की अनुमति देते हैं, हालांकि निकाले जाने के लिए, पाठ होना चाहिए; मैं मुख्य रूप से पीडीएफ को संदर्भित कर रहा हूं जो बिटमैप्स से लिपटे हैं, जैसा कि स्कैनर्स द्वारा उत्पन्न सादे पीडीएफ के साथ है।
2) मैं जरूरी नहीं कि एक नि: शुल्क समाधान की तलाश कर रहा हूं, और मैं एक अच्छी उपयोगिता के लिए भुगतान करने से ज्यादा खुश रहूंगा जो कि मुझे बस जरूरत है, लेकिन मैं एक लाख सुविधाओं के साथ भारी अनुप्रयोगों की तलाश नहीं कर रहा हूं जिसमें ओसीआर सुविधा शामिल है लेकिन जिनकी लागत केवल OCR कार्यक्षमता के लिए उन्हें खरीदने का औचित्य नहीं है।
3) जैसा कि ऊपर कहा गया है, मैं सही ओसीआर की तलाश नहीं कर रहा हूं, बस एक मामूली स्वीकार्य ओसीआर है। दुर्भाग्य से, मेरे अनुभव में, टीज़रैक्ट वास्तव में उस सीमा से नीचे है। मैं "मध्यम रूप से स्वीकार्य" एक ओसीआर को परिभाषित कर सकता हूं, जो कह सकता है, ओसीआर एक उपयोगिता बिल ताकि कम से कम खाता संख्या (ग्राहक संख्या) को सही ढंग से पहचाना जाए।
संपादित करें: "स्क्रिप्ट करने योग्य" या "ऑटोमैटेबल", अर्थात, स्वचालित रूप से ट्रिगर होने में सक्षम है और मानव इनपुट के बिना अप्राप्य चलता है।