खुला स्रोत पसंदीदा है, लेकिन आवश्यक नहीं है।
मुझे Adobe Acrobat 8 मिला है, और वास्तव में OCR सुविधा की तरह है जो अनिवार्य रूप से स्कैन किए गए दस्तावेज़ के शीर्ष पर OCR'd टेक्स्ट की एक अदृश्य परत डाल सकता है। इस प्रकार आप स्क्रीन पर जो देखते हैं वह मूल स्कैन किया हुआ दस्तावेज़ है, लेकिन परिणाम खोज योग्य है।
मैं जो देख रहा हूं वह इस प्रक्रिया को स्वचालित करने का एक तरीका है। मुझे वर्तमान में कुछ स्क्रिप्ट मिली हैं जिनका उपयोग हम स्कैन की गई फ़ाइलों को संसाधित करने और संग्रहीत करने के लिए करते हैं, और कुछ ऐसी चीज़ की तलाश कर रहे हैं जो मैं इस बैच प्रक्रिया में सही तरीके से ओसीआर करने के लिए प्लग इन कर सकूं जो मैं एक्रोबेट के साथ कर सकता हूं।
सभी सुझावों का स्वागत है, धन्यवाद!