मेरे पास एक स्कैन की गई पीडीएफ सामग्री है जिसमें मैं छिपी हुई पाठ परत जोड़ना चाहता हूं, इसलिए मैं दस्तावेज़ को अनुक्रमित कर सकता हूं। मैंने भूतों के काले और सफेद टिफ़ आउटपुट डिवाइस (tiffg4) का उपयोग करके टिफ़ छवियों के रूप में पृष्ठों को निकाला, और यहाँ उदाहरण है कि वे क्या दिखते हैं:
इस छवि को टेसरैक्ट के साथ संसाधित करना, अच्छे परिणाम नहीं देता है।
घोस्टस्क्रिप्ट आउटपुट डीपीआई (600, 300, 150, 96) को बदलने से पता चलता है कि 96 डीपीआई में छवि तनाव से सबसे अच्छा परिणाम देती है लेकिन यह अभी भी संतोषजनक नहीं है।
अब मैंने सलाह के लिए पूछा कि कौन सा फ़िल्टर ओसीआर प्रसंस्करण के लिए इस छवि को बढ़ाएगा।
मैं imagemagick, या numpy / scipy / ndimage का उपयोग कर सकता हूं