यदि आप एक पृष्ठ को पीडीएफ में पाठ के साथ स्कैन करते हैं और उस पर एक ओसीआर एप्लिकेशन चलाते हैं, तो पाठ को पृष्ठ में जोड़ा जाएगा, लेकिन "पाठ रेंडरिंग मोड" अदृश्य पर सेट है। यह वहां है, लेकिन यह स्क्रीन पर (या कागज पर मुद्रित होने पर) प्रदान नहीं किया गया है। आप जो देखते हैं या प्रिंट करते हैं वह मूल स्कैन की गई छवि है।
हम अदृश्य पाठ को कैसे दृश्यमान बना सकते हैं?
खैर, हम पीडीएफ को संपादित कर सकते हैं ... पाठ कोड को अदृश्य करने के लिए सेट करने के लिए पीडीएफ कोड यह है:
3 Tr
आप इस स्ट्रिंग (अभी तक) को मूल from_abbyy.pdf में नहीं पा सकते हैं और न ही from_ghostscript.pdf में क्योंकि पीडीएफ के कुछ हिस्से संकुचित हैं। इसलिए हम उनकी मदद से जहाँ तक संभव हो, उन्हें अनसुना करते हैं qpdf
:
qpdf \
--qdf \
from_abbyy.pdf \
qdf--from_abbyy.pdf
qpdf \
--qdf \
after_ghostscript.pdf \
qdf--after_ghostscript.pdf
अब हम ऊपर स्ट्रिंग को आसानी से पा सकते हैं (और प्रत्येक फ़ाइल में केवल एक घटना है)।
पाठ रेंडरिंग के दृश्यमान तरीकों में से एक में इसे स्विच करते हैं। कुल मिलाकर, हम इन 8 पाठ रेंडरिंग मोड्स में से एक चुन सकते हैं:
0 - fill glyph shapes
1 - stroke glyph shapes
2 - fill, then stroke glyph shapes
3 - neither fill nor stroke glyph shapes (invisible)
4 - fill and add to path for clipping glyph shapes
5 - stroke glyph shapes and add to path for clipping
6 - fill, then stroke glyph shapes and add path for clipping
7 - add glyph shapes to path for clipping
यदि मैं "भरण" मोड का उपयोग करता हूं, तो ओसीआर से पाठ संभवतः अंतर्निहित स्कैन छवि के शीर्ष पर इतना अच्छा नहीं लगेगा। इसलिए मैं "स्ट्रोक" संस्करण पसंद करता हूं। इसलिए मैं बस पढ़ने के लिए ऊपर की लाइन को बदलता हूं
1 Tr
इस संशोधित पीडीएफ को देखते हुए, मुझे यह पसंद नहीं है, क्योंकि डिफ़ॉल्ट लिनिविथ मेरे स्वाद के लिए बहुत मोटी है। इसके अलावा, आउटलाइन स्ट्रोक का रंग काला (डिफ़ॉल्ट) है; मैं लाल रंग पसंद करता हूँ ताकि मूल रूप से स्कैन की गई आकृति के विपरीत हो। इसलिए मैं इस लाइन के सामने कुछ कोड जोड़ता हूं जो लिनिविद को एक बिंदु के एक चौथाई तक सेट करता है:
.25 w
और कुछ अन्य रंग को लाल रंग में सेट करने के लिए:
1 0 0 RG
पूरी लाइन अब पढ़ी जाती है:
.25 w 1 0 0 RG 1 Tr
बस इतना ही।
ध्यान दें, कि हमारे छोटे हेरफेर ने फ़ाइल को नुकसान पहुंचाया है, क्योंकि इसकी "TOC" (तकनीकी शब्दों में: इसकी xref
तालिका) अब मान्य नहीं होगी। एक्रोबेट रीडर या एक्रोबेट प्रोफेशनल अभी भी इसे (शिकायत के बिना भी) और चुपचाप फ़ाइल के xref सेक्शन को "रिपेयर" करेगा। अन्य पीडीएफ दर्शक फ़ाइल को अस्वीकार कर सकते हैं, लेकिन अब हम इसकी परवाह नहीं करते ...
यहाँ परिणाम के स्क्रीनशॉट हैं:
(पहला स्क्रीनशॉट विंडो की चौड़ाई पर ज़ूम किया गया है।)
(दूसरा स्क्रीनशॉट 800% तक ज़ूम किया गया है।)
लाल रूपरेखा, स्कैन किए गए पाठ को अब दिखाई दे रहा है, जैसा कि हम चाहते थे।
मैंने दोनों फ़ाइलों के लिए ऊपर बताई गई एक ही प्रक्रिया का संचालन किया । from_abbyy.pdf और after_ghostscript.pdf । मैंने एक्रोबेट रीडर के 2 अलग-अलग उदाहरणों में दोनों परिणाम खोले। यदि हम उन दोनों को एक ही मान पर ज़ूम करते हैं और दोनों विंडो को अधिकतम करते हैं, तो दोनों फ़ाइलों के बीच के दृश्य को टॉगल करना आसान है [alt]+[tab]
। यह दो पीडीएफ फाइलों के बीच बेहतरीन प्रतिपादन मतभेदों को प्रकट करने का एक अच्छा तरीका है।
मेरा परिणाम है: इस फाइल के लिए घोस्टस्क्रिप्ट (v9.02) इनपुट और इसके आउटपुट के बीच एक भी पिक्सेल अलग नहीं है। लेकिन काफी अंतर है अगर आप टेक्स्ट को कॉपी करना चाहते हैं ...