लेकिन यह कैसे संभव है?
मूल रूप से, एक प्रोग्राम इनपुट फ़ाइल पर ओसीआर करता है और फिर यह चित्र पर पाठ की एक अदृश्य परत रखता है। वैकल्पिक रूप से, यह चित्र के नीचे पाठ की एक दृश्य परत भी रख सकता है , वही प्रभाव देता है।
जब आप किसी चीज़ का चयन करते हैं, तो चित्र कोई फर्क नहीं पड़ता क्योंकि पाठ परत चयनित हो जाती है।
यह कैसे बनाया जा सकता है?
इसके कई तरीके हैं। यह देखते हुए कि एक्रोबैट पहले से ही सुझाया गया है, मैं कुछ मुफ्त विकल्प जोड़ूंगा (और सौभाग्य से आप विंडोज का उपयोग करने के लिए मजबूर नहीं हैं)।
पीडीएफ- XChange दर्शक
यह ट्रैकर सॉफ्टवेयर का एक देशी विंडोज प्रोग्राम है । यदि आप 32-बिट उपसर्ग में 32-बिट संस्करण का उपयोग करते हैं, तो आप फ्रीवेयर संस्करण वाइन के नीचे ठीक से चलते हैं, इसलिए आप इसे विंडोज, मैकओएस और लिनक्स पर उपयोग कर सकते हैं। पिछले दो मामलों में, आपको क्रमशः PlayOnMac या PlayOnLinux की आवश्यकता होगी।
इस उत्तर से एक तस्वीर मैंने उबंटू उकबे पर छोड़ी है:
OCRmyPDF
यह पाइथन में लिखा गया एक मल्टीप्लायर है , जो घोस्टस्क्रिप्ट, टेसरैक्ट और अनपैपर पर आधारित है। डॉक्स से:
OCRmyPDF क्या करता है
OCRmyPDF सामग्री खोए बिना उस पृष्ठ की सभी जानकारी कैप्चर करने के लिए आवश्यक रंग स्थान और रिज़ॉल्यूशन (DPI) निर्धारित करने के लिए PDF के प्रत्येक पृष्ठ का विश्लेषण करता है। यह पृष्ठ को रेखापुंज करने के लिए घोस्टस्क्रिप्ट का उपयोग करता है, और फिर OCR "परत" बनाने के लिए रास्टराइज़ छवि पर OCR पर कार्य करता है। परत को फिर मूल पीडीएफ पर ग्राफ्ट किया जाता है।
इसे आसानी से डेबियन और उबंटू डेरिवेटिव पर स्थापित किया जा सकता है:
apt-get install ocrmypdf
या macOS पर:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
विंडोज पर आपको डॉकर इमेज का उपयोग करना होगा। विवरण के लिए आधिकारिक डॉक्स देखें।
उपयोग बहुत सरल है और मेरा सुझाव है कि आप बेहतर परिणामों के लिए वैकल्पिक -d
(डेस्कवूड) और -c
(साफ) मापदंडों का उपयोग करें । यह ओसीआर प्रक्रिया को चलाने से पहले हर पेज को सीधा करेगा और छोटे डॉट्स / खामियों को साफ करेगा।
आप (और) को भाषा प्रदान करनी चाहिए -l
।
यहाँ इतालवी में लिखे गए तिरछे दस्तावेज़ से लिया गया एक उदाहरण दिया गया है :
मेरे द्वारा उपयोग की जाने वाली कमांड थी:
ocrmypdf -l ita -d -c input.pdf output.pdf
ऑनलाइन उपकरण
कुछ ऑनलाइन टूल हैं जो ऐसा ही करते हैं। उल्लेखनीय है, पीडीएफ 24 OCRmyPDF के एक मुक्त वेब-आधारित संस्करण को होस्ट करता है जिसका उपयोग सीमाओं के बिना किया जा सकता है।
यह भी देखें: