स्कैन किए गए पृष्ठों लेकिन चयन करने योग्य पाठ के साथ पीडीएफ कैसे बनाएं?


32

आज मैंने अपने सप्लायर से एक पीडीएफ प्राप्त किया और इसमें हस्ताक्षर सहित कई मुद्रित और स्कैन किए गए पृष्ठ शामिल हैं। मैंने इसे एक्रोबैट रीडर डीसी में खोला। लेकिन मेरे आश्चर्य के लिए स्पष्ट रूप से स्कैन की गई छवियों से पाठ को चुना जा सकता है और एक पाठ के रूप में कॉपी किया जा सकता है। स्क्रीनशॉट देखें:

पीडीएफ का चयन पाठ के साथ स्कैन किया गया

इसके पीछे जाहिर तौर पर कुछ OCR हैं क्योंकि कॉपी किए गए पाठ में गलतियाँ हैं। लेकिन यह कैसे संभव है? मैंने इसे पहले कभी नहीं देखा है, यह कैसे बनाया जा सकता है?


4
जैसे संकुल github.com/gkovacs/pdfocr यह पहले से ही मौजूदा छवि PDFs के लिए होने के लिए अनुमति देते हैं
exussum

यह आपके द्वारा बैच-ओसीआर द्वारा कई पीडीएफ में प्राप्त परिणामों से अलग कैसे है ?
दिमित्री ग्रिगोरीव

@DmitryGrigoryev मैंने पहले कभी इस प्रकार की पीडीएफ नहीं देखी थी, इसलिए मैंने पूछा, यह क्या था। उत्तर में प्रिंटर के फर्मवेयर OCR या OCRMyPDF के बारे में कुछ भी नहीं है, प्रश्न और उत्तर दोनों बहुत अलग हैं। मुझे कुछ भी डुप्लिकेट नहीं दिखाई दे रहा है सिवाय इसके कि दोनों प्रश्न OCR और PDF के बारे में हैं।
वोजत दोहल

खैर, मैंने कभी भी एक ओसीआर पीडीएफ नहीं देखा है जो आपने पोस्ट किया है, उससे अलग है, इसीलिए आपका सवाल मुझे अजीब लगता है।
दिमित्री ग्रिगोरीव

जवाबों:


53

यह (यहाँ कुछ अन्य उत्तरों के विपरीत है) सबसे शायद एक्रोबेट के साथ कुछ भी नहीं करना है।

जब आप "पीडीएफ के रूप में सहेजें" चुनते हैं और सेटिंग्स में "खोज योग्य" चेकबॉक्स होता है, तो अधिकांश (सभी ?!) पेशेवर दस्तावेज़ स्कैनर और अधिकांश अर्ध-पेशेवर स्वचालित रूप से ओसीआर प्रदर्शन करेंगे। सस्ता "उपभोक्ता ग्रेड" मॉडल संलग्न पीसी पर ओसीआर करेगा, विशिष्ट नेटवर्क स्कैनर आंतरिक रूप से करते हैं।

शब्द "खोज योग्य" का मतलब कुछ भी नहीं है और इससे कम कुछ भी नहीं है कि स्कैनर ओसीआर का प्रदर्शन करेगा, फिर स्कैन किए गए बिटमैप्स के साथ एक पृष्ठ उत्पन्न करेगा, और उन्हें ओसीआर से अदृश्य पात्रों के साथ ओवरले करेगा, प्रत्येक बिटमैप पर संबंधित चरित्र पर रखा जाएगा।

इस तरह, आप खोज कर सकते हैं, और "बिटमैप" का चयन, कॉपी और पेस्ट भी कर सकते हैं जैसे कि जादू से। हालाँकि यह कोई जादू नहीं है। वास्तव में, आप सिर्फ अदृश्य पाठ की नकल कर रहे हैं।

स्कैनर कुछ अतिरिक्त जादू भी कर सकता है जैसे कि कई छोटी टाइलों से बड़ी छवि को कंपोज़ करना। की तुलना में एक बहुत छोटे दस्तावेज़ आकार में यह परिणाम वास्तव में इस तरह के रूप में संभव हो जाएगा, लेकिन यह भी अजीब आश्चर्य पैदा हो सकती है (ताकि हास्यास्पद अगर वे ऐसा आप के लिए नहीं है!) जेरोक्स बदलती जाती है अपने बिलों का कहानी , विडंबना यह है कि भले ही कोई भी ओसीआर किया जाता है, निर्भर करता है फर्मवेयर पर।


हां, यह सबसे अधिक संभव है कि उन्होंने इसे कैसे बनाया, मुझे बहुत संदेह है कि वे पूर्ण एडोब एक्रोबैट का उपयोग करते हैं।
वोजत दोहल

हमने यह किया है कि स्कैन की गई छवि के पीछे सभी पाठ होने से जहां ओसीआर ने रिपोर्ट किया है कि यह प्रत्येक पाठ नोड कहां पाया गया है।
Thorbjørn रेवन एंडरसन

10

लेकिन यह कैसे संभव है?

मूल रूप से, एक प्रोग्राम इनपुट फ़ाइल पर ओसीआर करता है और फिर यह चित्र पर पाठ की एक अदृश्य परत रखता है। वैकल्पिक रूप से, यह चित्र के नीचे पाठ की एक दृश्य परत भी रख सकता है , वही प्रभाव देता है।

जब आप किसी चीज़ का चयन करते हैं, तो चित्र कोई फर्क नहीं पड़ता क्योंकि पाठ परत चयनित हो जाती है।

यह कैसे बनाया जा सकता है?

इसके कई तरीके हैं। यह देखते हुए कि एक्रोबैट पहले से ही सुझाया गया है, मैं कुछ मुफ्त विकल्प जोड़ूंगा (और सौभाग्य से आप विंडोज का उपयोग करने के लिए मजबूर नहीं हैं)।

पीडीएफ- XChange दर्शक

यह ट्रैकर सॉफ्टवेयर का एक देशी विंडोज प्रोग्राम है । यदि आप 32-बिट उपसर्ग में 32-बिट संस्करण का उपयोग करते हैं, तो आप फ्रीवेयर संस्करण वाइन के नीचे ठीक से चलते हैं, इसलिए आप इसे विंडोज, मैकओएस और लिनक्स पर उपयोग कर सकते हैं। पिछले दो मामलों में, आपको क्रमशः PlayOnMac या PlayOnLinux की आवश्यकता होगी।

इस उत्तर से एक तस्वीर मैंने उबंटू उकबे पर छोड़ी है:

शराब के तहत पीडीएफ- XChange दर्शक का स्क्रीनशॉट

OCRmyPDF

यह पाइथन में लिखा गया एक मल्टीप्लायर है , जो घोस्टस्क्रिप्ट, टेसरैक्ट और अनपैपर पर आधारित है। डॉक्स से:

OCRmyPDF क्या करता है

OCRmyPDF सामग्री खोए बिना उस पृष्ठ की सभी जानकारी कैप्चर करने के लिए आवश्यक रंग स्थान और रिज़ॉल्यूशन (DPI) निर्धारित करने के लिए PDF के प्रत्येक पृष्ठ का विश्लेषण करता है। यह पृष्ठ को रेखापुंज करने के लिए घोस्टस्क्रिप्ट का उपयोग करता है, और फिर OCR "परत" बनाने के लिए रास्टराइज़ छवि पर OCR पर कार्य करता है। परत को फिर मूल पीडीएफ पर ग्राफ्ट किया जाता है।

इसे आसानी से डेबियन और उबंटू डेरिवेटिव पर स्थापित किया जा सकता है:

apt-get install ocrmypdf

या macOS पर:

brew tap jbarlow83/ocrmypdf
brew install ocrmypdf

विंडोज पर आपको डॉकर इमेज का उपयोग करना होगा। विवरण के लिए आधिकारिक डॉक्स देखें।

उपयोग बहुत सरल है और मेरा सुझाव है कि आप बेहतर परिणामों के लिए वैकल्पिक -d(डेस्कवूड) और -c(साफ) मापदंडों का उपयोग करें । यह ओसीआर प्रक्रिया को चलाने से पहले हर पेज को सीधा करेगा और छोटे डॉट्स / खामियों को साफ करेगा।

आप (और) को भाषा प्रदान करनी चाहिए -l

यहाँ इतालवी में लिखे गए तिरछे दस्तावेज़ से लिया गया एक उदाहरण दिया गया है :

OCRmyPDF के लिए उदाहरण

मेरे द्वारा उपयोग की जाने वाली कमांड थी:

ocrmypdf -l ita -d -c input.pdf output.pdf

ऑनलाइन उपकरण

कुछ ऑनलाइन टूल हैं जो ऐसा ही करते हैं। उल्लेखनीय है, पीडीएफ 24 OCRmyPDF के एक मुक्त वेब-आधारित संस्करण को होस्ट करता है जिसका उपयोग सीमाओं के बिना किया जा सकता है।

यह भी देखें:


इस उत्तर के लिए धन्यवाद, मैंने OCRMyPDF की कोशिश की और इसने बहुत अच्छा काम किया लेकिन दुर्भाग्य से जिस भाषा का समर्थन मुझे चाहिए वह अभी परिपक्व नहीं है, इसलिए परिणाम अभी तक बहुत उपयोगी नहीं थे।
वोजत दोहल

@ Vojt interestedchDohnal आप किस भाषा में रुचि रखते हैं? क्या आपने Tesseract के लिए प्रासंगिक भाषा पैक स्थापित किया है? सूची यहाँ देखें: macports.org/ports.php?by=name&substr=tesseract-
Andrea Lazzarotto

4

यह संभवतः एक एक्रोबेट ओसीआर सुविधा के कारण है :

एक्रोबैट दर्जनों भाषाओं में किसी भी पीडीएफ या छवि फ़ाइल में पाठ को पहचान सकता है। आपको केवल स्कैन किए गए दस्तावेज़ या छवि को खोलना है जिसे आप OCR करना चाहते हैं, फिर टूलबार के शीर्ष दाईं ओर नीले टूल बटन पर क्लिक करें। उस साइडबार में, मान्यता प्राप्त पाठ टैब चुनें, फिर इन फ़ाइल बटन पर क्लिक करें।

...

मान्यता प्राप्त पाठ के साथ, अब आप सभी सामान्य मार्कअप टूल का उपयोग करके पीडीएफ को चिह्नित कर सकते हैं - आप हाइलाइट कर सकते हैं, पाठ को पार कर सकते हैं, और बहुत कुछ । तुम भी पता लगाया स्वरूपण के साथ पाठ की प्रतिलिपि कर सकते हैं, हालांकि यह अक्सर पाठ मान्यता से कम सटीक है।


यह रीडर में भी काम करता है? अन्य दस्तावेज़ मेरे लिए इस तरह से काम नहीं करते हैं ...
Vojt Doch Dohnal

मुझे डर नहीं है, लेकिन इस लेख पर एक नज़र डालें: pdf.wondershare.com/pdf-software-comparison/…
duDE

3

से Adobe की वेबसाइट

स्कैन की गई पीडीएफ फाइल में टेक्स्ट को पहचानें

जब आप पीडीएफ के लिए कागजी दस्तावेजों को स्कैन करते हैं, तो आप वास्तव में सिर्फ उन दस्तावेजों की तस्वीरें ले रहे हैं। यह फ़ोटो और अन्य मुद्रित छवियों के लिए बहुत अच्छा है, लेकिन क्या होगा यदि आपको 200-पृष्ठ का दस्तावेज़ मिला है जिसमें आपको किसी विशेष शब्द या वाक्यांश को खोजने की आवश्यकता है? उस स्कैन की गई फ़ाइल में टेक्स्ट को पहचानने के लिए एक्रोबेट का उपयोग करें, जिससे टेक्स्ट कंटेंट खोज योग्य और प्रयोग करने योग्य हो जाता है।

  1. एक्रोबैट में आपके स्कैन किए गए दस्तावेज़ के साथ, टूल फलक खोलें और टेक्स्ट रिकॉग्निशन पैनल का विस्तार करें। यदि आप उपकरण फलक में "टेक्स्ट रिकॉग्निशन" नहीं देख सकते हैं, तो आप इसे ऊपरी दाएं कोने में मेनू का चयन करके जोड़ सकते हैं (नीचे दी गई छवि - देखें कि वह छोटा लाल तीर कहाँ इंगित कर रहा है? वहां क्लिक करें)।
  2. आपके द्वारा खोले गए दस्तावेज़ को स्कैन करने के लिए "इस फ़ाइल में" पर क्लिक करें। आप बस डिफ़ॉल्ट सेटिंग्स को स्वीकार कर सकते हैं और "ओके" पर क्लिक कर सकते हैं जब मान्यता प्राप्त टेक्स्ट बॉक्स पॉप अप हो जाता है। एक्रोबेट छवि को प्रयोग करने योग्य पाठ में बदल देगा; इसका परीक्षण करने के लिए, सामग्री संपादन पैनल के साथ किसी शब्द या वाक्य को संपादित करने का प्रयास करें। है ना कमाल !?

धन्यवाद, लेकिन मैंने अभी रीडर डीसी में पीडीएफ खोला है और इसके साथ कुछ खास नहीं किया है, स्कैन किए गए पृष्ठों के साथ अन्य पीडीएफ दस्तावेज़ इस तरह से स्वचालित रूप से काम नहीं करते हैं ...
Vojtěch Dohnal

5
OCR ऐसा किया गया था कि आपने फ़ाइल प्राप्त कर ली है, जब पाठ को मान्यता दी जाती है, तो यह पीडीएफ के साथ मिलकर बच जाती है।
माते जुहेस

@ Vojt acchDohnal आपको शायद पूर्ण कलाबाज की जरूरत है, न कि केवल पाठक
Andersen
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.