मैं स्कैन की गई छवियों को पीडीएफ के रूप में खोज योग्य पीडीएफ फाइल में कैसे बदल सकता हूं? [बन्द है]


19

मेरे पास स्कैन की हुई पुस्तक का एक पीडीएफ है।

मैं एक मुफ्त सॉफ्टवेयर की तलाश कर रहा हूं जो ओसीआर का प्रदर्शन करेगा और फिर इसे पीडीएफ या दस्तावेज़ के रूप में सहेजने का विकल्प प्रदान करेगा।

वहाँ एक है?


आप पीडीएफ में छवियों को पाठ में परिवर्तित करना चाहते हैं?
डेवपैरिलो

हाँ, लेकिन मुझे आउटपुट के रूप में एक txt फाइल नहीं चाहिए। मैं ठीक उसी pdf को देखना चाहता हूं लेकिन Ctrl + F दबाने और शब्दों को चिह्नित करने आदि के विकल्प के साथ ..

आपके पास पाठ प्रारूपण और शैली को खोए बिना इस पीडीएफ को परिवर्तित करने में बहुत कठिन समय होगा। मुझे अभी तक OCR सॉफ़्टवेयर को स्कैन की गई छवियों से दस्तावेज़ को ठीक से खोजने में सक्षम है। कुछ गधों के काम की तैयारी करें (उदाहरण के लिए प्रूफरीडिंग, आदि) :)

जवाबों:


5

आप एडोब एक्रोबैट प्रो के 30 दिन के परीक्षण को डाउनलोड कर सकते हैं और 'ओसीआर टेक्स्ट रिकॉग्निशन' फंक्शन ('डॉक्यूमेंट> ओसीआर टेक्स्ट रिकॉग्निशन> रिकॉग्नाइज्ड टेक्स्ट यूसीआर ओसीआर ...') का उपयोग कर सकते हैं। सेटिंग डायलॉग में, आउटपुट स्टाइल के रूप में 'खोजा जा सकने वाला चित्र' चुनें। यह पृष्ठ की छवि को बनाए रखेगा लेकिन OCR'ed पाठ को एम्बेड करेगा ताकि दस्तावेज़ खोज योग्य हो और पाठ को चयनित, कॉपी और पेस्ट किया जा सके।

OCR चलाने के बाद आपको उन शब्दों की पुष्टि या सही करने की आवश्यकता होगी जो OCR 'Find OCR संदिग्ध' कार्यों का उपयोग करने के बारे में अनिश्चित हैं।


हालांकि Adobe मुक्त नहीं है, यह अब तक का सबसे सक्षम OCR समाधान है
जेम्स हीली

4

यदि आपके पास एक Google खाता है तो Google डॉक्स में अब पीडीएफ फाइल अपलोड करने और उस पर ओसीआर प्रदर्शन करने की कार्यक्षमता शामिल है।

मैंने इसे स्वयं आज़माया है और यह एक अच्छी तरह से प्रारूपित पीडीएफ में एक निष्पक्ष छुरा बनाता है।

स्वरूपण बहुत नष्ट हो गया है, लेकिन पाठ जीवित लगता है।


4

निम्नलिखित उत्पादों को इंटरनेट पर सूचीबद्ध पाया गया, लेकिन मैंने उनका उपयोग नहीं किया है।

ऑनलाइन ओसीआर

ओसीआर टर्मिनल

ओसीआर टर्मिनल एक ऑनलाइन ओसीआर सेवा है जो आपकी स्कैन की गई छवियों और पीडीएफ फाइलों पर ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) करता है और उन्हें संपादन योग्य और पाठ खोज योग्य दस्तावेजों में प्रस्तुत करता है।

नि: शुल्क ओसीआर

Free-OCR.com एक मुफ़्त ऑनलाइन OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) टूल है। OCR का उपयोग करने के लिए आप इसका उपयोग किसी भी इमेज पर कर सकते हैं।
यह सेवा नि: शुल्क है, कोई पंजीकरण आवश्यक नहीं है। हमें आपके ईमेल पते की भी आवश्यकता नहीं है।
बस अपनी छवि फ़ाइलों को अपलोड करें। Free-OCR एक JPG, GIF, TIFF BMP या PDF ( केवल पहला पृष्ठ ) लेता है । एकमात्र प्रतिबंध यह है कि छवियां 2MB से बड़ी नहीं होनी चाहिए, कोई भी व्यापक या 5000 पिक्सेल से अधिक नहीं होनी चाहिए और प्रति घंटे 10 छवि अपलोड की सीमा है।

मेस्ट्रो रिकॉग्निशन सर्वर कमर्शियल है, लेकिन इसमें ऑनलाइन ट्राय-इट डेमो है।

मुफ्त सॉफ्टवेयर

FreeOCR - केवल छवियों के लिए।

फ्रीओसीआर एक स्कैन और ओसीआर प्रोग्राम है जिसमें टेसेरैक्ट फ्री ऑरो इंजन भी शामिल है जिसे टेसरैक्ट जीयूआई के रूप में भी जाना जाता है। इसमें एक Windows इंस्टॉलर शामिल है और बहु-पृष्ठ टिफ़, फ़ैक्स दस्तावेज़ों के साथ-साथ संपीडित टिफ सहित अधिकांश छवि प्रकारों का उपयोग करना और उनका समर्थन करना बहुत सरल है, जो कि अपने दम पर टेसरैक्ट इंजन को नहीं पढ़ सकता है। अब इसमें ट्वेन स्कैनिंग है।

pdfsandwich - पीडीएफ -> पीडीएफ कनवर्टर।

pdfsandwich OCR स्कैन की गई पुस्तकों या पत्रिकाओं के लिए एक कमांड लाइन उपकरण है। यह बहुरंगी पाठ के लिए भी पेज लेआउट को पहचानने में सक्षम है।

अनिवार्य रूप से, pdfsandwich एक आवरण स्क्रिप्ट है जो निम्नलिखित बायनेरिज़ को कॉल करता है: कन्वर्ट, क्यूनिफॉर्म, gs, और hocr2pdf। यह यूनिक्स सिस्टम पर चलने के लिए जाना जाता है और इसे लिनक्स और मैकओएस एक्स पर परीक्षण किया गया है। यह मल्टीप्रोसेसर सिस्टम पर समानांतर प्रसंस्करण का समर्थन करता है।


मैंने सिर्फ pdfsandwich का उपयोग किया है। यह काम करता है और यह मुफ़्त है! :) यह निश्चित रूप से मेरी थीसिस में मदद करेगा, धन्यवाद!
एडी

लगता है कि pdfsandwich स्थानांतरित हो गया है? Tobias-elze.de/pdfsandwich
pioto

@ @पोटो: यह मेरे लिए नहीं है कि ऊपर pdfsandwich जोड़ा गया है, लेकिन जैसा कि आपने सुझाव दिया था, मैंने लिंक को ठीक कर दिया।
हरिके

2

क्यूनिफॉर्म + hocr2pdf + घोस्टस्क्रिप्ट : एक DIY ओपन-सोर्स समाधान।

मैंने एक उत्तर को हल किया, जिसमें अब एक ओपन-सोर्स क्यूनिफॉर्म OCR सिस्टम का एक संस्करण शामिल है और एक साथ PDF पेज डालने के लिए घोस्टस्क्रिप्ट के साथ hocr2pdf को शामिल किया गया है।

यह विशेष रूप से लिनक्स के लिए था, लेकिन आप विंडोज के लिए क्यूनिफॉर्म और घोस्टस्क्रिप्ट भी प्राप्त कर सकते हैं। मैं hocr2pdf या एक समकक्ष के बारे में निश्चित नहीं हूं, हालांकि।


1

यहाँ एक बहुत ही अजीब विधि है, जिसमें Google इंडेक्स और OCR को आपके लिए एक वेबसाइट पर देना शामिल है, फिर इसे पुनः प्राप्त करना।


हाँ, मैंने यह भी देखा ... अजीब तथ्य :) मैं इसे खत्म कर सकता हूं ...

0

Imagemagick स्थापित करें । एक cmd विंडो या टर्मिनल खोलें:

convert myfile.pdf myfile-%02d.jpg

आउटपुट आपके पीडीएफ में प्रत्येक पेज के लिए 1 jpg फाइल होगा, myfile-00.jpg, myfile-01.pg, आदि।

प्रत्येक छवि को पास करें, हालांकि एक ocr प्रोग्राम। मुझे इसके साथ बहुत अनुभव नहीं है, लेकिन विकल्पों में से एक है।

पाठ के प्रत्येक पृष्ठ को पीडीएफ में परिवर्तित करें। आप इसे इमेजमाजिक के साथ फिर से कर सकते हैं, लेकिन इसके अलावा भी अन्य तरीके हैं:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf

0

आपका अनुरोध समस्या का एक जटिल समाधान प्रतीत होता है, हालाँकि मैं समस्या को सही ढंग से नहीं समझ सकता। किसी भी कीमत पर:

एक पीडीएफ लेखक क्यों नहीं मिलता है जो आपको पीडीएफ पेज पर सीधे डेटा दर्ज करने की अनुमति देगा?


0

प्रयास करें PDFCubed.com स्थापित करने के लिए कुछ भी नहीं है, यह सब ऑनलाइन किया जाता है। आप अपने दस्तावेज़ों को वेब, ईमेल या ड्रॉपबॉक्स के माध्यम से संसाधित करने के लिए भेज सकते हैं। स्कैन किए गए PDF और TIF को खोजे जा सकने वाले टेक्स्ट pdfs में परिवर्तित किया जाता है और फिर वेब, ईमेल या ड्रॉपबॉक्स के माध्यम से पुनर्प्राप्त किया जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.