मेरे पास स्कैन की हुई पुस्तक का एक पीडीएफ है।
मैं एक मुफ्त सॉफ्टवेयर की तलाश कर रहा हूं जो ओसीआर का प्रदर्शन करेगा और फिर इसे पीडीएफ या दस्तावेज़ के रूप में सहेजने का विकल्प प्रदान करेगा।
वहाँ एक है?
मेरे पास स्कैन की हुई पुस्तक का एक पीडीएफ है।
मैं एक मुफ्त सॉफ्टवेयर की तलाश कर रहा हूं जो ओसीआर का प्रदर्शन करेगा और फिर इसे पीडीएफ या दस्तावेज़ के रूप में सहेजने का विकल्प प्रदान करेगा।
वहाँ एक है?
जवाबों:
आप एडोब एक्रोबैट प्रो के 30 दिन के परीक्षण को डाउनलोड कर सकते हैं और 'ओसीआर टेक्स्ट रिकॉग्निशन' फंक्शन ('डॉक्यूमेंट> ओसीआर टेक्स्ट रिकॉग्निशन> रिकॉग्नाइज्ड टेक्स्ट यूसीआर ओसीआर ...') का उपयोग कर सकते हैं। सेटिंग डायलॉग में, आउटपुट स्टाइल के रूप में 'खोजा जा सकने वाला चित्र' चुनें। यह पृष्ठ की छवि को बनाए रखेगा लेकिन OCR'ed पाठ को एम्बेड करेगा ताकि दस्तावेज़ खोज योग्य हो और पाठ को चयनित, कॉपी और पेस्ट किया जा सके।
OCR चलाने के बाद आपको उन शब्दों की पुष्टि या सही करने की आवश्यकता होगी जो OCR 'Find OCR संदिग्ध' कार्यों का उपयोग करने के बारे में अनिश्चित हैं।
यदि आपके पास एक Google खाता है तो Google डॉक्स में अब पीडीएफ फाइल अपलोड करने और उस पर ओसीआर प्रदर्शन करने की कार्यक्षमता शामिल है।
मैंने इसे स्वयं आज़माया है और यह एक अच्छी तरह से प्रारूपित पीडीएफ में एक निष्पक्ष छुरा बनाता है।
स्वरूपण बहुत नष्ट हो गया है, लेकिन पाठ जीवित लगता है।
निम्नलिखित उत्पादों को इंटरनेट पर सूचीबद्ध पाया गया, लेकिन मैंने उनका उपयोग नहीं किया है।
ऑनलाइन ओसीआर
ओसीआर टर्मिनल एक ऑनलाइन ओसीआर सेवा है जो आपकी स्कैन की गई छवियों और पीडीएफ फाइलों पर ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) करता है और उन्हें संपादन योग्य और पाठ खोज योग्य दस्तावेजों में प्रस्तुत करता है।
Free-OCR.com एक मुफ़्त ऑनलाइन OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) टूल है। OCR का उपयोग करने के लिए आप इसका उपयोग किसी भी इमेज पर कर सकते हैं।
यह सेवा नि: शुल्क है, कोई पंजीकरण आवश्यक नहीं है। हमें आपके ईमेल पते की भी आवश्यकता नहीं है।
बस अपनी छवि फ़ाइलों को अपलोड करें। Free-OCR एक JPG, GIF, TIFF BMP या PDF ( केवल पहला पृष्ठ ) लेता है । एकमात्र प्रतिबंध यह है कि छवियां 2MB से बड़ी नहीं होनी चाहिए, कोई भी व्यापक या 5000 पिक्सेल से अधिक नहीं होनी चाहिए और प्रति घंटे 10 छवि अपलोड की सीमा है।
मेस्ट्रो रिकॉग्निशन सर्वर कमर्शियल है, लेकिन इसमें ऑनलाइन ट्राय-इट डेमो है।
मुफ्त सॉफ्टवेयर
FreeOCR - केवल छवियों के लिए।
फ्रीओसीआर एक स्कैन और ओसीआर प्रोग्राम है जिसमें टेसेरैक्ट फ्री ऑरो इंजन भी शामिल है जिसे टेसरैक्ट जीयूआई के रूप में भी जाना जाता है। इसमें एक Windows इंस्टॉलर शामिल है और बहु-पृष्ठ टिफ़, फ़ैक्स दस्तावेज़ों के साथ-साथ संपीडित टिफ सहित अधिकांश छवि प्रकारों का उपयोग करना और उनका समर्थन करना बहुत सरल है, जो कि अपने दम पर टेसरैक्ट इंजन को नहीं पढ़ सकता है। अब इसमें ट्वेन स्कैनिंग है।
pdfsandwich - पीडीएफ -> पीडीएफ कनवर्टर।
pdfsandwich OCR स्कैन की गई पुस्तकों या पत्रिकाओं के लिए एक कमांड लाइन उपकरण है। यह बहुरंगी पाठ के लिए भी पेज लेआउट को पहचानने में सक्षम है।
अनिवार्य रूप से, pdfsandwich एक आवरण स्क्रिप्ट है जो निम्नलिखित बायनेरिज़ को कॉल करता है: कन्वर्ट, क्यूनिफॉर्म, gs, और hocr2pdf। यह यूनिक्स सिस्टम पर चलने के लिए जाना जाता है और इसे लिनक्स और मैकओएस एक्स पर परीक्षण किया गया है। यह मल्टीप्रोसेसर सिस्टम पर समानांतर प्रसंस्करण का समर्थन करता है।
क्यूनिफॉर्म + hocr2pdf + घोस्टस्क्रिप्ट : एक DIY ओपन-सोर्स समाधान।
मैंने एक उत्तर को हल किया, जिसमें अब एक ओपन-सोर्स क्यूनिफॉर्म OCR सिस्टम का एक संस्करण शामिल है और एक साथ PDF पेज डालने के लिए घोस्टस्क्रिप्ट के साथ hocr2pdf को शामिल किया गया है।
यह विशेष रूप से लिनक्स के लिए था, लेकिन आप विंडोज के लिए क्यूनिफॉर्म और घोस्टस्क्रिप्ट भी प्राप्त कर सकते हैं। मैं hocr2pdf या एक समकक्ष के बारे में निश्चित नहीं हूं, हालांकि।
Imagemagick स्थापित करें । एक cmd विंडो या टर्मिनल खोलें:
convert myfile.pdf myfile-%02d.jpg
आउटपुट आपके पीडीएफ में प्रत्येक पेज के लिए 1 jpg फाइल होगा, myfile-00.jpg, myfile-01.pg, आदि।
प्रत्येक छवि को पास करें, हालांकि एक ocr प्रोग्राम। मुझे इसके साथ बहुत अनुभव नहीं है, लेकिन विकल्पों में से एक है।
पाठ के प्रत्येक पृष्ठ को पीडीएफ में परिवर्तित करें। आप इसे इमेजमाजिक के साथ फिर से कर सकते हैं, लेकिन इसके अलावा भी अन्य तरीके हैं:
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
आपका अनुरोध समस्या का एक जटिल समाधान प्रतीत होता है, हालाँकि मैं समस्या को सही ढंग से नहीं समझ सकता। किसी भी कीमत पर:
एक पीडीएफ लेखक क्यों नहीं मिलता है जो आपको पीडीएफ पेज पर सीधे डेटा दर्ज करने की अनुमति देगा?
प्रयास करें PDFCubed.com स्थापित करने के लिए कुछ भी नहीं है, यह सब ऑनलाइन किया जाता है। आप अपने दस्तावेज़ों को वेब, ईमेल या ड्रॉपबॉक्स के माध्यम से संसाधित करने के लिए भेज सकते हैं। स्कैन किए गए PDF और TIF को खोजे जा सकने वाले टेक्स्ट pdfs में परिवर्तित किया जाता है और फिर वेब, ईमेल या ड्रॉपबॉक्स के माध्यम से पुनर्प्राप्त किया जा सकता है।