मैं एक स्कैन की गई पीडीएफ को टेक्स्ट के साथ पीडीएफ में कैसे बदल सकता हूं


36

मैंने लगभग 80 पृष्ठों को ग्रे स्केल पीडीएफ (छवि प्रारूप) में स्कैन किया है। फ़ाइल का अंतिम आकार लगभग 70 एमबी है, जो बहुत विशाल है।

अब मैं ग्रेस्केल इमेज-आधारित पीडीएफ फाइल को एक साधारण ब्लैक / व्हाइट टेक्स्ट-आधारित पीडीएफ फाइल में बदलने के लिए एक विधि की तलाश कर रहा हूं।

मैंने कई प्रयास किए हैं, gsलेकिन कोई सफलता नहीं मिली (केवल कुछ प्रतिशत की वसूली)। यदि किसी विशेषज्ञ के पास कोई विचार है, तो कृपया मुझे बताएं।


1
आपको कुछ OCR टूल की आवश्यकता है। Tesseract ubuntuforums.org/showthread.php?t=880471
निकिता यू।

4
यदि आप PDF छवियों को रखने में रुचि रखते हैं और इसमें टेक्स्ट जोड़ रहे हैं, तो प्रश्न पर एक नज़र डालें OCR जानकारी को PDF में जोड़ना
कोलन

यदि आप (उदाहरण के लिए) एक-पृष्ठ का उदाहरण पोस्ट कर सकते हैं, तो हम समाधानों का परीक्षण कर सकते हैं ...
रमनो

यह एक OCR समाधान नहीं है, लेकिन askubuntu.com/a/3387/16395 बहुत मदद करता है (हालाँकि 72dpi कम पक्ष में है, मेरे पास 120 के साथ बेहतर परिणाम हैं)।
रमनो

क्या YAGF उबंटू 16.04 के साथ सही काम करता है? अगर मैं किसी इमेज या पीडीएफ-डॉक्यूमेंट को लोड करता हूं, तो बिना किसी त्रुटि संदेश के प्रोग्राम निरस्त हो जाता है। Ubuntu 14.04 के तहत मुझे कोई समस्या नहीं थी। एच। रोरस
ह्यूबर्ट

जवाबों:


25

gImageReader एक साधारण GTK + फ्रंट-एंड है tesseract-ocr

sudo apt-get install gimagereader tesseract-ocr

जर्मन पाठ के लिए खेद है


4
आपको OCR को सुधारने के लिए दस्तावेज़ की भाषा भी स्थापित करनी चाहिए, साथ ही sudo apt-get install tesseract-ocr-[lang], langभाषा कोड के स्थान पर, जैसे deuDeutsch के लिए, porपुर्तगाली के लिए, आदि
estibordo

1
यह सॉफ्टवेयर बदसूरत है। प्रयोज्यता शून्य के अधीन है। हालांकि यह काम करने की कोशिश करता है, लेकिन यह प्लेन स्प्रेडशीट जैसी तालिकाओं को पढ़ने में असमर्थ है। बस उन पृष्ठों को याद करता है, जिनमें वे हैं।
मैक्स युडिन

9

आप pdfocr की कोशिश कर सकते हैं:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

वाक्यविन्यास निष्पादित करने के लिए है

 pdfocr -i input.pdf -o output.pdf

input.pdfइनपुट फ़ाइल और output.pdfआउटपुट फ़ाइल का नाम कहां है ।

डिफ़ॉल्ट रूप से यह Tesseract का उपयोग करता है। इसे स्थापित करने के लिए:

 sudo apt-get install tesseract-ocr

pdfocr एक एम्बेडेड टेक्स्ट लेयर बनाता है।


महान! दिलचस्प है कि फ़ाइल के ऊपर के चरणों का प्रदर्शन करने के बाद अब Adobe Acrobat DC में खोजा जा सकता है लेकिन पूर्वावलोकन में नहीं।
ल्यूकस

2
यह भंडार
Max N

आप pdfocr के पुराने संस्करण को स्थापित करने का प्रयास कर सकते हैं, यदि आप xenial पर wily संस्करण स्थापित करते हैं तो यह ठीक काम करता है। इसे करने के लिए " deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" और " deb -src ppa.launchpad.net/gezakovacs/pdfocr-ubuntu wily main" को /etc/apt/sources.list और उसके बाद जोड़ें। "sudo apt update" और "sudo apt-get install pdfocr"
rafmunozf

2
pdfocr एक स्क्रिप्ट है जो निम्नलिखित प्रक्रिया को स्वचालित करती है: 1. पीडीएफ फाइल को pdftk का उपयोग करके अलग-अलग पेजों में विभाजित करना। पीडीएफ इमेज का उपयोग करके डेटा डेटा को बाहर निकालना। 3. क्यूनीफॉर्म का उपयोग करके ओसीआर (ऑप्टिकल कैरेक्टर रिकॉग्निशन) करना 4. पता किए गए बैक में प्रवेश करना Hocr2pdf का उपयोग करके पीडीएफ फाइल 5. pdftk का उपयोग करके फ़ाइलों को एक साथ मर्ज करना। ( ubuntuforums.org/showthread.php?t=1456756 से उद्धृत )
टॉमी

3
pdfsandwich

यह स्थापित करने पर टेसरैक्ट और अन्य को लोड करता है। यह एक आसान एक कदम समाधान है और इसे स्क्रिप्ट किया जा सकता है। यह hocr2pdfएक सादा पाठ पीडीएफ बनाने के लिए उपयोग कर सकता है , लेकिन इसके प्राइम टाइम के लिए तैयार नहीं ... अभी तक। डिफ़ॉल्ट tesseract का उपयोग करता है और एक "सैंडविच" पीडीएफ बनाता है: छवि + पाठ नीचे।

एम्बेडेड इमेज को कमांड के साथ हटाया जा सकता है जैसे:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

लेकिन पाठ छिपा हुआ है, इसलिए यह एक रिक्त पृष्ठ जैसा दिखता है।

पीडीएफ को लोड करना LibreOffice Drawपाठ को उजागर करता है और छवि को मैन्युअल रूप से हटाया जा सकता है।


क्या हम ImageMagick / Ghostscript सुरक्षा के मुद्दों के लिए अग्रणी के बारे में क्या करते हैं not authorizedमें त्रुटियों identify-im6.q16: इस तरह के लिए अधिकृत नहीं: - परिवर्तित ImageMagick aaaa@ त्रुटि / constitute.c / ReadImage / 453 - स्टैक ओवरफ़्लो
nealmcb

1

Ubuntu 14.04 पर @AB द्वारा सुझाए गए ग्राफ़िकल इंटरफ़ेस के लिए आपको निम्न का पालन करना चाहिए:

ubuntu 14.04 पर ocr tesseract

या वैसे भी, रिपॉजिटरी सूची में जोड़ें:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

इससे पहले कि यह काम करे:

sudo apt-get install gimagereader


-1

अपनी पीडीएफ फाइल में, प्रत्येक पृष्ठ को छवि के रूप में राइट-क्लिक करें और सहेजें (या कुछ उपकरण खोजें जो सभी पृष्ठों को स्वचालित रूप से करता है)

उबंटू सॉफ्टवेयर सेंटर खोलें। टेसरैक्ट की खोज करें। यह आपको YAGF मिलेगा, जिसे आपको इंस्टॉल करना चाहिए। YAGF में, फ़ाइल पर क्लिक करें -> छवि खोलें और अपनी छवि लोड करें। इसके बाद File -> Recognize पर क्लिक करें।

मैंने अपने पहले परीक्षण में 100% सटीकता हासिल की थी।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.