स्कैन किए गए दस्तावेज़ से पाठ निकालें


10

क्या स्कैन किए गए दस्तावेज़ से पाठ का चयन करने का कोई तरीका है? (आउटपुट एक jpg है) उबंटू इस तरह के कार्य को करने के लिए किस तरह के टूल की पेशकश करता है? क्या कोई लाइब्रेरी है जो मैं एक ही काम करने के लिए पूर्व-निर्मित सॉफ़्टवेयर बायनेरिज़ के बजाय उपयोग कर सकता हूं? मैंने इसे एक .pdf में बदलने की कोशिश की और इमेजमाजिक का उपयोग करके पाठ का चयन करने की कोशिश की, जो स्पष्ट रूप से काम नहीं करता था।

जवाबों:


9

इस प्रकार की प्रक्रिया का नाम OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) है। यह लिंक कुछ विकल्प भी प्रदान करता है:

gocr - एक कमांड लाइन OCR
fuzzyocr - छवि अनुलग्नकों की जांच करने के लिए स्पैमसैसिन प्लगइन
libhocr0 - हिब्रू ओसीआर
ओकराड - ऑप्टिकल कैरेक्टर रिकग्निशन प्रोग्राम
ocrfeeder - दस्तावेज़ लेआउट विश्लेषण और ऑप्टिकल चरित्र पहचान प्रणाली
ओक्रोपस - दस्तावेज़ विश्लेषण और ओसीआर प्रणाली
Tesseract-ओसीआर
क्यूनिफॉर्म - बहु-भाषा ओसीआर प्रणाली 

और यह बताता है कि टेसरैक्ट ( बहुत पुराना ट्यूटोरियल ) इनमें से बेहतर विकल्प है। कोशिश करके देखें।


3

कुछ समय पहले उबंटू में विभिन्न ओसीआर पैकेजों का मूल्यांकन किया, तो पाया कि टेसरैक्ट उनमें से कम से कम बुरा था (लेकिन काफी खराब है), और ओसीआर के लिए एक आवरण स्क्रिप्ट लिखी थी (चूंकि टेसेरैक्ट एफआईएफएफ जैसे अस्पष्ट इनपुट स्वरूपों को चाहता है)। यहाँ मेरा है ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

GIMP के साथ छवियों को रोकना (थ्रेसहोल्ड टूल का उपयोग करके B & W में कनवर्ट करना) से बहुत मदद मिली।

मुझे उम्मीद है कि तब से चीजें बेहतर हुई हैं। मैंने हाल ही में ब्लॉग पोस्ट में OCR फीडर का नाम देखा है, मैं इसे आज़माऊँगा।


2

Tesseract-ocr पैकेज कमांड लाइन है। यदि आप एक GUI के साथ एक कार्यक्रम चाहते हैं, तो मैं "gscan2pdf" का उपयोग करता हूं और आप इसे Ubuntu सॉफ्टवेयर सेंटर में पा सकते हैं।

Gscan2pdf में आपको बस इतना करना है कि शीर्ष के पास थोड़ा स्कैन आइकन पर क्लिक करें। मुझे लगता है कि यह आपको दो या तीन विकल्प देता है, GOCR जो बहुत अच्छा नहीं है, और Tesseract जो admirably काम करता है। Tesseract चुनें और इस बिंदु से आपको उपयुक्त टैब पर क्लिक करने की आवश्यकता है ताकि आप रिज़ॉल्यूशन सेटिंग्स पा सकें। आपका सबसे अच्छा दांव 300 या 600 है और टेसरैक्ट अच्छा प्रदर्शन करेगा।

खराब स्कैन किए गए, टेढ़े, या पुराने दस्तावेज़ अच्छे से नहीं बदलते हैं। सौभाग्य!

PS .. मैं पढ़ता रहता हूँ कि Tesseract केवल TIFF चित्र पढ़ सकता है। यह मेरे लिए मामला नहीं है। मैं जेपीजी या पीएनजी भी आयात कर सकता हूं।

PPS ... संपादन के लिए क्षमा करें! आप सॉफ़्टवेयर केंद्र में OCRFeeder भी आज़मा सकते हैं। मैं अभी तक यह कोशिश करने के लिए अभी तक है।



0

मेरे पास लिनक्स मिंट 17.2 x32 दालचीनी है। संभवतः ये चरण Ubuntu 14.04 x32 में भी काम करेंगे।

  1. Tesseract OCR sudo स्थापित करें ay-get install -y tesseract-ocr tesseract-ocr-eng आप अतिरिक्त पैकेज स्थापित करके अन्य भाषाओं को जोड़ सकते हैं। यह स्क्रीनशॉट Synaptic से है: Synaptic में Tesseract भाषा संकुल

टेसरैक्ट का उपयोग करना

विकल्प 1 - कमांडलाइन ओपन टर्मिनल द्वारा, फिर उस फोल्डर पर जाएं जहां आप इमेज फाइल रखते हैं (jpg, png) और रन कमांड:

ए) सभी छवि फ़ाइलों को पाठ में बदलने के लिए

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

सभी पाठ फ़ाइलों को एक में मिलाने के लिए, एक कमांड चलाएँ cat *.txt >> all.txt

बी) सभी छवि फ़ाइलों को हॉर्मो फाइलों में बदलने के लिए (फ़ायरफ़ॉक्स के साथ खुला)

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

विकल्प 2 - जीयूआई द्वारा

a) gImageReader स्थापित करें, और इसका उपयोग करें

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

बी) दूसरा आवेदन VietOCR है। वास्तविक संस्करण 4.0 है, इसलिए VietOCR-4.0.zip डाउनलोड करें

फ़ाइलों को अनपैक करें और जावा द्वारा VietOCR.jar खोलें:

जावा द्वारा ओपन VietOCR यदि आपके पास जावा स्थापित नहीं है, तो आप इसे रिपॉजिटरी से इंस्टॉल कर सकते हैं या आप आधिकारिक ओरेकल जावा को स्थापित कर सकते हैं। Ubuntu 14.04 में Oracle जावा 8 स्थापित करने के लिए चरण

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

मैं VietOCR की सलाह देता हूं, क्योंकि यह आपको OCR पीडीएफ फाइल करने की अनुमति देता है, बल्क रूपांतरण भी एक विकल्प है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.