मेरे पास लिनक्स मिंट 17.2 x32 दालचीनी है। संभवतः ये चरण Ubuntu 14.04 x32 में भी काम करेंगे।
- Tesseract OCR sudo स्थापित करें ay-get install -y tesseract-ocr tesseract-ocr-eng आप अतिरिक्त पैकेज स्थापित करके अन्य भाषाओं को जोड़ सकते हैं। यह स्क्रीनशॉट Synaptic से है:
Synaptic में Tesseract भाषा संकुल
टेसरैक्ट का उपयोग करना
विकल्प 1 - कमांडलाइन ओपन टर्मिनल द्वारा, फिर उस फोल्डर पर जाएं जहां आप इमेज फाइल रखते हैं (jpg, png) और रन कमांड:
ए) सभी छवि फ़ाइलों को पाठ में बदलने के लिए
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done
सभी पाठ फ़ाइलों को एक में मिलाने के लिए, एक कमांड चलाएँ cat *.txt >> all.txt
बी) सभी छवि फ़ाइलों को हॉर्मो फाइलों में बदलने के लिए (फ़ायरफ़ॉक्स के साथ खुला)
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done
विकल्प 2 - जीयूआई द्वारा
a) gImageReader स्थापित करें, और इसका उपयोग करें
sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader
बी) दूसरा आवेदन VietOCR है। वास्तविक संस्करण 4.0 है, इसलिए VietOCR-4.0.zip डाउनलोड करें
फ़ाइलों को अनपैक करें और जावा द्वारा VietOCR.jar खोलें:
जावा द्वारा ओपन VietOCR
यदि आपके पास जावा स्थापित नहीं है, तो आप इसे रिपॉजिटरी से इंस्टॉल कर सकते हैं या आप आधिकारिक ओरेकल जावा को स्थापित कर सकते हैं। Ubuntu 14.04 में Oracle जावा 8 स्थापित करने के लिए चरण
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default
मैं VietOCR की सलाह देता हूं, क्योंकि यह आपको OCR पीडीएफ फाइल करने की अनुमति देता है, बल्क रूपांतरण भी एक विकल्प है।