क्या उबंटू में प्रोग्राम का उपयोग करना कुछ आसान है जो कई पृष्ठों को एक पीडीएफ फाइल में सीधे स्कैन कर सकता है?
क्या उबंटू में प्रोग्राम का उपयोग करना कुछ आसान है जो कई पृष्ठों को एक पीडीएफ फाइल में सीधे स्कैन कर सकता है?
जवाबों:
एक साधारण स्कैन उपयोगिता होने का विचार, के विकास के पीछे था, अच्छी तरह से, साधारण स्कैन - 10.04 पर डिफ़ॉल्ट रूप से स्थापित स्कैनिंग टूल (एप्लिकेशन (ग्राफिक्स Scan सरल स्कैन)।
बचत करते समय बस उतने ही पृष्ठों को स्कैन करें और पीडीएफ को फाइल फॉर्मेट के रूप में चुनें।
एक और थोड़ा कम सरल प्रोग्राम जो अतिरिक्त पहचान प्रदान करता है जैसे कि टेक्स्ट रिकग्निशन gscan2pdf है , रिपॉजिटरी में भी है।
"उपयोग में आसान" उपयोगकर्ता की नज़र में है, लेकिन xsane
यह कार्यक्षमता प्रदान करता है। उस स्थान का चयन करें जहां वह दर्शक कहता है (या CTRL-M को हिट करता है), और वहां से यह पता लगाना बहुत मुश्किल नहीं होना चाहिए।
मैं xsane
तब तक उपयोग कर रहा था जब तक कि मैंने इस प्रश्न को नहीं देखा और इसके इंटरफ़ेस को सबसे कम कहने के लिए आदर्श माना, लेकिन प्रभावी था।
इस सवाल को देखने पर मैं देख रहा था और Ubuntu Lucid / Maverick रिपॉजिटरी में रहने वाले gscan2pdf पाया । यह एक ही स्कैनिंग (libsane) इंजन का उपयोग करता है लेकिन UI कहीं अधिक Gnome-ish है। अच्छे समय के लिए, प्रयास करें:
sudo apt-get install gscan2pdf
फ़ाइल का नाम बदलें myfile.jpg से साधारण स्कैन के सहेजें संवाद पर myfile.pdf पर।
Ubuntu 14.04 पर परीक्षण किया गया, सरल स्कैन 3.12.1।
यह काम करता है भले ही फ़ाइल प्रकार ड्रॉप-डाउन "पीडीएफ" नहीं दिखाता है, केवल "छवियां"। मैं इसे यूआई बग मानता हूं।
इस सुविधा पर प्रलेखित है Help > Contents
:
"इस रूप में सहेजें" संवाद बॉक्स से, समर्थित फ़ाइल प्रकारों में से एक चुनें, या "नाम" फ़ील्ड में एक्सटेंशन बदलें।
यह कहता है कि निम्नलिखित प्रारूप समर्थित हैं:
दिलचस्प तथ्य: यदि आप स्कैन प्रकार ("स्कैन" के अलावा ड्रॉपडाउन) "पाठ" में बदलते हैं, तो डिफ़ॉल्ट फ़ाइल प्रकार पीडीएफ बन जाता है।
USB स्कैनर से पृष्ठों को स्कैन करें। पीडीएफ में ओसीआर के लिए टेसरैक्ट का उपयोग करें। एक पीडीएफ में कई पृष्ठों को मिलाएं। उपयोग: scan2PDF outputfilename number_of_pages
#!/bin/bash
#scan2PDF
#Requires: tesseract 3.03 for OCR to PDF
# scanimage for scanning, I use 1.0.24
# pdfunite to merge multiple PDF into one, I use 0.26.5
#
# Use scanimage -L to get a list of devices.
# e.g. device `genesys:libusb:006:003' is a Canon LiDE 210 flatbed scanner
# then copy/paste genesys:libusb:006:003 into SCANNER below.
# play with CONTRAST to get good images
DPI=300
TESS_LANG=nor #Language that Tesseract uses for OCR
SCANNER=genesys:libusb:006:003 #My USB scanner
CONTRAST=35 #Contrast to remove paper look
FILENAME=$1 #Agrument 1,filename
PAGES=$2 #Argument 2, number of pages
re='^[0-9]+$' #Check if second argument is a number
if ! [[ ${PAGES} =~ $re ]] ; then
echo "error: Usage: $0 filename number_of_pages" >&2; exit 1
fi
SCRIPT_NAME=`basename "$0" .sh` #Directory to store temporary files
TMP_DIR=${SCRIPT_NAME}-tmp
if [ -d ${TMP_DIR} ] #Check if it exists a directory already
then
echo Error: The directory ${TMP_DIR} exists.
exit 2
fi
mkdir ${TMP_DIR} #Make and go to temp dir
cd ${TMP_DIR}
echo Starts Scanimage...
scanimage -d ${SCANNER} --format=tiff --mode Color --resolution ${DPI} -p --contrast ${CONTRAST} --batch-start=1 --batch-count=${PAGES} --batch-prompt
echo Starts Tesseract OCR
for file in *.tif #Goes through every tif file in temp dir
do
tesseract $file ${file%.tif} -l ${TESS_LANG} pdf
done
if [ "$PAGES" = "1" ] #How many pages
then
cp out1.pdf ../${FILENAME}.pdf #Only one page, just copy the PDF back
else
for file in *.pdf #More pages, merge the pages into one PDF and copy back
do
pdfuniteargs+=${file}
pdfuniteargs+=" "
done
pdfunite $pdfuniteargs ../${FILENAME}.pdf
fi
echo ${FILENAME}.pdf done
rm * #Done, clean up
cd ..
rmdir ${TMP_DIR}
आप में से उन लोगों के लिए जो चाहते हैं कि XSANE का उपयोग करें। यह बहुत शक्तिशाली है, और सहज ज्ञान युक्त एक बार जब आप प्रोग्राम में मदद> XSane डॉक्टर से जुड़े सेटअप गाइड पढ़ते हैं - यह जानने के लिए कि आप इसके साथ कितना कर सकते हैं। यह भी जांचने लायक है कि आपका SANE बैकेंड ठीक से काम नहीं कर रहा है (बहुत विशिष्ट नहीं): https://wiki.archlinux.org/index.php/SANE
यदि आप किसी फीडर से दस्तावेज़ों को स्वचालित रूप से स्कैन करना चाहते हैं, और आश्चर्य करें कि क्या XSane को पता चल जाएगा कि कब रुकना है (और बहुत जल्दी नहीं रुकना है), तो बस बाईं ओर के शीर्ष पर एक नंबर इनपुट करें (स्कैन आइकन की संख्या) जो फिट होने वाले पृष्ठों की संख्या से बड़ा है अपने फीडर में। यानी अगर आपका फीडर 10 पेज ले सकता है, तो 15 दर्ज करें (मोटाई भिन्नता के लिए खाते में)। यदि आपके पास डुप्लेक्स स्कैनर है, तो इस संख्या को दोगुना करें।
जब फीडर बाहर निकलता है, तो आपको "वार्निंग पेज: 0" कहते हुए एक हरे रंग की चेतावनी त्रिकोण के साथ एक डायलॉग बॉक्स मिलेगा। इसका मतलब यह है कि फीडर खाली है और आप डायलॉग को बंद कर सकते हैं। यदि आपने "दर्शक" या "सेव" चुना है। "XSane के शीर्ष दाईं ओर, फिर फ़ाइलें सभी होंगी - उन्हें दर्शक से बचाने के लिए याद रखें। अब आप स्कैन करने के लिए फिर से प्रेस कर सकते हैं कि आपने कहाँ छोड़ा था, उसी बिंदु से संख्या बढ़ने के साथ या आप शुरू कर सकते हैं। एक नया प्रोजेक्ट। कोई भी रिक्त पृष्ठ नहीं जोड़ा जाएगा। यदि आपने "मल्टीपेज" चुना है, तो प्रोजेक्ट डायलॉग को सभी पूर्ण स्कैन को दिखाना चाहिए और आप मल्टीप्ल पीडीएफ या टीआईएफएफ या पोस्टस्क्रिप्ट के रूप में सहेजने के लिए क्लिक कर सकते हैं।
HTH,
डीसी