लिनक्स के लिए स्कैन-टू-पीडीएफ सॉफ्टवेयर?


18

मेरे पास एक वर्कफ़्लो है जिससे मैं एक Fujitsu ScanSnap S500 दस्तावेज़ स्कैनर का उपयोग करके खोज योग्य PDF में पेपर दस्तावेज़ों को स्कैन करता हूं । मैं बंडल किए गए सॉफ़्टवेयर का बहुत बड़ा प्रशंसक नहीं हूं, लेकिन इसका उपयोग करना आसान है: शीर्ष पर कागज का एक ढेर रखें, हरे बटन को धक्का दें और एक खोज योग्य पीडीएफ सामने आए।

अब, मैं लिनक्स (उबंटू 10.10) पर कुछ ऐसा ही करना चाहूंगा। स्कैनर बॉक्स के बाहर समर्थित है।

मैं देखा है gscan2pdfऔर XSane:

  • XSane शक्तिशाली लग रहा है, लेकिन वास्तव में एक कार्यप्रवाह समाधान के रूप में उपयुक्त नहीं है;
  • gscan2pdf "बटन को पुश करें, पीडीएफ प्राप्त करें" आदर्श के करीब थोड़ा सा है, लेकिन अभी भी वहां 100% नहीं है।

कोई भी अन्य सॉफ्टवेयर जिसे आप सुझा सकते हैं (मुफ्त या अन्यथा)?


मैं पीडीएफ-कप का उपयोग करता हूं, लेकिन यह एक छवि है जो खोजे जाने योग्य पाठ नहीं है
रोबॉटहूमन

1
Gscan2pdf के साथ '100% नहीं' क्या है?
डिजिटएक्सपी

@digitxp मैं किसी भी उत्पाद के लिए मुद्दों, पसंद और नापसंद के कपड़े धोने की सूची के साथ सवाल को अव्यवस्थित नहीं करना चाहता था। हालाँकि, जब से आप पूछते हैं, gscan2pdfमेरे पास 'अनपेपरिंग' के साथ अजीब तरह की कलाकृतियाँ थीं, ओसीआर ज्यादातर अनुपयोगी था (कुछ इंजन दूसरों की तुलना में बेहतर) और कुल मिलाकर यह मूल समाधान के रूप में सुव्यवस्थित नहीं था। किसी भी तरह, मेरे सवाल का सार यह देखना है कि और क्या है ताकि मैं विभिन्न समाधानों की कोशिश कर सकूं और देख सकूं कि मेरे लिए क्या अच्छा है।
एनपीई

@digitxp मैंने अपनी पिछली टिप्पणी को फिर से पढ़ा है और यह बहुत नकारात्मक लगता है। ऐसा इरादा नहीं था। gscan2pdfवास्तव में मैं जो देख रहा हूं उसके काफी करीब है, लेकिन ऐसे क्षेत्र हैं जिनमें मूल समाधान की तुलना में दुख की कमी है।
एनपीई

जवाबों:


18

यहाँ कुछ चीजें हैं जो मुझे इस साल की शुरुआत में शोध करते समय मिलीं। क्षमा करें, मैं अपनी सीमित रेटिंग के कारण एक से अधिक हाइपरलिंक पोस्ट नहीं कर सकता, इसलिए आपको लिंक के लिए Google पर आना होगा।

gscan2pdf

एक बहुत अच्छा GUI सिस्टम जो बैकएंड के लिए विभिन्न OCR इंजन का उपयोग कर सकता है। यह संभवतः आपके एक-स्पर्श समाधान (और पहले से ही उल्लेख किए गए अंक) से मिल जाएगा।

Tesseract OCR इंजन

Gscan2pdf के साथ इस्तेमाल किया जा सकता है।

Ocropus

मैं ओस्ट्रोपस के साथ बहुत दूर नहीं मिला क्योंकि यह व्यापक प्रशिक्षण के बिना पाठ को नहीं पहचान रहा था। यह शायद किताबों के लिए वास्तव में अच्छा होगा, लेकिन बिल और इस तरह से मेरे लिए अच्छा काम नहीं किया। YMMV।

क्यूनेइफ़ॉर्म

मुझे क्यूनिफॉर्म के साथ सबसे अच्छी सफलता मिली और निम्नलिखित वर्कफ़्लो के समान कमांडिंग स्क्रिप्ट द्वारा खोज योग्य पीडीएफ बनाने में सक्षम था:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

आपको सटीक पैकेज स्थापित करने की भी आवश्यकता होगी।

OCR'ing PDF के Cuniform और hocr2pdf के उपयोग के लिए विभिन्न ओपन-सोर्स प्रोजेक्ट :

  • WatchOCR
  • Archivista

मुझे पता लगाने दो, जो तुमने पाया है!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.