यहाँ एक तरीका है, जिसके लिए कुछ सामान्य उपकरणों की आवश्यकता नहीं होगी:
- ocrodjvu
- pdfbeads , कि इसकी अपनी आवश्यकताएं हैं जो Google द्वारा पाई जा सकती हैं
हम DjVu फ़ाइल से छिपी हुई पाठ परत को निकालने के लिए djvu2hocr
कमांड ( ocrodjvu
पैकेज से) का उपयोग कर सकते हैं (यह कोई ओसीआर या समान नहीं करता है, यह सिर्फ ज्यामिति के साथ पाठ परत को निकालता है), अर्थात:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
हस्तक्षेप आउटपुट hOCR में वर्ग के नाम को सही करता है (जो कि केवल सरल HTML फ़ाइल है)
अब हम DjVu पेज को TIFF फॉर्मेट में निकालते हैं:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
ताकि हम वर्क फोल्डर में इन फाइल को समाप्त करें:
sample.djvu
pg10.html
pg10.tif
यह वह जगह है जहाँ pdfbeads
खेलने में आता है, और हम सरल निष्पादन करते हैं:
pdfbeads -o pg10.pdf
तब यह निफ्टी प्रोग्राम इस फ़ोल्डर के अंदर मौजूद सभी चीजों का ध्यान रखता है (HTML और TIFF फाइलें एक ही आधार नाम से) और कुछ उप-उत्पादों के साथ आउटपुट पीडीएफ फाइल का उत्पादन करता है:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
जो इनपुट DjVu फ़ाइल के समान है और अंदर पाठ परत है:
टिप्पणियाँ सारांश:
नीचे दी गई लम्बी टिप्पणियां DjVu दस्तावेज़ पृष्ठ से अलग-अलग ऑब्जेक्ट के रूप में छोटी छवियों का प्रतिनिधित्व करने पर चर्चा करती हैं, जो आसानी से संभव नहीं है क्योंकि DjVu दस्तावेज़ पृष्ठ वैकल्पिक टेक्स्ट परत के साथ केवल एक ही छवि है, जिसमें अलग-अलग वस्तुओं के रूप में छोटी छवियों के बारे में कोई "जानकारी" नहीं है। यदि DjVu दस्तावेज़ में रंगीन छवियां हैं, तो उन्हें आमतौर पर पृष्ठभूमि परत पर रखा जाएगा; इस स्थिति में उपयोगकर्ता पूरे कैनवास के बजाय केवल छवियों को आउटपुट करने के लिए ( ddjvu
केवल बैकग्राउंड लेयर) और imagemagick
(ऑटो-क्रॉप) जैसे उपकरणों का लाभ उठा सकता है , लेकिन पीडीएफ आउटपुट बनाने के लिए इसे स्वचालित नहीं किया जा सकता है
एक और सैनर, लेकिन धीमी दृष्टिकोण नियमित ओसीआर जीयूआई उपकरण का उपयोग है। gscan2pdf
(> 1.0) लिनक्स पीसी के लिए संभावित उम्मीदवार के रूप में सुझाव दिया गया है