डीजेवीयू को पीडीएफ में बदलना


39

मैं डीजेवीयू दस्तावेज़ को एक पीडीएफ दस्तावेज़ में बदलना चाहता हूं, पाठ परत और छवियों को अलग करना और संरक्षित करना जबकि डीजेवीयू से संरचना को रखना भी । मैं इसे उबंटू में कैसे कर सकता हूं?

(तब मैं ePub / Mobi में बदलने के लिए कैलिबर का उपयोग करूंगा , इसलिए यदि इस पूरी प्रक्रिया के लिए एक कैलिबर प्लग-इन है जो मेरे लिए एकदम सही होगा!)

नोट 1: एवियन से मुद्रण, डीजेव्यू से निर्यात करना, या पैकेज ddjvu का उपयोग करके कुछ भी , पर्याप्त समाधान नहीं हैं क्योंकि वे पाठ परत को छोड़ देते हैं, केवल छवियों को बचाते हैं।

Note2: DJVULibre का उपयोग केवल पाठ परत निकालने के लिए लगता है और चित्र नहीं निकाले जाते हैं । इसी तरह, "मैन्युअल रूप से" पाठ की प्रतिलिपि बनाना दस्तावेज़ संरचना और चित्रों दोनों को खो देता है।

जवाबों:


37

विधि 1

बस DJView का उपयोग करें और PDF के रूप में निर्यात करें

  1. गोटो सिनैप्टिक पैकेज मैनेजर
  2. DJview4 स्थापित करें
  3. डीजेव्यू चलाएं (एप्लिकेशन - ग्राफिक्स - डीजे व्यू 4)
  4. अपना .djvu दस्तावेज़ खोलें
  5. : मेनू - निर्यात के रूप में: पीडीएफ

विधि 2

Evj में djvu फ़ाइल खोलें।
प्रिंट> फ़ाइल
परिवर्तन में .ps से .pdf पर क्लिक करें और प्रिंट पर क्लिक करें

विधि 3

  1. गोटो सिनैप्टिक पैकेज मैनेजर
  2. इंस्टॉल करें

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. गोटो टर्मिनल और लिखें

     sudo apt-get install libtiff-tools
    
  4. उस निर्देशिका को गोटो करें जहाँ djvu फ़ाइल मौजूद है। सही माउस बटन पर क्लिक करें। गोटो "टर्मिनल में खोलें" विकल्प। इस पर क्लिक करें। एक टर्मिनल खुलेगा।

  5. उस टर्मिनल में लिखें

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

विधि 4

पीडीएफ कन्वर्टर के लिए एक ऑनलाइन कन्वर्टर DjVu भी है


@Ashu क्या आपको यकीन है कि यह चित्रों को पुनः प्राप्त करता है?
हाईड

हाँ विधि 1 और 2 ने मेरे लिए काम किया। 3 और 4 के लिए प्रयास नहीं किया
आशु

@ अशु क्या यह तस्वीरें निकाल रहा है या बस पूरे पृष्ठ की नकल कर रहा है? (क्या इसका कोई मतलब है?)
hayd

क्या आपने कोई तरीका आजमाया? इसे आज़माएँ और देखें कि क्या यह काम करता है
Ashu

2
यह (चित्र या पाठ को पुनः प्राप्त नहीं) करता है।
हाईड

17

यहाँ एक तरीका है, जिसके लिए कुछ सामान्य उपकरणों की आवश्यकता नहीं होगी:

  1. ocrodjvu
  2. pdfbeads , कि इसकी अपनी आवश्यकताएं हैं जो Google द्वारा पाई जा सकती हैं

हम DjVu फ़ाइल से छिपी हुई पाठ परत को निकालने के लिए djvu2hocrकमांड ( ocrodjvuपैकेज से) का उपयोग कर सकते हैं (यह कोई ओसीआर या समान नहीं करता है, यह सिर्फ ज्यामिति के साथ पाठ परत को निकालता है), अर्थात:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed हस्तक्षेप आउटपुट hOCR में वर्ग के नाम को सही करता है (जो कि केवल सरल HTML फ़ाइल है)

अब हम DjVu पेज को TIFF फॉर्मेट में निकालते हैं:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

ताकि हम वर्क फोल्डर में इन फाइल को समाप्त करें:

sample.djvu
pg10.html
pg10.tif

यह वह जगह है जहाँ pdfbeadsखेलने में आता है, और हम सरल निष्पादन करते हैं:

pdfbeads -o pg10.pdf

तब यह निफ्टी प्रोग्राम इस फ़ोल्डर के अंदर मौजूद सभी चीजों का ध्यान रखता है (HTML और TIFF फाइलें एक ही आधार नाम से) और कुछ उप-उत्पादों के साथ आउटपुट पीडीएफ फाइल का उत्पादन करता है:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

जो इनपुट DjVu फ़ाइल के समान है और अंदर पाठ परत है:

यहाँ छवि विवरण दर्ज करें

टिप्पणियाँ सारांश:

नीचे दी गई लम्बी टिप्पणियां DjVu दस्तावेज़ पृष्ठ से अलग-अलग ऑब्जेक्ट के रूप में छोटी छवियों का प्रतिनिधित्व करने पर चर्चा करती हैं, जो आसानी से संभव नहीं है क्योंकि DjVu दस्तावेज़ पृष्ठ वैकल्पिक टेक्स्ट परत के साथ केवल एक ही छवि है, जिसमें अलग-अलग वस्तुओं के रूप में छोटी छवियों के बारे में कोई "जानकारी" नहीं है। यदि DjVu दस्तावेज़ में रंगीन छवियां हैं, तो उन्हें आमतौर पर पृष्ठभूमि परत पर रखा जाएगा; इस स्थिति में उपयोगकर्ता पूरे कैनवास के बजाय केवल छवियों को आउटपुट करने के लिए ( ddjvuकेवल बैकग्राउंड लेयर) और imagemagick(ऑटो-क्रॉप) जैसे उपकरणों का लाभ उठा सकता है , लेकिन पीडीएफ आउटपुट बनाने के लिए इसे स्वचालित नहीं किया जा सकता है

एक और सैनर, लेकिन धीमी दृष्टिकोण नियमित ओसीआर जीयूआई उपकरण का उपयोग है। gscan2pdf(> 1.0) लिनक्स पीसी के लिए संभावित उम्मीदवार के रूप में सुझाव दिया गया है


क्या मैं यह सोचने में सही हूं कि यह व्यक्तिगत चित्र डेटा नहीं निकालता है, लेकिन केवल पूरे पृष्ठ की छवि है?
hayd

जब आप DjVu फ़ाइल संरचना का संदर्भ लेते हैं, तो "व्यक्तिगत चित्र डेटा" से आपका क्या अभिप्राय है?
zetah

चाहे वह दस्तावेज़ के चित्रों को पीडीएफ के ऊपर रखी गई छोटी छवियों के रूप में काट सकता है (उदाहरण के लिए वे HTML पर निर्यात कर सकते हैं)
15

DjVu फ़ाइल संरचना में ऐसी कोई परिभाषा नहीं है। मूल DjVu दस्तावेज़ में ऊपर की छवि को अग्रभूमि परत / मुखौटा पर वर्ण छवि के साथ "रखा" गया है और अलग पाठ परत है जिसे समझाया गया था। यदि DjVu दस्तावेज़ में रंगीन छवि है, तो उन्हें पूरे पृष्ठ पर पृष्ठभूमि परत पर रखा जाएगा (सामान्य यौगिक DjVu फ़ाइल में)। हालांकि यह समझ में आता है कि आप उम्मीद कर सकते हैं कि DjVu दस्तावेज़ पृष्ठ में छवियां अलग-अलग ऑब्जेक्ट हैं जो वे नहीं हैं - DjVU दस्तावेज़ पृष्ठ को वैकल्पिक पाठ परत के साथ एकल छवि के रूप में देखें, यह मूल रूप से यही है।
zetah

1
@zetah - टिप्पणियों में आपके द्वारा दी गई अतिरिक्त जानकारी को वास्तव में उत्तर में जोड़ा जाना चाहिए क्योंकि यह संरचना में तस्वीर लगाने के लिए मूल्यवान जानकारी प्रदान करती है और निकालने पर आपको क्या उम्मीद होगी।
जीवाश्म

4

नहीं है djvu2pdf लेकिन यह Ghostscript पर निर्भर करता है, तो यह एक और मुद्रण विकल्प हो सकता है। मैं अभी भी सुझाव देता हूं कि आप इसे एक रूप दें, यदि मैं इसे श्रेय दे रहा हूं तो यह अधिक चतुर है।

यह रिपोज में नहीं है, लेकिन आप निर्माताओं की साइट से एक डिबेट डाउनलोड कर सकते हैं: http : //0x2a.at/s/projects/djvu2pdf

** रेपो के बाहर से चीजें डाउनलोड / स्थापित करने के बारे में अनिवार्य सूचना यहाँ डालें **


1
मुझे डर है कि djvu2pdf उपयोग करता हूँ ddjvu पीडीएफ, जो छवियों का निर्यात करने के लिए निर्यात करने के लिए बिना पाठ।
Hayd

4

DJVULibre का उपयोग करके , कोई पाठ परत को terminalकमांड के माध्यम से निकाल सकता है :

djvutxt myfile.djvu > myfile-ocr.txt या djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(दोनों एक ही काम करते हैं, और यहां पाए गए थे )

स्वरूपण के लिए कुछ प्रयासों की आवश्यकता होती है (क्योंकि कई प्रतीकों को ठीक से परिवर्तित नहीं किया जाता है) और चित्रों को पुनर्प्राप्त नहीं किया जाता है


यह डीजेवीयू प्रारूप में चित्र-कम पुस्तकों को परिवर्तित करने के लिए अच्छा है, लेकिन चित्रों के साथ दस्तावेजों के लिए नहीं। इस समय मेरे लिए यह वर्तमान समाधान है, और केवल एक ही पाठ को निकालने के लिए। स्वरूपण और चित्रों को संरक्षित करने का एक तरीका बहुत पसंद किया जाएगा!
Hayd

0

http://www.djvu-pdf.com/ - इस वेबसाइट का उपयोग करके आप djvu को pdf में बदल सकते हैं।


मैंने पहले ही उस वेबसाइट को पोस्ट कर दिया है
Ashu

यह एक नकली साइट लगती है। मुझे यह संदेश रूपांतरण के बाद मिला: मुझे क्षमा करें, आप उस फ़ाइल को डाउनलोड नहीं कर सकते।
कोरव

0

सबसे आसान तरीका: djvu को आयात करने के लिए gscan2pdf का उपयोग करें, फिर इसे Tesseract के साथ OCR करें, और अंत में इसे PDF के रूप में सहेजें। पीडीएफ में OCR'd टेक्स्ट मूल djvu से थोड़ा अलग हो सकता है, और रूपांतरण में थोड़ा समय लग सकता है, लेकिन यह तरीका एक बिना दिमाग वाला है और यह काम करता है।


1
नमस्ते, इसे और अधिक उपयोगी बनाने के लिए आप gscan2pdf और tesseract प्राप्त करने और उपयोग करने के बारे में थोड़ा और विवरण दे सकते हैं।
NGRhodes

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.