मुख्य उत्तर
चूंकि मुझे एक ही तरह की नौकरी में दिलचस्पी है (हालांकि पीडीएफ फाइलों को ओसीआर करने के लिए जरूरी नहीं है, लेकिन उन्हें डीजेवीयू और फिर उन्हें ओसीआर में बदलने के लिए ), मुझे यह सवाल और जवाबों की कमी महसूस हुई (क्योंकि मुझे डीपीआई का अनुमान लगाने की जरूरत थी) पिक्सेल की संख्या के साथ छवियां और फिर आकार का उपयोग आउटपुट के रूप में pdfinfo
या अन्य चाल से किया जाता है --- यह उल्लेख नहीं करने के लिए कि पीडीएफ के अंदर की छवियों में भिन्न घनत्व हो सकते हैं आदि)।
बहुत अधिक शोध के बाद, मैंने पाया कि आप निम्नलिखित की तरह pdfimages
(पैकेज पॉपलर-बर्तनों से ) का उपयोग कर सकते हैं :
$ pdfimages -list deptest.pdf
page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
1 0 image 100 100 gray 1 1 image no 9 0 53 53 169B 14%
2 1 image 100 100 gray 1 1 ccitt no [inline] 53 53 698B 56%
नोटिस x-ppi
और y-ppi
ऊपर लिस्टिंग पर। यह उस प्रारूप को भी सूचीबद्ध करता है जिसमें छवियों को पीडीएफ में संग्रहीत किया जाता है, जो शांत होता है (कभी-कभी, यह जेबीआईजी 2 है, कभी-कभी जेपी 2 डी 2 आदि)।
नोट: deptest.pdf
ऊपर प्रयोग की गई फाइल रिपॉजिटरी सेpdfsizeopt
उपलब्ध है ।
असली क्रिया
उसके बाद, आप बस अपने आप से छवियों को निकाल सकते हैं pdfimages
या उपयोग कर सकते हैं pdftoppm
(से भी poppler-utils
) कई पृष्ठों में पूरे पृष्ठों को प्रस्तुत करने के लिए जिन्हें आप पसंद कर सकते हैं (जैसे, टिफ़, साथ स्कैनिंग के लिए tesseract
)।
आप कुछ इस तरह से उपयोग कर सकते हैं (यह मानते हुए कि आपने एक निर्देशिका बनाई है, imgs
जहां आप अपनी छवियां डालेंगे):
pdfimages -png Faraway-PRA.pdf imgs/prefix
फ़ाइलें निर्देशिका के अंदर बनाया जाएगा imgs
के साथ शुरू नाम के साथ prefix
के रूप में,:
$ ls
prefix-000.png prefix-047.png prefix-094.png prefix-141.png
prefix-001.png prefix-048.png prefix-095.png prefix-142.png
prefix-002.png prefix-049.png prefix-096.png prefix-143.png
prefix-003.png prefix-050.png prefix-097.png prefix-144.png
(...)
फिर, आप किसी भी सर्जरी को कर सकते हैं जिसे आप अपने जैसे scantailor
या जो भी उपकरण पसंद करते हैं उसके साथ फिट देखते हैं।
अधिक प्रत्यक्ष उत्तर
यदि आप केवल एक पीडीएफ फाइल OCR करना चाहते हैं, तो आप एक प्रोग्राम का उपयोग कर सकते हैं जो अच्छी तरह से बनाए रखा गया है और पहले से ही पैक किया गया है, जिसका नाम है ocrmypdf ।
x-ppi
(DPI में x रिज़ॉल्यूशन) औरy-ppi
(DPI में y रिज़ॉल्यूशन) पुराने संस्करणों पर नहीं दिखाए गए हैं,pdfimages
जो उदाहरण के लिए, Ubuntu 14.04 के साथ आते हैं। उबंटू 18.04 पर क्या उपलब्ध है, हालांकि, इन मूल्यों को शामिल करता है।pdfimages -v
मेरी उबंटू 18.04 मशीन शो पर मैं संस्करण 0.62.0, जो है करता है इन सुविधाओं की है।