तुम सिर्फ फ़ाइल स्वरूप ((के रूप में जोनाथन बेन-Avraham द्वारा बताया परिवर्तित पाठ को खोजने योग्य बना बिना ओसीआर के माध्यम से) के साथ ठीक कर रहे हैं, इस के लिए एक आदर्श कार्य किया जाएगा convert
से ImageMagick , जीत, लिनक्स: विभिन्न प्लेटफार्मों के लिए पैकेज (उपलब्ध मैक)।
अपनी बहु-पृष्ठ TIFF फ़ाइल को कनवर्ट करने के लिए बस उस कमांड का उपयोग करें
convert multi-page.tif book.pdf
हालाँकि, आपको -compress
पैरामीटर को नियोजित करना चाहिए । यदि आपके पास 24 बिट रंगीन TIF है, तो आप LZW
(दोषरहित) या JPEG
(हानिपूर्ण) का उपयोग कर सकते हैं , जैसे
convert -compress LZW multi-page.tif book.pdf
यदि आपका TIFF काला और सफेद है (कृपया सुनिश्चित करें, यह वास्तव में केवल 1bit colordepth के साथ सहेजा गया है), मैं आमतौर पर उपयोग करता हूं -compress Fax
।
यहां 5 पृष्ठ नमूना फ़ाइल के लिए एक उदाहरण है, जिसमें कुछ पाठ हैं - संपीड़न एल्गोरिदम के बीच वास्तविक अनुपात आपकी फ़ाइल की सामग्री पर निश्चित रूप से निर्भर करता है:
24bit JPEG: 1294kB
24bit LZW: 1759kB
1bit Fax: 135kB
उस रूपांतरण के बाद आप अभी भी एक OCR टूल (जैसे Adobe Acrobat Pro) को टेक्स्ट सर्च और कॉपी करने योग्य बना सकते हैं।