मेरे पास पीडीएफ में कई स्कैन किए गए दस्तावेज़ हैं और मैं उन्हें खोजना चाहता हूं। मैं उसे कैसे कर सकता हूँ?
अनिवार्य रूप से मुझे पीडीएफ को ओसीआर करना होगा और फिर निकाले गए पाठ को एक नए पीडीएफ में वापस मिलाना होगा। मैंने अनजाने में कई अलग-अलग समाधानों की कोशिश की है ( एक पीडीएफ में ओसीआर जानकारी जोड़ने में पाए गए लोगों सहित )।
- pdfocr (जो मुझे यह मुद्दा देता है: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (जिनमें से सॉफ़्टवेयर केंद्र कहता है कि यह एक खराब पैकेज है और मुझे इसे इंस्टॉल नहीं करना चाहिए)
- OCRfeeder (सॉफ्टवेयर सेंटर में) अच्छी तरह से odt को एक्सपोर्ट करता है, लेकिन PDF में एक्सपोर्ट करने पर प्रतिक्रिया नहीं करता है।
- Gscan2pdf इस चर्चा में बताए अनुसार सभी काले (लेकिन खोज योग्य) छवि को निर्यात करता है ।
- मुझे नहीं लगता कि Pdfxchange दर्शक 500 से अधिक पेजों पर फाइलों पर उड़ने पर ocr काम कर सकता है।
क्या कोई सॉफ्टवेयर पैकेज है जिससे मैं अनजान हूं? या एक स्क्रिप्ट जो ऐसा करती है?
pdf2searchablepdf
। यह पर निर्भर करता है tesseract
। यह अच्छा काम करता है। सुपर आसान उपयोग करने के लिए। यहाँ देखें। askubuntu.com/a/1187881/327339