एक पीडीएफ से ओसीआर कैसे निकालें?


12

मैं कुछ समय से Google खोज रहा था लेकिन अपने प्रश्न का उत्तर नहीं पा रहा था।

मेरे पास एक दस्तावेज़ में ओसीआर की अवांछित परतें हैं जिन्हें मैंने हाल ही में एडोब एक्रोबैट के साथ स्कैन किया है। यह ठीक से OCRed नहीं किया गया है, और मैं कुछ जानकारी को फिर से बनाना चाहता हूं, लेकिन OCR मिटने के लिए वांछित जानकारी बना रहा है। मैंने फ़ाइलों को TIF में बदल दिया, लेकिन एक (बहुत) महत्वपूर्ण गुणवत्ता नुकसान देखा। मैंने सुना है कि किसी अन्य पीडीएफ पर मुद्रण या तो पाठ को रखता है या छवि गुणवत्ता को कम करता है।

मैं ASAP इस मुद्दे को हल करने में किसी भी मदद की सराहना करता हूं।

धन्यवाद।

जवाबों:


4

एक्रोबेट प्रो डीसी में, उपयुक्त कमांड "हिडन इंफॉर्मेशन निकालें" है, जो "प्रोटेक्ट" और "रेडैक्ट" दोनों टूल्स के माध्यम से उपलब्ध है।

कमांड चलाने पर, यह केवल छिपी हुई जानकारी को खोजता है लेकिन दस्तावेज़ को नहीं बदलता है। फिर आपको एक्रोबैट को बताना होगा कि कौन सी जानकारी निकालनी है। इस स्थिति में, परिणाम फलक में "हिडन टेक्स्ट" चुनें, फिर निकालें बटन पर क्लिक करें और परिवर्तित दस्तावेज़ को सहेजें।


मैंने "छिपी जानकारी को हटा दें" का उपयोग किया है, लेकिन मेरे लिए किसी कारण से जो कुछ पृष्ठों पर छवि के कुछ हिस्सों को हटा देता है। हालांकि आपके उत्तर के लिए धन्यवाद।
सानू

यह सार्वभौमिक रूप से सच नहीं है। किसी तरह (शायद macOS PDFKit बग) मेरे ABBYY FineReader-OCRed पाठ दूषित हो गया, और Redact के तहत "छिपे हुए पाठ" की जाँच करना → छिपे हुए ने पाठ को बिना किसी समस्या के हटा दिया; मैं तब एक्रोबैट के भीतर ओसीआर प्रदर्शन करने के लिए एन्सेन्स स्कैन → रिकॉग्नाइज टेक्स्ट को सफलतापूर्वक उपयोग करने में सक्षम था।
निकोलस रिले

मेरे लिए समस्या यह है कि जब मैं छिपे हुए पाठ को हटा देता हूं, तब भी मैं "ClearScan" (यानी "संपादन योग्य पाठ और चित्र") के साथ OCR नहीं चला पा रहा हूं। यह अजीब है क्योंकि पाठ परत दिखाई देती है, फिर भी ओसीआर चलाने से त्रुटि पैदा होती है "एक्रोबेट मान्यता प्राप्त नहीं कर सका क्योंकि: पृष्ठ में रेंडर करने योग्य पाठ होता है।"
user1125483

1

बहुत सारे प्रयोग करने के बाद, मैंने पाया कि एडोब एक्रोबेट से एडोब पीडीएफ पर मुद्रण ओसीआर के बिना और गुणवत्ता खोए बिना दस्तावेज़ को प्रिंट करता है (पहली नज़र के रिज़ॉल्यूशन पर किसी का ध्यान नहीं जाता है)।

हालांकि, कई साइटों का दावा है कि यह काम नहीं करता है। मैंने फॉक्सिट रीडर और वननोट जैसे अन्य प्रिंटर भी आज़माए लेकिन गुणवत्ता कम हो गई। JPEG भी वही था।

कृपया ध्यान रखें कि आपका लाभ भिन्न हो सकता है।

नोट: मैं इस धागे को छोड़ रहा हूं, जो खदान से बेहतर उत्तर पाने की उम्मीद में अनुत्तरित है।


1

(एक साल पहले...)

यदि, जैसा कि आप कहते हैं, दस्तावेजों को स्कैन किया जाता है और उदाहरण के लिए वर्ड से पीडीएफ पर मुद्रित नहीं किया जाता है, तो आप आसानी से अपने एडोब के साथ हटा सकते हैं:

दस्तावेज़, परीक्षा दस्तावेज़ का चयन करें और अब आप छिपे हुए पाठ (OCR) को हटा सकते हैं।


आपके जवाब के लिए धन्यवाद। मैं जितनी जल्दी हो सके इसका परीक्षण करूंगा और आपको बता दूंगा जवाब के लिए धन्यवाद!
सानू

मुझे लगा कि मैंने पहले ही इस पर टिप्पणी कर दी है, लेकिन समस्या यह है कि मेरे पास एक्रोबैट डीसी प्रो है, और उन मेनू को हटा दिया गया है। वैसे भी आपके उत्तर के लिए धन्यवाद।
सानू

1

एक्रोबैट प्रो में: 'छिपी हुई जानकारी को हटाएं' ('संरक्षण') का उपयोग करें। सभी का चयन करें, निष्पादित करें, OCR चला गया है


1

संरक्षण के तहत एक्रोबेट एक्स में, एक सैनिटाइज्ड डॉक्यूमेंट बटन होता है जो हर चीज को हटा देता है लेकिन क्या देखा जा सकता है (OCR'd टेक्स्ट लेयर सहित), डॉक्यूमेंट को चपटा बिट मैप में परिवर्तित करना।


0

मैंने इस निशुल्क PDF Redactor को करने के लिए एक टूल बनाया । यदि आप छवि अपलोड करते हैं और बस फिर से क्लिक करें तो यह आपके पीडीएफ को समतल कर देगा और ओसीआर को हटा देगा। यदि आप चाहें तो आप दस्तावेज़ पर पुनर्वितरण चिह्न भी बना सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.