कैसे पता करें कि पाठ पीडीएफ में खोज योग्य क्यों नहीं है (और इसे खोज योग्य बनाएं)


4

मेरे पास एक पीडीएफ लेख है (मेरे द्वारा नहीं बनाया गया है)। हालाँकि, मैं पीडीएफ में पाठ की खोज नहीं कर सकता। सभी पीडीएफ दर्शकों ने जिन शब्दों के लिए शून्य परिणाम देने की कोशिश की है, वे स्पष्ट रूप से वहाँ हैं। मैंने Adobe Acrobat Professional 8, SumatraPDF और Google Chrome के साथ प्रयास किया है।

मुझे कैसे पता चलेगा कि दस्तावेज़ खोज योग्य क्यों नहीं है?

जिन चीजों की मैंने जाँच की है:

  • PDFproducer को 'pdftopdf' और PDf संस्करण को 1.3 के रूप में रिपोर्ट किया जाता है। हालाँकि, ऐसा लगता है कि MSWord या OpenOffice (लेकिन नहीं * TEX) जैसी किसी चीज़ में बनाया गया है।
  • यह निश्चित रूप से स्कैन किया गया दस्तावेज़ नहीं है, क्योंकि सभी ज़ूम स्तरों पर फ़ॉन्ट कुरकुरा-स्पष्ट है, और पाठ चयन करने योग्य है।
  • यदि मैं सुरक्षा सेटिंग्स ( ctrl- Dएडोब एक्रोबेट में) को देखता हूं , तो सब कुछ अनुमत है (जैसे मुद्रण, प्रतिलिपि, ...)।
  • मेरे खोज विकल्पों में 'मैच का मामला' नहीं है
  • मैं इसे खोज योग्य दस्तावेज़ में एक्रोबैट के 'मान्यता प्राप्त पाठ का उपयोग करके ओसीआर का उपयोग करके' में बदल नहीं सकता क्योंकि यह रिपोर्ट करता है: ' इस पृष्ठ में रेंडर करने योग्य पाठ शामिल हैं '।

तो, DPF के खोज योग्य न होने का और क्या कारण हो सकता है? और इसे कैसे टेक्स्ट-खोज योग्य बनाया जाए?


दिलचस्प है, क्या उस दस्तावेज़ में कोई संवेदनशील डेटा है? यदि आप इसे साझा नहीं कर सकते हैं?
स्पारकोट

@ सर्पोट: मुझे यकीन नहीं है कि मैं दस्तावेज़ साझा कर सकता हूं, इसलिए मैं नहीं बल्कि पसंद करता हूं। हालाँकि मैं समझता हूँ कि इससे समस्या निवारण में बहुत मदद मिलेगी।
राबार्शस्की

क्या आपने इसे एवरनोट पर अपलोड करने और यह जांचने की कोशिश की है कि क्या वे इसे खोज योग्य बना सकते हैं? AFAIK उनके पास उस कार्य के लिए एक अच्छा OCR इंजन है।
ChaosCakeCoder

जवाबों:


7
  • इसमें एक कस्टम फॉन्ट एन्कोडिंग हो सकती है जो कोड पॉइंट्स को वर्णों को असाइन करती है जो कि ASCII या UTF-8 / Unicode जैसे स्थापित एन्कोडिंग के साथ असंगत है।

  • यह वर्णों को व्यक्तिगत रूप से अनुक्रम से बाहर कर सकता है

  • हो सकता है कि यह चरित्र पथों तक चपटा हो

Https://stackoverflow.com/questions/12703387/pdf-font-encoding देखें ।
और https://stackoverflow.com/questions/4523283/how-do-you-debug-pdf-files

पाठ को खोज योग्य बनाने के लिए, मूल स्रोत पर वापस जाने का सबसे अच्छा तरीका हो सकता है (उदाहरण के लिए कोई Word दस्तावेज़) और PDF का उत्पादन करने के लिए एक अलग प्रक्रिया का उपयोग करें। वैकल्पिक रूप से आप अपने वर्तमान पीडीएफ को बिटमैप के रूप में प्रस्तुत करने की कोशिश कर सकते हैं और फिर ओसीआर का उपयोग कर सकते हैं, लेकिन यह थकाऊ होगा और खराब परिणाम देगा।


आह, एन्कोडिंग वास्तव में मुद्दा लगता है। जब मैं पेस्ट टेक्स्ट कॉपी करने की कोशिश करता हूं, तो मुझे कचरा मिलता है। और एक्रोबैट में फ़ॉन्ट टैब प्रत्येक सूचीबद्ध फ़ॉन्ट 'एन्कोडिंग: कस्टम' के लिए कहता है
Rabarberski

1

मुझे इस समस्या का एक रास्ता मिल गया। मैंने उपकरण -> दस्तावेज़ पाठ को संपादित किया, फिर प्रत्येक पृष्ठ के लिए, मैंने कंट्रोल-ए (सभी का चयन करें) को हिट किया, फिर राइट-क्लिक किया और गुणों में चला गया, और फ़ॉन्ट को कुछ और में बदल दिया। ऐसा करने के बाद, पाठ खोज योग्य था और मैं पाठ की प्रतिलिपि बना सकता था!


मुझे लगता है कि संपादित दस्तावेज़ पाठ विकल्प केवल एक्रोबेट के भुगतान किए गए संस्करण में उपलब्ध है।
Bürgi

शायद - मूल पोस्टर में एक्रोबेट प्रोफेशनल 8. है जो इसे होना चाहिए। यह अप्रोच (फॉन्ट बदलना) अन्य टूल्स के साथ काम कर सकता है।
डॉन

0

मुझे वही समस्या हो रही थी, और निराशा में, जवाब खोजने के लिए गुगली की। यह पता चला है कि मेरे लिए, समस्या बस यह थी कि मैं पीडीएफ देखने और खोजने के लिए अपने iMac पर पूर्वावलोकन का उपयोग कर रहा था। ज्यादातर मामलों में, खोज पूर्वावलोकन में काम करती है। लेकिन Google पुस्तकों से डाउनलोड की गई बड़ी पुस्तक के लिए, यह नहीं था।

क्या काम था बस एडोब रीडर में पीडीएफ खोल रहा था। (दूह, क्या अवधारणा है, मुझे पता है।) अब मैं खोज कर सकता हूं। यह शायद मैक के साथ सभी के लिए काम नहीं करेगा, लेकिन यह किसी की मदद कर सकता है।


"मैंने Adobe Acrobat Professional 8 के साथ प्रयास किया है" ओपी ने कहा। कृपया प्रश्न को ध्यान से पढ़ें।
NetwOrchestration

कृपया प्रश्न को फिर से ध्यान से पढ़ें। आपका उत्तर मूल प्रश्न का उत्तर नहीं देता है
DavidPostill

0

एडिट / वरीयताओं पर जाएं - वरीयताओं के बाएं ओर स्क्रीन से 'खोज' चुनें - फिर 'कैश कैश सामग्री' - ठीक का चयन करें और फिर से दस्तावेज़ खोलें


0

इसलिए बहुत सी चीजों की कोशिश करने के बाद भी काम नहीं किया। यहाँ बताया गया है कि वास्तव में मैंने ऐसा कैसे किया है:

  1. अपने आप को वर्ड कनवर्टर या कुछ करने के लिए एक पीडीएफ खोजें। (मेरी सलाह है कि https://www.online-convert.com/ )

  2. उससे पहले BUT कन्वर्ट करने के लिए आवश्यक चरणों का पालन करें--

  3. उस बटन को ढूंढें जो 'ऑप्टिकल कैरेक्टर रिकग्निशन' जैसा कुछ कहता है और उस पर क्लिक करें

  4. अपनी फ़ाइल को कनवर्ट करें और आपको सुनहरा होना चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.