गैर-मानक चरित्र एन्कोडिंग के साथ PDF खोजें


19

कुछ पीडीएफ फाइलें कचरा (" मोज़िबेक ") पैदा करती हैं जब आप पाठ की प्रतिलिपि बनाते हैं (भले ही वे ठीक करते हैं)। इससे उन्हें खोज करना असंभव है (आप जो भी खोजते हैं वह कचरे से मेल नहीं खाएगा)।

किसी को भी एक आसान समाधान है?

उदाहरण:

  1. TEAC टीवी मैनुअल EU2816STF (विंडोज और मैक दोनों पर एडोब रीडर में समस्याओं के ऊपर पैदावार, लेकिन पूर्वावलोकन में एक मैक में ठीक काम करता है)
  2. लीडटेक विनस्टेड पीवीआर 2 मैनुअल (एफ़टीपी लिंक; मैक में पूर्वावलोकन में समस्याएँ भी हैं)
  3. स्वान टीवी ट्यूनर कार्ड मैनुअल (एफ़टीपी लिंक; एक मैक पर पूर्वावलोकन में भी समस्याएं हैं)
  4. फ़ोनडेस्क लाइसेंस समझौता (अब- विचलित DTMS से )
  5. मैक्वेरी IFP त्रैमासिक निधि समीक्षा
  6. BAN-TACS लघु व्यवसाय पुस्तिका (संग्रहीत संस्करण)
  7. ईस्टरफेस्ट 2004 फ्लायर (आर्काइव से भी)

मैं विंडोज के लिए एडोब रीडर (नवीनतम संस्करण) का उपयोग कर रहा हूं - शायद एक वैकल्पिक दर्शक मदद कर सकता है? मैं विंडोज के लिए एक नि: शुल्क समाधान की तलाश कर रहा हूं। ओपन-सोर्स और भी बेहतर होगा।

संपादित करें: मल्टीवैलेंट एक्स्ट्रेक्ट टेक्स्ट टूल के डॉक्स में इस बात का एक अच्छा सारांश है कि चीजें गलत क्यों हो सकती हैं, इसमें शामिल हैं: (उद्धृत दस्तावेज अंतिम संशोधित जनवरी 2006)

  • पाठ में यूनिकोड मैपिंग नहीं हो सकती है। पीडीएफ टाइप 3 फोंट में अक्सर नहीं होता है, और टीएक्स डीवीआई में ऐसे वर्ण होते हैं जिनमें यूनिकोड समतुल्य नहीं होते हैं।
  • यूनिकोड एन्कोडिंग छोटी गाड़ी हो सकती है। ओपन ऑफ़िस कुछ पात्रों को एक ही यूनिकोड में मैप करता है, जिसके परिणामस्वरूप अप्रेंटिस लेटर ड्रॉपिंग और दोहरीकरण होता है।

मुझे लगता है कि इन मामलों में अंतिम समाधान प्रत्येक ग्लिफ़ को ओसीआर करने के लिए एक फ़ॉन्ट में होगा कि यह वास्तव में क्या चरित्र है। ध्यान दें कि यह एक शोर स्कैन किए गए दस्तावेज़ को प्राप्त करने से आसान होगा क्योंकि ग्लिफ़ का सटीक आकार उपलब्ध है (अनंत संकल्प पर क्योंकि यह "वेक्टर" छवि है)।


उपयोग करना clipbrd.exe( mydigitallife.info/2008/11/06/… देखें ) आप क्लिपबोर्ड पर क्या देख सकते हैं। वह आपको क्या देता है?
अर्जन

@ अर्जन वैन बेंटम: यह मुझे वही कचरा देती है जो मुझे नोटपैड में चिपकाने पर मिलता है।
ह्यूग एलन

प्रारूप पर कोई विवरण? मैं मैक पर हूं, लेकिन मुझे लगता है कि विंडोज आपको बताएगा कि क्या कुछ एक छवि या पाठ है, और फिर पाठ के लिए शायद एन्कोडिंग के बारे में कुछ भी पता चलता है?
अर्जन

टीवी मैनुअल उदाहरण के लिए: एडोब रीडर 8.1.2 में मैक पर एक ही मुद्दा है, लेकिन मैक की पूर्वावलोकन का उपयोग करने या पाठ की खोज करने के लिए कोई समस्या नहीं है। इसके दस्तावेज़ गुण फोंट के लिए "एन्कोडिंग: कस्टम" दिखाते हैं (देखें img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png )। अन्य पीडीएफ दस्तावेज़ "एनकोडिंग: एएनएसआई" या "रोमन" जैसी चीजों को दिखाते हैं और मैक पर एडोब रीडर में कोई समस्या नहीं है (जैसे adobe.com/education/pdf/type_primer.pdf पैदावार img.skitch.com/20131718-tbyjrny9bsg684eqhr7b3f7fb.png )।
अर्जन

1
इसके अलावा, pdftextonline.com टीवी मैनुअल और न ही फोनडिस दस्तावेज़ से पाठ नहीं ला सकता है (दूसरों की कोशिश नहीं की)। लेकिन जीमेल पर भेजना और फिर HTML के रूप में देखना टीवी मैनुअल के लिए काम करता है (जैसे पूर्वावलोकन में उस दस्तावेज़ के साथ कोई समस्या नहीं है) ...
अर्जन

जवाबों:


3

फॉक्सिट रीडर , शायद?

क्या यह की कीमत के लिए, मैं सिर्फ पीडीएफ आप पर मैक ओएस एक्स 10.6.2 सफारी 4.0.4 के साथ करने के लिए जोड़ा जाँच की और जब तक वहाँ है कुछ Engrish , पीडीएफ यह किसी भी परदे पर "कचरा" बिना दोषरहित बना देता है। शायद आप यूनिकोड मुद्दे (मैक ओएस की तुलना में विंडोज पर अधिक सामान्य) कर रहे हैं?


कचरा स्क्रीन पर नहीं है - यह क्लिपबोर्ड में है जब मैं कुछ पाठ कॉपी करता हूं। जब आप कोशिश करते हैं तो आपके लिए क्या होता है?
ह्यूज एलन

@ ह्यूग: विशेषताएं Features यह एक रिमोट नियंत्रित रंगीन टेलीविजन है। F वीएचएफ, यूएचएफ बैंड या केबल चैनलों के 100 कार्यक्रम पूर्व निर्धारित किए जा सकते हैं। 􏰃 यह केबल चैनलों को ट्यून कर सकता है। System टीवी को नियंत्रित करना उसके मेनू संचालित सिस्टम द्वारा बहुत आसान है। -इसमें बाहरी de- vices (जैसे कंप्यूटर, वीडियो, वीडियो गेम, ऑडियो सेट, इत्यादि) के लिए तीन यूरोकोनेक्टर सॉकेट हैं
एलेक्स

@ ह्यूग: बुलेट ठीक से कॉपी नहीं कर रहे हैं, लेकिन बाकी है। क्या अनुभाग / पृष्ठ / अनुच्छेद विशेष रूप से आप के साथ एक समस्या है, और मैं कोशिश करूँगा?
एलेक्स

यह सब। मैं विंडोज के लिए एडोब रीडर का उपयोग कर रहा हूं। मैंने अभी नवीनतम संस्करण को अपडेट किया है जो मदद नहीं करता है। जानकारी के लिए +1 धन्यवाद। मुझे लगता है कि Adobe Reader में OSX समकक्ष द्वारा बग साझा नहीं किया गया है।
ह्यूज एलन

4
मैंने फॉक्सिट रीडर की कोशिश की और यह एक ही मुद्दा है। इसका इंस्टॉलर भी वास्तव में घुसपैठिया है, एक टूलबार स्थापित करना चाहता है, अपने मुखपृष्ठ आदि को संशोधित करें :(
ह्यूग एलन

3

इसके आस-पास प्राप्त करने का सबसे सरल तरीका फ़ाइल को Google Chrome के हाल के संस्करण में अंतर्निहित पीडीएफ रीडिंग प्लगइन के साथ खोलना है । फिर आप टेक्स्ट खोजने के लिए क्रोम की खोज सुविधा का उपयोग कर सकते हैं, और कॉपी-पेस्ट कार्य सही ढंग से कर सकते हैं।


2

के लिए टीवी मैनुअल उदाहरण : किसी Mac Adobe Reader 8.1.2 में एक ही मुद्दा है, लेकिन कोई मैक की पूर्वावलोकन का उपयोग कर नकल या पाठ खोज करने के लिए समस्याओं। इसके अलावा, इसे जीमेल खाते में भेजना और फिर "व्यू" चुनना और फिर "प्लेन एचटीएमएल" पाठ को प्रकट करना है। लेकिन एडोब रीडर इसे पसंद नहीं करता है।

इसके दस्तावेज़ गुण फ़ॉन्ट के लिए "एन्कोडिंग: कस्टम" दिखाते हैं। एक अन्य दस्तावेज़ "एन्कोडिंग: एएनएसआई" या "रोमन" जैसी चीजें दिखाता है, और न तो पूर्वावलोकन में कोई समस्या है और न ही मैक पर एडोब रीडर:

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

हालाँकि, लीडटेक और स्वान दोनों उदाहरण मैक पर पूर्वावलोकन के साथ-साथ जीमेल में भी समस्याएं देते हैं, और दोनों "एनकोडिंग: आइडेंटिटी-एच" दिखाते हैं। Phonedisc परीक्षण भी विफल रहता है, "एन्कोडिंग: कस्टम" के साथ।

भ्रमित करना, और सुसंगत नहीं है, लेकिन कुछ एडोब फोरम पर मुझे अभी तक एक और उदाहरण के लिए निम्नलिखित स्पष्टीकरण मिला है जो "एन्कोडिंग: कस्टम" (जोर) दिखाता है:

पीडीएफ के अंदर देखने के बाद यह पता चलता है कि कोई भी प्रयोग करने योग्य एन्कोडिंग जानकारी मौजूद नहीं है (न तो पीडीएफ में और न ही एम्बेडेड फ़ॉन्ट डेटा में) दस्तावेज़ में पृष्ठों पर प्रदर्शित किए गए वर्ण / ग्लिफ़ का अर्थ प्राप्त करने के लिए।

फोंट वास्तविक सभी एम्बेडेड हैं, लेकिन एक तरह से सभी एन्कोडिंग जानकारी हटा दी गई है। यह एक पीडीएफ का एक विशिष्ट उदाहरण है, जो पीडीएफ कल्पना के साथ पूरी तरह से आज्ञाकारी है, लेकिन जहां पीडीएफ बनाने की प्रक्रिया के दौरान इसमें पाठ के अर्थ के बारे में महत्वपूर्ण जानकारी को फेंक दिया गया है। जहाँ तक मैं बता सकता हूँ एन्कोडिंग जानकारी को पुनर्प्राप्त करना बहुत मुश्किल होगा।

यह व्याख्या नहीं करता है कि मैक का पूर्वावलोकन (और जाहिर तौर पर इन्फिक्स के रूप में भी) कुछ उदाहरणों को संभाल सकता है जब एडोब रीडर विफल रहता है, यहां तक ​​कि "एन्कोडिंग: कस्टम" के साथ भी। हो सकता है कि पूर्वावलोकन में कोई समस्या न हो जब सटीक फ़ॉन्ट कंप्यूटर पर मौजूद हो? या शायद यह सिर्फ एक एन्कोडिंग का अनुमान लगा रहा है, जो कुछ दस्तावेजों के लिए काम करता है, लेकिन सभी के लिए नहीं?

जो भी इसके कारण हैं: यदि Google डॉक्स या जीमेल से गुजरना काम नहीं करता है, तो शायद सबसे आसान (लेकिन आसान से दूर) वर्कअराउंड वास्तव में TIFF के रूप में सहेजना है और फिर OCR करना है । एवरनोट जैसी सेवाएं इसे मक्खी पर कर सकती हैं (यह छवियों पर ओसीआर करता है; मुझे संदेह है कि यह पीडीएफ पर ओसीआर करेगा)।


-1

फ़ाइल 1 का डाउनलोड मेरे लिए विफल रहा, फ़ाइल 2 मैं एक तेज़ और ओपन-सोर्स पीडीएफ-दर्शक, एक्सपीडीएफ के साथ खोल सकता था। मुझे लगता है कि यह रूपों को संभाल नहीं सकता है, लेकिन शुद्ध पाठ और आलेख के लिए मैं इसे अपने तेज स्टार्टअप समय के लिए पसंद करता हूं।


1
प्रश्न पीडीएफ को "खोलने" या "तेज स्टार्टअप समय के साथ खोलने" के बारे में नहीं था। इसके बजाय, यह रेंडर किए गए पृष्ठों से टेक्स्ट स्निपेट्स को कॉपी करने में असमर्थ होने के बारे में था। तो आपका जवाब शायद एक अच्छा है, लेकिन इस सवाल पर फिट नहीं बैठता है।
कर्ट फ़ेफ़ेले

-2

दुर्भाग्य से यह मदद नहीं की जा सकती। पीडीएफ दस्तावेजों में वास्तव में कोई अक्षर नहीं होते हैं, लेकिन उनमें अक्षरों के आकार होते हैं। दूसरे शब्दों में, एक पत्र को पढ़ने और स्क्रीन पर इसे पढ़ने के बजाय एडोब रीडर किसी अन्य पीडीएफ पढ़ने के आवेदन के रूप में बस वेक्टर ग्राफिक्स को फ़ाइल में एन्कोड किया जाएगा।

हालांकि, कुछ पीडीएफ पाठक सॉफ्टवेयर के साथ आते हैं जो पाठ की मान्यता का उपयोग करके आकृति का विश्लेषण करने और पाठ को पुनर्प्राप्त करने की अनुमति देता है। यह उसी तरह काम करता है जैसे कि आपने मुद्रित टेक्स्ट के एक पेपर को स्कैन किया और इसे वापस पाठ में बदलने के लिए ABBYY FineReader जैसे सॉफ्टवेयर का उपयोग किया, लेकिन वेक्टर ड्रॉइंग के असीम रूप से उच्च गुणवत्ता के कारण आमतौर पर स्कैन किए गए दस्तावेजों की तुलना में बहुत बेहतर होते हैं।

कुछ दस्तावेजों को एडोब रीडर को मूर्ख बनाकर पाठ में परिवर्तित होने से बचाया जा सकता है। उदाहरण के लिए अक्षरों को इस तरह से कई अतिव्यापी आकृतियों में खींचा जा सकता है कि नेत्रहीन वे अभी भी समान दिखेंगे, जबकि पाठ मान्यता सॉफ्टवेयर पाठ को पहचानने में विफल होगा। आपका दस्तावेज़ ऐसी सुरक्षा का एक उदाहरण है।

एक तरीका यह होगा कि डॉक्यूमेंट को एक इमेज में प्रिंट किया जाए और टेक्स्ट रिकग्निशन सॉफ्टवेयर को मान्यता दी जाए। छवि के लिए उच्च संकल्प गुणवत्ता में सुधार करेगा। हालांकि यह तरीका वास्तव में आसान नहीं है।


2
पीडीएफ दस्तावेजों में वास्तव में कोई अक्षर नहीं होता है - यह अधिकांश गैर-स्कैन किए गए दस्तावेजों के लिए सच नहीं है; देख en.wikipedia.org/wiki/Portable_Document_Format#Text
अर्जन

धन्यवाद। रोचक जानकारी। मेरे पास हमेशा यह है कि पीडीएफ में पाठ के बारे में कोई जानकारी नहीं है। फिर भी ऐसा लगता है कि अलेक्जेंडर द्वारा उपलब्ध कराए गए दस्तावेज़ में टेक्स्ट एम्बेडेड नहीं है। या यह भी संभव है कि जिन फ़ॉन्ट का उपयोग वहां किया गया है उनमें वर्णों की अजीब एन्कोडिंग है, अर्थात वे विशिष्ट ASCII एन्कोडिंग के अनुरूप नहीं हैं।
सेर्गेई बेलोज़ोरोव

2
अगर यह सिर्फ आकृतियाँ होतीं तो मैं पीडीएफ से पाठ की नकल कैसे कर सकता था? आप आंशिक रूप से सही हैं - यह पीडीएफ में रेखांकित नहीं है (जब तक कि यह एक स्कैन किए गए स्रोत से नहीं है), लेकिन पाठ डेटा आईएस शामिल है। हालाँकि, फोंट (आमतौर पर) भी एम्बेडेड होते हैं, जिसमें शामिल पाठ को वेक्टर-रेंडर किए जाने की अनुमति होती है।
एलेक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.