गैर-मानक चरित्र एन्कोडिंग के साथ PDF खोजें

19

कुछ पीडीएफ फाइलें कचरा (" मोज़िबेक ") पैदा करती हैं जब आप पाठ की प्रतिलिपि बनाते हैं (भले ही वे ठीक करते हैं)। इससे उन्हें खोज करना असंभव है (आप जो भी खोजते हैं वह कचरे से मेल नहीं खाएगा)।

किसी को भी एक आसान समाधान है?

उदाहरण:

TEAC टीवी मैनुअल EU2816STF (विंडोज और मैक दोनों पर एडोब रीडर में समस्याओं के ऊपर पैदावार, लेकिन पूर्वावलोकन में एक मैक में ठीक काम करता है)
लीडटेक विनस्टेड पीवीआर 2 मैनुअल (एफ़टीपी लिंक; मैक में पूर्वावलोकन में समस्याएँ भी हैं)
स्वान टीवी ट्यूनर कार्ड मैनुअल (एफ़टीपी लिंक; एक मैक पर पूर्वावलोकन में भी समस्याएं हैं)
फ़ोनडेस्क लाइसेंस समझौता (अब- विचलित DTMS से )
मैक्वेरी IFP त्रैमासिक निधि समीक्षा
BAN-TACS लघु व्यवसाय पुस्तिका (संग्रहीत संस्करण)
ईस्टरफेस्ट 2004 फ्लायर (आर्काइव से भी)

मैं विंडोज के लिए एडोब रीडर (नवीनतम संस्करण) का उपयोग कर रहा हूं - शायद एक वैकल्पिक दर्शक मदद कर सकता है? मैं विंडोज के लिए एक नि: शुल्क समाधान की तलाश कर रहा हूं। ओपन-सोर्स और भी बेहतर होगा।

संपादित करें: मल्टीवैलेंट एक्स्ट्रेक्ट टेक्स्ट टूल के डॉक्स में इस बात का एक अच्छा सारांश है कि चीजें गलत क्यों हो सकती हैं, इसमें शामिल हैं: (उद्धृत दस्तावेज अंतिम संशोधित जनवरी 2006)

पाठ में यूनिकोड मैपिंग नहीं हो सकती है। पीडीएफ टाइप 3 फोंट में अक्सर नहीं होता है, और टीएक्स डीवीआई में ऐसे वर्ण होते हैं जिनमें यूनिकोड समतुल्य नहीं होते हैं।

यूनिकोड एन्कोडिंग छोटी गाड़ी हो सकती है। ओपन ऑफ़िस कुछ पात्रों को एक ही यूनिकोड में मैप करता है, जिसके परिणामस्वरूप अप्रेंटिस लेटर ड्रॉपिंग और दोहरीकरण होता है।

मुझे लगता है कि इन मामलों में अंतिम समाधान प्रत्येक ग्लिफ़ को ओसीआर करने के लिए एक फ़ॉन्ट में होगा कि यह वास्तव में क्या चरित्र है। ध्यान दें कि यह एक शोर स्कैन किए गए दस्तावेज़ को प्राप्त करने से आसान होगा क्योंकि ग्लिफ़ का सटीक आकार उपलब्ध है (अनंत संकल्प पर क्योंकि यह "वेक्टर" छवि है)।

pdf search character-encoding

— ह्यूग एलन
स्रोत

उपयोग करना clipbrd.exe( mydigitallife.info/2008/11/06/… देखें ) आप क्लिपबोर्ड पर क्या देख सकते हैं। वह आपको क्या देता है?

— अर्जन

@ अर्जन वैन बेंटम: यह मुझे वही कचरा देती है जो मुझे नोटपैड में चिपकाने पर मिलता है।

— ह्यूग एलन

प्रारूप पर कोई विवरण? मैं मैक पर हूं, लेकिन मुझे लगता है कि विंडोज आपको बताएगा कि क्या कुछ एक छवि या पाठ है, और फिर पाठ के लिए शायद एन्कोडिंग के बारे में कुछ भी पता चलता है?

— अर्जन

टीवी मैनुअल उदाहरण के लिए: एडोब रीडर 8.1.2 में मैक पर एक ही मुद्दा है, लेकिन मैक की पूर्वावलोकन का उपयोग करने या पाठ की खोज करने के लिए कोई समस्या नहीं है। इसके दस्तावेज़ गुण फोंट के लिए "एन्कोडिंग: कस्टम" दिखाते हैं (देखें img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png )। अन्य पीडीएफ दस्तावेज़ "एनकोडिंग: एएनएसआई" या "रोमन" जैसी चीजों को दिखाते हैं और मैक पर एडोब रीडर में कोई समस्या नहीं है (जैसे adobe.com/education/pdf/type_primer.pdf पैदावार img.skitch.com/20131718-tbyjrny9bsg684eqhr7b3f7fb.png )।

— अर्जन

1

इसके अलावा, pdftextonline.com टीवी मैनुअल और न ही फोनडिस दस्तावेज़ से पाठ नहीं ला सकता है (दूसरों की कोशिश नहीं की)। लेकिन जीमेल पर भेजना और फिर HTML के रूप में देखना टीवी मैनुअल के लिए काम करता है (जैसे पूर्वावलोकन में उस दस्तावेज़ के साथ कोई समस्या नहीं है) ...

— अर्जन

3

फॉक्सिट रीडर , शायद?

क्या यह की कीमत के लिए, मैं सिर्फ पीडीएफ आप पर मैक ओएस एक्स 10.6.2 सफारी 4.0.4 के साथ करने के लिए जोड़ा जाँच की और जब तक वहाँ है कुछ Engrish , पीडीएफ यह किसी भी परदे पर "कचरा" बिना दोषरहित बना देता है। शायद आप यूनिकोड मुद्दे (मैक ओएस की तुलना में विंडोज पर अधिक सामान्य) कर रहे हैं?

— एलेक्स
स्रोत

कचरा स्क्रीन पर नहीं है - यह क्लिपबोर्ड में है जब मैं कुछ पाठ कॉपी करता हूं। जब आप कोशिश करते हैं तो आपके लिए क्या होता है?

— ह्यूज एलन

@ ह्यूग: विशेषताएं Features यह एक रिमोट नियंत्रित रंगीन टेलीविजन है। F वीएचएफ, यूएचएफ बैंड या केबल चैनलों के 100 कार्यक्रम पूर्व निर्धारित किए जा सकते हैं। 􏰃 यह केबल चैनलों को ट्यून कर सकता है। System टीवी को नियंत्रित करना उसके मेनू संचालित सिस्टम द्वारा बहुत आसान है। -इसमें बाहरी de- vices (जैसे कंप्यूटर, वीडियो, वीडियो गेम, ऑडियो सेट, इत्यादि) के लिए तीन यूरोकोनेक्टर सॉकेट हैं

— एलेक्स

@ ह्यूग: बुलेट ठीक से कॉपी नहीं कर रहे हैं, लेकिन बाकी है। क्या अनुभाग / पृष्ठ / अनुच्छेद विशेष रूप से आप के साथ एक समस्या है, और मैं कोशिश करूँगा?

— एलेक्स

यह सब। मैं विंडोज के लिए एडोब रीडर का उपयोग कर रहा हूं। मैंने अभी नवीनतम संस्करण को अपडेट किया है जो मदद नहीं करता है। जानकारी के लिए +1 धन्यवाद। मुझे लगता है कि Adobe Reader में OSX समकक्ष द्वारा बग साझा नहीं किया गया है।

— ह्यूज एलन

4

मैंने फॉक्सिट रीडर की कोशिश की और यह एक ही मुद्दा है। इसका इंस्टॉलर भी वास्तव में घुसपैठिया है, एक टूलबार स्थापित करना चाहता है, अपने मुखपृष्ठ आदि को संशोधित करें :(

— ह्यूग एलन

3

इसके आस-पास प्राप्त करने का सबसे सरल तरीका फ़ाइल को Google Chrome के हाल के संस्करण में अंतर्निहित पीडीएफ रीडिंग प्लगइन के साथ खोलना है । फिर आप टेक्स्ट खोजने के लिए क्रोम की खोज सुविधा का उपयोग कर सकते हैं, और कॉपी-पेस्ट कार्य सही ढंग से कर सकते हैं।

— acatalept
स्रोत

2

के लिए टीवी मैनुअल उदाहरण : किसी Mac Adobe Reader 8.1.2 में एक ही मुद्दा है, लेकिन कोई मैक की पूर्वावलोकन का उपयोग कर नकल या पाठ खोज करने के लिए समस्याओं। इसके अलावा, इसे जीमेल खाते में भेजना और फिर "व्यू" चुनना और फिर "प्लेन एचटीएमएल" पाठ को प्रकट करना है। लेकिन एडोब रीडर इसे पसंद नहीं करता है।

इसके दस्तावेज़ गुण फ़ॉन्ट के लिए "एन्कोडिंग: कस्टम" दिखाते हैं। एक अन्य दस्तावेज़ "एन्कोडिंग: एएनएसआई" या "रोमन" जैसी चीजें दिखाता है, और न तो पूर्वावलोकन में कोई समस्या है और न ही मैक पर एडोब रीडर:

यहाँ छवि विवरण दर्ज करें

हालाँकि, लीडटेक और स्वान दोनों उदाहरण मैक पर पूर्वावलोकन के साथ-साथ जीमेल में भी समस्याएं देते हैं, और दोनों "एनकोडिंग: आइडेंटिटी-एच" दिखाते हैं। Phonedisc परीक्षण भी विफल रहता है, "एन्कोडिंग: कस्टम" के साथ।

भ्रमित करना, और सुसंगत नहीं है, लेकिन कुछ एडोब फोरम पर मुझे अभी तक एक और उदाहरण के लिए निम्नलिखित स्पष्टीकरण मिला है जो "एन्कोडिंग: कस्टम" (जोर) दिखाता है:

पीडीएफ के अंदर देखने के बाद यह पता चलता है कि कोई भी प्रयोग करने योग्य एन्कोडिंग जानकारी मौजूद नहीं है (न तो पीडीएफ में और न ही एम्बेडेड फ़ॉन्ट डेटा में) दस्तावेज़ में पृष्ठों पर प्रदर्शित किए गए वर्ण / ग्लिफ़ का अर्थ प्राप्त करने के लिए।

फोंट वास्तविक सभी एम्बेडेड हैं, लेकिन एक तरह से सभी एन्कोडिंग जानकारी हटा दी गई है। यह एक पीडीएफ का एक विशिष्ट उदाहरण है, जो पीडीएफ कल्पना के साथ पूरी तरह से आज्ञाकारी है, लेकिन जहां पीडीएफ बनाने की प्रक्रिया के दौरान इसमें पाठ के अर्थ के बारे में महत्वपूर्ण जानकारी को फेंक दिया गया है। जहाँ तक मैं बता सकता हूँ एन्कोडिंग जानकारी को पुनर्प्राप्त करना बहुत मुश्किल होगा।

यह व्याख्या नहीं करता है कि मैक का पूर्वावलोकन (और जाहिर तौर पर इन्फिक्स के रूप में भी) कुछ उदाहरणों को संभाल सकता है जब एडोब रीडर विफल रहता है, यहां तक कि "एन्कोडिंग: कस्टम" के साथ भी। हो सकता है कि पूर्वावलोकन में कोई समस्या न हो जब सटीक फ़ॉन्ट कंप्यूटर पर मौजूद हो? या शायद यह सिर्फ एक एन्कोडिंग का अनुमान लगा रहा है, जो कुछ दस्तावेजों के लिए काम करता है, लेकिन सभी के लिए नहीं?

जो भी इसके कारण हैं: यदि Google डॉक्स या जीमेल से गुजरना काम नहीं करता है, तो शायद सबसे आसान (लेकिन आसान से दूर) वर्कअराउंड वास्तव में TIFF के रूप में सहेजना है और फिर OCR करना है । एवरनोट जैसी सेवाएं इसे मक्खी पर कर सकती हैं (यह छवियों पर ओसीआर करता है; मुझे संदेह है कि यह पीडीएफ पर ओसीआर करेगा)।

— अर्जन
स्रोत

-1

फ़ाइल 1 का डाउनलोड मेरे लिए विफल रहा, फ़ाइल 2 मैं एक तेज़ और ओपन-सोर्स पीडीएफ-दर्शक, एक्सपीडीएफ के साथ खोल सकता था। मुझे लगता है कि यह रूपों को संभाल नहीं सकता है, लेकिन शुद्ध पाठ और आलेख के लिए मैं इसे अपने तेज स्टार्टअप समय के लिए पसंद करता हूं।

— अज्ञात उपयोगकर्ता
स्रोत

1

प्रश्न पीडीएफ को "खोलने" या "तेज स्टार्टअप समय के साथ खोलने" के बारे में नहीं था। इसके बजाय, यह रेंडर किए गए पृष्ठों से टेक्स्ट स्निपेट्स को कॉपी करने में असमर्थ होने के बारे में था। तो आपका जवाब शायद एक अच्छा है, लेकिन इस सवाल पर फिट नहीं बैठता है।

— कर्ट फ़ेफ़ेले

-2

दुर्भाग्य से यह मदद नहीं की जा सकती। पीडीएफ दस्तावेजों में वास्तव में कोई अक्षर नहीं होते हैं, लेकिन उनमें अक्षरों के आकार होते हैं। दूसरे शब्दों में, एक पत्र को पढ़ने और स्क्रीन पर इसे पढ़ने के बजाय एडोब रीडर किसी अन्य पीडीएफ पढ़ने के आवेदन के रूप में बस वेक्टर ग्राफिक्स को फ़ाइल में एन्कोड किया जाएगा।

हालांकि, कुछ पीडीएफ पाठक सॉफ्टवेयर के साथ आते हैं जो पाठ की मान्यता का उपयोग करके आकृति का विश्लेषण करने और पाठ को पुनर्प्राप्त करने की अनुमति देता है। यह उसी तरह काम करता है जैसे कि आपने मुद्रित टेक्स्ट के एक पेपर को स्कैन किया और इसे वापस पाठ में बदलने के लिए ABBYY FineReader जैसे सॉफ्टवेयर का उपयोग किया, लेकिन वेक्टर ड्रॉइंग के असीम रूप से उच्च गुणवत्ता के कारण आमतौर पर स्कैन किए गए दस्तावेजों की तुलना में बहुत बेहतर होते हैं।

कुछ दस्तावेजों को एडोब रीडर को मूर्ख बनाकर पाठ में परिवर्तित होने से बचाया जा सकता है। उदाहरण के लिए अक्षरों को इस तरह से कई अतिव्यापी आकृतियों में खींचा जा सकता है कि नेत्रहीन वे अभी भी समान दिखेंगे, जबकि पाठ मान्यता सॉफ्टवेयर पाठ को पहचानने में विफल होगा। आपका दस्तावेज़ ऐसी सुरक्षा का एक उदाहरण है।

एक तरीका यह होगा कि डॉक्यूमेंट को एक इमेज में प्रिंट किया जाए और टेक्स्ट रिकग्निशन सॉफ्टवेयर को मान्यता दी जाए। छवि के लिए उच्च संकल्प गुणवत्ता में सुधार करेगा। हालांकि यह तरीका वास्तव में आसान नहीं है।

— सर्गी बेलोज़ोरोव
स्रोत

2

पीडीएफ दस्तावेजों में वास्तव में कोई अक्षर नहीं होता है - यह अधिकांश गैर-स्कैन किए गए दस्तावेजों के लिए सच नहीं है; देख en.wikipedia.org/wiki/Portable_Document_Format#Text

— अर्जन

धन्यवाद। रोचक जानकारी। मेरे पास हमेशा यह है कि पीडीएफ में पाठ के बारे में कोई जानकारी नहीं है। फिर भी ऐसा लगता है कि अलेक्जेंडर द्वारा उपलब्ध कराए गए दस्तावेज़ में टेक्स्ट एम्बेडेड नहीं है। या यह भी संभव है कि जिन फ़ॉन्ट का उपयोग वहां किया गया है उनमें वर्णों की अजीब एन्कोडिंग है, अर्थात वे विशिष्ट ASCII एन्कोडिंग के अनुरूप नहीं हैं।

— सेर्गेई बेलोज़ोरोव

2

अगर यह सिर्फ आकृतियाँ होतीं तो मैं पीडीएफ से पाठ की नकल कैसे कर सकता था? आप आंशिक रूप से सही हैं - यह पीडीएफ में रेखांकित नहीं है (जब तक कि यह एक स्कैन किए गए स्रोत से नहीं है), लेकिन पाठ डेटा आईएस शामिल है। हालाँकि, फोंट (आमतौर पर) भी एम्बेडेड होते हैं, जिसमें शामिल पाठ को वेक्टर-रेंडर किए जाने की अनुमति होती है।

— एलेक्स