कुछ पीडीएफ फाइलें कचरा (" मोज़िबेक ") पैदा करती हैं जब आप पाठ की प्रतिलिपि बनाते हैं (भले ही वे ठीक करते हैं)। इससे उन्हें खोज करना असंभव है (आप जो भी खोजते हैं वह कचरे से मेल नहीं खाएगा)।
किसी को भी एक आसान समाधान है?
उदाहरण:
- TEAC टीवी मैनुअल EU2816STF (विंडोज और मैक दोनों पर एडोब रीडर में समस्याओं के ऊपर पैदावार, लेकिन पूर्वावलोकन में एक मैक में ठीक काम करता है)
- लीडटेक विनस्टेड पीवीआर 2 मैनुअल (एफ़टीपी लिंक; मैक में पूर्वावलोकन में समस्याएँ भी हैं)
- स्वान टीवी ट्यूनर कार्ड मैनुअल (एफ़टीपी लिंक; एक मैक पर पूर्वावलोकन में भी समस्याएं हैं)
- फ़ोनडेस्क लाइसेंस समझौता (अब- विचलित DTMS से )
- मैक्वेरी IFP त्रैमासिक निधि समीक्षा
- BAN-TACS लघु व्यवसाय पुस्तिका (संग्रहीत संस्करण)
- ईस्टरफेस्ट 2004 फ्लायर (आर्काइव से भी)
मैं विंडोज के लिए एडोब रीडर (नवीनतम संस्करण) का उपयोग कर रहा हूं - शायद एक वैकल्पिक दर्शक मदद कर सकता है? मैं विंडोज के लिए एक नि: शुल्क समाधान की तलाश कर रहा हूं। ओपन-सोर्स और भी बेहतर होगा।
संपादित करें: मल्टीवैलेंट एक्स्ट्रेक्ट टेक्स्ट टूल के डॉक्स में इस बात का एक अच्छा सारांश है कि चीजें गलत क्यों हो सकती हैं, इसमें शामिल हैं: (उद्धृत दस्तावेज अंतिम संशोधित जनवरी 2006)
- पाठ में यूनिकोड मैपिंग नहीं हो सकती है। पीडीएफ टाइप 3 फोंट में अक्सर नहीं होता है, और टीएक्स डीवीआई में ऐसे वर्ण होते हैं जिनमें यूनिकोड समतुल्य नहीं होते हैं।
- यूनिकोड एन्कोडिंग छोटी गाड़ी हो सकती है। ओपन ऑफ़िस कुछ पात्रों को एक ही यूनिकोड में मैप करता है, जिसके परिणामस्वरूप अप्रेंटिस लेटर ड्रॉपिंग और दोहरीकरण होता है।
मुझे लगता है कि इन मामलों में अंतिम समाधान प्रत्येक ग्लिफ़ को ओसीआर करने के लिए एक फ़ॉन्ट में होगा कि यह वास्तव में क्या चरित्र है। ध्यान दें कि यह एक शोर स्कैन किए गए दस्तावेज़ को प्राप्त करने से आसान होगा क्योंकि ग्लिफ़ का सटीक आकार उपलब्ध है (अनंत संकल्प पर क्योंकि यह "वेक्टर" छवि है)।
clipbrd.exe
( mydigitallife.info/2008/11/06/… देखें ) आप क्लिपबोर्ड पर क्या देख सकते हैं। वह आपको क्या देता है?