एक पीडीएफ से वियतनामी पात्रों को काटना और चिपकाना


2

मैं एक पीडीएफ दस्तावेज़ से नोटपैड ++ (या कुछ भी, कुछ भी काम नहीं करता) के वियतनामी पाठ के एक गुच्छा को कॉपी / पेस्ट करने की कोशिश कर रहा हूं। चिपकाया गया पाठ स्रोत पाठ से अलग है। इसे ठीक करने का सबसे अच्छा तरीका क्या होगा?

उदाहरण के लिए:

स्रोत पाठ: (स्रोत पाठ के लिए स्क्रीनशॉट देखें) यहाँ छवि विवरण दर्ज करें

पिछला पाठ: पपीता सलाद ~ GÕi ñu ñô Tôm

बहुत बहुत धन्यवाद।

संपादित करें: ऐसा प्रतीत होता है कि यदि स्रोत एक Word दस्तावेज़ है, तो यह अपेक्षित रूप से कॉपी और पेस्ट करता है। पीडीएफ यहाँ मुद्दा है।


क्या पीडीएफ में इस्तेमाल किया गया फॉन्ट प्रति मौका अलग हो सकता है, जिससे कुछ अक्षरों को अलग तरीके से परिभाषित किया जा सकता है?
जय

@ संजय दिलचस्प होगा। दुर्भाग्य से यह एक ग्राहक है जो पीडीएफ आपूर्ति करता है, मेरे पास फ़ॉन्ट बदलने का कोई तरीका नहीं है। भविष्य में शब्द दस्तावेजों की आवश्यकता के लिए समय ... धन्यवाद
Mahdi.Montgomery

पीडीएफ को वर्ड में बदलने की कोशिश करें और देखें कि आपको क्या मिलता है
jay

जवाबों:


6

ऐसा इसलिए है क्योंकि पीडीएफ में इस्तेमाल किया गया एन्कोडिंग मनमाना है।

एक्रोबैट फ़ाइल गुण

वियतनामी में कुछ पीडीएफ से मुझे इंटरब्यूटेंस में मिला

" एन्कोडिंग: कस्टम " का अर्थ शायद इस पीडीएफ द्वारा उत्पादित प्रोग्राम द्वारा स्वयं की सुविधा के लिए बनाया गया एक (यादृच्छिक प्रतीत होता है) एन्कोडिंग है।

" एंबेडेड सबसेट " का अर्थ है कि इस फ़ॉन्ट से प्रोग्राम को बड़ी संख्या में वर्णों की आवश्यकता नहीं थी, इसलिए इसे बस कुछ ही की जरूरत थी और उन्हें उचित रूप से यादृच्छिक क्रम में व्यवस्थित किया (हो सकता है कि प्रोग्राम ने उन्हें पाठ में सामना किया हो) और नव आविष्कार किया एन्कोडिंग इस आदेश पर आधारित है।

इसका वास्तव में "वर्ण" नहीं है। मूल रूप से पीडीएफ में अब "किस चरित्र" के बारे में कोई सार्वभौमिक सार्थक जानकारी नहीं है। इसमें बस आकृतियों का एक अनुक्रमित गुच्छा और स्थिति और आकारों की एक सूची है जहां यह उन अनुक्रमित आकृतियों को प्रदर्शित करता है।


विकिपीडिया कहता है

CID- कुंजी वाले फ़ॉन्ट एक "पहचान" एन्कोडिंग, जैसे कि पहचान-एच (क्षैतिज लेखन के लिए) या पहचान-वी (ऊर्ध्वाधर के लिए) का उपयोग करके एक चरित्र संग्रह के संदर्भ के बिना बनाया जा सकता है। इस तरह के फोंट प्रत्येक में एक विशिष्ट वर्ण सेट हो सकते हैं, और ऐसे मामलों में एक ग्लिफ़ की सीआईडी ​​संख्या जानकारीपूर्ण नहीं है; आम तौर पर यूनिकोड एन्कोडिंग का उपयोग इसके बजाय किया जाता है, संभवतः पूरक जानकारी के साथ।

तो आप यह देखने की कोशिश कर सकते हैं कि क्या यह समझ में आता है कि यूटीएफ -16 बीई एन्कोडिंग है।


वैसे यह असुविधाजनक है। मेरे पीडीएफ में: "एनकोडिंग: एएनएसआई", "एनकोडिंग: एएनसी", "एन्कोडिंग: आइडेंटिटी-एच" है। मुझे लगता है कि संकलित पीडीएफ में इसे बदलने का कोई तरीका नहीं है? धन्यवाद!
महदी.मोंटगोमरी

@ Mahdi.Montgomery: यह असुविधाजनक है। यदि आप यह पता लगा सकते हैं कि "आइडेंटिटी-एच" क्या है (और क्या यह पीडीएफ से पीडीएफ के अनुरूप है) तो आप शायद एक परिभाषा पर काम कर सकते हैं जिसे आप आइकनकोव जैसे एन्कोडिंग कनवर्टर को खिला सकते हैं जो तब आपके निकाले गए पाठ को बदल सकता है। हम में से अधिकांश शायद इसे सार्थक नहीं पाएंगे।
RedGrittyBrick

मुझे कष्टप्रद ईमेल भेजने के लिए अधिक प्रभावी समय लगता है। एक बार फिर धन्यवाद।
महदी.मोंटगोमरी

-1

मुझे एक समाधान मिला जो मेरे लिए काम करता था - हालाँकि मैं यह नहीं समझा सकता हूँ। जब मैंने एक्रोबैट में पीडीएफ खोला, तो मैं वियतनामी वर्णों को कॉपी और पेस्ट करने में असमर्थ था। हालाँकि, यदि मैंने अपने मैक पर पूर्वावलोकन ऐप संस्करण (पीडीएफ संस्करण 5.5.3 (719.31)) में पीडीएफ खोला है, तो मैं बिना किसी समस्या के कॉपी और पेस्ट कर सकता हूं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.