pdftotext पर्केंट और डैश को छक्के के लिए रिक्त स्थान को परिवर्तित करता है


0

pdftotext किसी भी तरह सभी स्पेस कैरेक्टर ("") को प्रतिशत चिह्नों ("%") में परिवर्तित करता है, और सभी डैश ("-") को एक विशिष्ट पीडीएफ के लिए छक्के ("6") में बदल देता है।

किसी भी विचार कैसे इस व्यवहार को रोकने के लिए? या इसका निदान कैसे करें?

दुर्भाग्य से मैं इस समय पीडीएफ साझा नहीं कर सकता। इससे सवाल का जवाब देना बहुत मुश्किल हो सकता है। लेकिन शायद कोई भी इन अजीब चरित्र प्रतिस्थापन के आधार पर, किसी भी तरह एक अच्छा अनुमान लगा सकता है।

pdftotext संस्करण 0.26.5


1
आपको stackoverflow.com/search?q=user%3A359307+%5Bpdf%5D+text प्रासंगिक लग सकता है ।
ग्रिटिटी

जवाबों:


0

अनुमान करें: यह पीडीएफ एक अजीब फ़ॉन्ट का उपयोग करता है, जिसमें वास्तव में रिक्त स्थान होते हैं (सामान्य रूप से, स्थान स्थिति पात्रों द्वारा किए जाते हैं), और इसमें डैश का एक विशेष रूप है। इन दो ग्लिफ़ विशेष फ़ॉन्ट जहां में दो पदों पर %और 6अन्य फोंट में हैं।

pdftext इसके बारे में कुछ भी नहीं पता है, यह सिर्फ "इस फ़ॉन्ट से इस ग्लिफ़ को यहाँ रखें" देखता है (क्योंकि यह एक पीडीएफ फाइल जैसा दिखता है), इसलिए यह गलत है कि यह पाठ है।

निदान: धाराओं को विघटित करने के mutoolलिए mupdfपैकेज (या किसी अन्य उपकरण) से उपयोग करें , एक पाठ संपादक में परिणाम खोलें जो यदि आवश्यक हो तो बड़ी फ़ाइलों को संभाल सकता है (उदाहरण के लिए emacs), देखें कि पृष्ठ कैसे प्रस्तुत किया गया है। पीडीएफ के लिए Google यदि आप पीडीएफ के प्रतिपादन के बारे में अधिक विवरण समझना चाहते हैं।

वैकल्पिक रूप से: पीडीएफ से फोंट निकालें, देखो कि क्या फोंट में से एक में वर्णित दो ग्लिफ़ हैं।


शायद यही है। टेक्स्ट की कॉपी और पेस्ट करना भी% और 6 संकेतों को कॉपी करता है। पाठ के टुकड़े को खोजने के लिए% की खोज करनी होगी।
ब्लैकशिफ्ट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.