पीडीएफ फाइलों में विशेष वर्ण या लघु गणितीय प्रतीकों को खोजें


7

मेरे पास पीडीएफ रीडर के रूप में एडोब रीडर, ओकुलर और डॉक्यूमेंट व्यूअर हैं। मेरे द्वारा पढ़े जाने वाले पत्र अक्सर गणितीय सूत्रों के साथ ग्रंथ होते हैं, जो लाटेक्स द्वारा उत्पन्न होते हैं।

लेकिन ऐसा लगता है कि इन दर्शकों के साथ पीडीएफ फाइलों में विशेष वर्णों या गणितीय प्रतीकों की खोज करना पूरी तरह से काम नहीं करता है। मैं आमतौर पर फ़ाइल से मुख्य भाग (विशेष वर्ण या गणितीय अभिव्यक्तियों) का चयन करता हूं Ctrl+C, फिर Ctrl+F, फिर Ctrl+V, काफी बार जो दर्शक हाइलाइट करता है वह दुर्भाग्य से सही नहीं है।

मेरा मानना ​​है कि यह दर्शक के लिए एक महत्वपूर्ण विशेषता है, और न केवल शब्दों के लिए, बल्कि एक दस्तावेज़ में विशेष वर्णों को देखने की भी वास्तविक आवश्यकता है।

क्या कोई मुझे बता सकता है कि आप इसे कैसे हल करते हैं? क्या कोई बेहतर पीडीएफ़ रीडर या खोज करने का कोई स्मार्ट तरीका है?

जवाबों:


4

आपकी समस्या का कोई सामान्य समाधान नहीं है, भले ही यह अच्छा होगा।

समस्या का मूल यह है कि पीडीएफ को यह निर्दिष्ट करने के लिए डिज़ाइन किया गया है कि मुद्रित होने पर कुछ कैसे दिखना चाहिए । एक सूत्र के लिए पीडीएफ को खोजने में सक्षम होने के नाते शायद एक मेयर चिंता का विषय नहीं था। तो समस्या दर्शक नहीं है ; समस्या यह है कि पीडीएफ में वह जानकारी नहीं है जो आप सुलभ तरीके से खोज रहे हैं।

जब आपके पास होता है, उदाहरण के लिए, एक सूत्र में एक अल्फा (α), तो इसे कोडित किया जा सकता है

  • यूनिकोड चरित्र के रूप में U+03B1
  • एक साधारण aफ़ॉन्ट के रूप में (विंडोज फ़ॉन्ट प्रतीक मन में आता है)
  • या यह सिर्फ एक उपयुक्त वेक्टर ग्राफिक हो सकता है जो एक अल्फा जैसा दिखता है, लेकिन इसके साथ जुड़ा हुआ ASCII या यूनिकोड वर्ण नहीं है।

पहले मामले में आपका समाधान संभवतः काम करना चाहिए, लेकिन दूसरे मामले में पाठ में हर एक "ए" पर खोज बंद हो जाएगी। तीसरे मामले में खोज कुछ भी नहीं के साथ आ जाएगा, क्योंकि खोजा जाने वाला कोई पाठ नहीं है।

समस्या और अधिक कठिन हो जाता है जब आप के लिए खोज सूचकांक के साथ तत्वों , जैसे $A_B^C। इसे एक निश्चित तरीके से टाइप करने की आवश्यकता होती है (इसके नीचे बी, ए, सी इसके ऊपर), लेकिन कोई निश्चित नियम नहीं है जिसमें पीडीएफ निर्माता को एक पाठ बॉक्स में तीन वर्ण सम्मिलित करना चाहिए; यह तीन अलग-अलग टेक्स्ट बॉक्स बनाने का भी निर्णय ले सकता है , या यह तय कर सकता है कि एक सूत्र के सभी ऊपरी सूचकांक पहले आते हैं, और निचले सूचकांक आखिरी आते हैं।

इसलिए एक उदाहरण के रूप में सूत्र $A_B^C = D^E_F$का प्रतिनिधित्व किया जा सकता है

CEADBF

या

ABCDEF

या

ACBDFE

या किसी अन्य तरीके से पीडीएफ निर्माता को प्रसन्न करता है, जब तक कि प्रत्येक पत्र के लिए स्थिति की जानकारी सही सूत्र का उत्पादन करने के लिए सही है। यह कहने की आवश्यकता नहीं है कि पहले और तीसरे मामले में, आपके पास `$ A_B $ 'की खोज करने में कठिन समय होगा ...

यह सब समझाने के बाद, आप क्या कर सकते हैं?

  • बहुत ज्यादा नहीं
  • पीडीएफ को TIF में प्रिंट करने की कोशिश करें, फिर OCR इसे एक टूल का उपयोग करके करें जो गणितीय प्रतीकों से निपट सकता है
  • लाटेकेक्स स्रोत के साथ arxiv.org पर प्रीप्रिंट्स प्रकाशित करने के लिए पेपर लेखकों के लिए लॉबी , जिसे आप अधिक आसानी से खोज सकते हैं
  • समस्या का समाधान करने के लिए एडोब के लिए लॉबी पीडीएफ के अगले संस्करण में एक तरह का "समीकरण समर्थन" जोड़ने के लिए; बेशक यह तब पीडीएफ बनाने और संशोधित करने के लिए उपयोग किए जाने वाले उपकरणों में लागू किया जाना चाहिए

2

ऐसा लगता है कि http://www.bluebeam.com में एक उत्पाद है जो एक पीडीएफ में दृश्य प्रतीक खोज कर सकता है। आप रुचि के प्रतीक या सूत्र को हाइलाइट करते हैं, और फिर यह मैचों की हाइपरलिंक की गई सूची लौटाता है। नहीं, मैं कोई कंपनी नहीं हूँ - बस एक ही सवाल था! धन्यवाद

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.