पीडीएफ फाइलें एक दूसरे से बहुत अलग हो सकती हैं और इसमें लिंक, बटन, फॉर्म फील्ड, ऑडियो, वीडियो, बिजनेस लॉजिक हो सकते हैं, या फिर वे एक मानक होने पर भी पेज के लिए स्कैन की गई छवियों का एक सरल संग्रह हो सकते हैं। वास्तव में पोर्टेबल दस्तावेज़ प्रारूप, शीघ्र ही पीडीएफ , मानकीकरण के लिए अंतर्राष्ट्रीय संगठन (आईएसओ) द्वारा बनाए गए एक खुले मानक हैं [ 1 ] ।
पीडीएफ से डेटा निकालने की रणनीति इसके अनुसार भिन्न हो सकती है
सामग्री, और हमेशा OCR का उपयोग करने का सबसे अच्छा तरीका नहीं है; यदि डेटा सीधे अंदर उपलब्ध है, तो डेटा उपचार के स्तर से बचने के लिए बेहतर है जो पूरी तरह से त्रुटि मुक्त नहीं है।
- यदि पीडीएफ एक वर्ड प्रोसेसर डॉक्यूमेंट (वर्ड, लेटेक्स ...) से बनाया गया है, तो आपको किसी भी तरह से पुनरावृत्ति करने की आवश्यकता के बिना डेटा को सफलतापूर्वक निकालने की अच्छी संभावनाएं हैं। ओसीआर सॉफ्टवेयर। कुछ दर्शकों के साथ आप तालिका का चयन कर सकते हैं और कम से कम चयन को निर्यात / सहेज सकते हैं
txt
प्रारूप या में csv
एक; तब आप इसे ईएक्सएसएल में आयात कर सकते हैं। अपने पसंदीदा खोज इंजन पर एक तेज़ खोज आपको एक अद्यतन सूची देगी "open source" or "freeware" pdf tools export
, या आप पीडीएफ सॉफ्टवेयर के बारे में विकिपीडिया पृष्ठ को एक रूप दे सकते हैं [ 1b ] ।
कुछ उपकरण हैं, यहां तक कि खुला स्रोत या फ्रीवेयर, इस उद्देश्य के लिए बनाया गया है और प्रत्येक ऑपरेटिव सिस्टम के लिए उपलब्ध है। एडोब प्रोग्राम के साथ आप टेबल का चयन कर सकते हैं और सीधे निर्यात कर सकते हैं [ 2 ] में xls
या xlsx
... फिर से अपने पसंदीदा खोज इंजन पर एक तेज़ खोज आपको एक अद्यतन सूची देगी "open source" or "freeware" pdf viewers export table
।
कुछ इंटरनेट साइट हैं जो मुफ्त में इस सेवा की पेशकश करती हैं, भले ही बिल के लिए मुझे आपको सुझाव नहीं देना चाहिए ... इसमें शामिल हैं गूगल दस्तावेज एक [ 3 ] ।
- अंतिम लेकिन कम से कम यदि वे छवियां हैं या अन्य रणनीतियां विफल हो गईं तो आप OCR का उपयोग कर सकते हैं, OCR विकल्पों को सीमित करने के लिए एक बॉक्स सेट कर रहे हैं। FreeOCR के साथ [ 4 ] , उदाहरण के लिए, आप एक बॉक्स का चयन कर सकते हैं जिस पर OCR प्रदर्शन करते हैं ...
आप अपने माउस का उपयोग करके छवि के हिस्से के चारों ओर एक बॉक्स बना सकते हैं और फिर वर्तमान पृष्ठ को ओसीआर कर सकते हैं। यह आसान है यदि आप पृष्ठ के एक क्षेत्र से पाठ प्राप्त करना चाहते हैं।
यदि आपके OCR ने उस सुविधा का समर्थन नहीं किया है, या एक ही समय में कई फ़ाइल को संसाधित करना आसान नहीं है, तो आप हमेशा Imageagagick पर पुनर्विचार कर सकते हैं [ 5 ] या किसी भी अन्य उपकरण और एक निकालें उप छवि दिलचस्प क्षेत्र का। तब आप अपने OCR को केवल चयनित को दे सकते हैं उप छवि , हेडर या बेकार क्षेत्र के बिना।
इसलिए scan
- & gt; extract subimage
- & gt; Ocr on the subimage
- & gt; txt
या csv
डेटा - & gt; eXcel
।
Imagemagick कन्वर्ट के साथ आप कुछ ऐसा ही कर सकते हैं
convert -size 2480X3508 -depth 8 -extract 640x480+1280+960 file.pdf img.png
एक पीडीएफ फाइल को PNG एक में बदलने के लिए, 300 DPI के लिए A4 पृष्ठ आकार आयामों के साथ और ज्यामिति मापदंडों के साथ एक बॉक्स निकालें [ 6 ] का 640x480
बिंदु से शुरू 1280+960
।
ध्यान दें कि यदि मैनुअल स्कैन किया गया है तो आपको अपनी अलग स्थिति दिखाई देगी दिलचस्पी के क्षेत्र प्रत्येक पृष्ठ के लिए।
scan
- & gt;extract subimage
- & gt;Ocr
उपसमूह पर - & gt; txt डेटा।