OCR PDF Parse चयनित क्षेत्र

मेरे पास कई खाता शेष दस्तावेज हैं, मुझे इन दस्तावेजों के अंदर एक तालिका से एक एक्सेल फाइल बनाने की आवश्यकता है। मैं एक सामान्य ओसीआर मान्यता के साथ आगे बढ़ सकता हूं लेकिन मुख्य समस्या यह है कि इन पीडीएफ में पेज हेडर, पेज फुटर्स टेबल हेडर और इतने पर हैं, मैं हर पेज के लिए पेज के केवल चयनित क्षेत्र (एक्स, वाई निर्देशांक) के साथ पार्स करना चाहूंगा। ।

क्या इसे करना संभव है?

pdf ocr

— Tobia
स्रोत

केवल एक निकालने के बाद Imagemagick का उपयोग करना हमेशा संभव होता है subimage । इसलिए scan - & gt; extract subimage - & gt; Ocr उपसमूह पर - & gt; txt डेटा।

— Hastur

तो आपका सुझाव केवल टेबल पर एक फसली छवि निकालना है और फिर इसे ocr?

— Tobia

यदि आपके पास पीडीएफ संस्करण है तो यह बेहतर है और आप अलग-अलग भी सोच सकते हैं: संभवत: डेटा को सीधे निकालना संभव है। यदि आप आपको स्कैनर या आपका ocr भी सेट कर सकते हैं (आमतौर पर यह ocr से निर्भर करता है, लेकिन क्षेत्र को परिभाषित करना संभव है "ओसीआर" )। यदि आप हमेशा इस सब से छुटकारा नहीं पा सकते हैं और उप छवि निकाल सकते हैं, तो ocr करने के लिए कहें "पूरा का पूरा" उप छवि। :)

— Hastur

अंत में मैं दिलचस्पी वाले क्षेत्र में फिट होने के लिए दस्तावेज़ को क्रॉप करता हूं। मैंने इसे प्रति पृष्ठ एक छवि पर निर्यात किया और फिर मैं उन्हें विलय और पार्स कर दिया!

— Tobia

संभवतः सबसे त्वरित तरीके से एक। नीचे एक अधिक लंबा उत्तर।

— Hastur

पीडीएफ फाइलें एक दूसरे से बहुत अलग हो सकती हैं और इसमें लिंक, बटन, फॉर्म फील्ड, ऑडियो, वीडियो, बिजनेस लॉजिक हो सकते हैं, या फिर वे एक मानक होने पर भी पेज के लिए स्कैन की गई छवियों का एक सरल संग्रह हो सकते हैं। वास्तव में पोर्टेबल दस्तावेज़ प्रारूप, शीघ्र ही पीडीएफ , मानकीकरण के लिए अंतर्राष्ट्रीय संगठन (आईएसओ) द्वारा बनाए गए एक खुले मानक हैं ^{[ 1 ]}।

पीडीएफ से डेटा निकालने की रणनीति इसके अनुसार भिन्न हो सकती है सामग्री, और हमेशा OCR का उपयोग करने का सबसे अच्छा तरीका नहीं है; यदि डेटा सीधे अंदर उपलब्ध है, तो डेटा उपचार के स्तर से बचने के लिए बेहतर है जो पूरी तरह से त्रुटि मुक्त नहीं है।

यदि पीडीएफ एक वर्ड प्रोसेसर डॉक्यूमेंट (वर्ड, लेटेक्स ...) से बनाया गया है, तो आपको किसी भी तरह से पुनरावृत्ति करने की आवश्यकता के बिना डेटा को सफलतापूर्वक निकालने की अच्छी संभावनाएं हैं। ओसीआर सॉफ्टवेयर। कुछ दर्शकों के साथ आप तालिका का चयन कर सकते हैं और कम से कम चयन को निर्यात / सहेज सकते हैं txt प्रारूप या में csv एक; तब आप इसे ईएक्सएसएल में आयात कर सकते हैं। अपने पसंदीदा खोज इंजन पर एक तेज़ खोज आपको एक अद्यतन सूची देगी "open source" or "freeware" pdf tools export, या आप पीडीएफ सॉफ्टवेयर के बारे में विकिपीडिया पृष्ठ को एक रूप दे सकते हैं ^{[ 1b ]}।
कुछ उपकरण हैं, यहां तक कि खुला स्रोत या फ्रीवेयर, इस उद्देश्य के लिए बनाया गया है और प्रत्येक ऑपरेटिव सिस्टम के लिए उपलब्ध है। एडोब प्रोग्राम के साथ आप टेबल का चयन कर सकते हैं और सीधे निर्यात कर सकते हैं ^{[ 2 ]} में xls या xlsx... फिर से अपने पसंदीदा खोज इंजन पर एक तेज़ खोज आपको एक अद्यतन सूची देगी "open source" or "freeware" pdf viewers export table।
कुछ इंटरनेट साइट हैं जो मुफ्त में इस सेवा की पेशकश करती हैं, भले ही बिल के लिए मुझे आपको सुझाव नहीं देना चाहिए ... इसमें शामिल हैं गूगल दस्तावेज एक ^{[ 3 ]}।
अंतिम लेकिन कम से कम यदि वे छवियां हैं या अन्य रणनीतियां विफल हो गईं तो आप OCR का उपयोग कर सकते हैं, OCR विकल्पों को सीमित करने के लिए एक बॉक्स सेट कर रहे हैं। FreeOCR के साथ ^{[ 4 ]}, उदाहरण के लिए, आप एक बॉक्स का चयन कर सकते हैं जिस पर OCR प्रदर्शन करते हैं ...

आप अपने माउस का उपयोग करके छवि के हिस्से के चारों ओर एक बॉक्स बना सकते हैं और फिर वर्तमान पृष्ठ को ओसीआर कर सकते हैं। यह आसान है यदि आप पृष्ठ के एक क्षेत्र से पाठ प्राप्त करना चाहते हैं।
यदि आपके OCR ने उस सुविधा का समर्थन नहीं किया है, या एक ही समय में कई फ़ाइल को संसाधित करना आसान नहीं है, तो आप हमेशा Imageagagick पर पुनर्विचार कर सकते हैं ^{[ 5 ]} या किसी भी अन्य उपकरण और एक निकालें उप छवि दिलचस्प क्षेत्र का। तब आप अपने OCR को केवल चयनित को दे सकते हैं उप छवि , हेडर या बेकार क्षेत्र के बिना।
इसलिए scan - & gt; extract subimage - & gt; Ocr on the subimage - & gt; txt या csv डेटा - & gt; eXcel।

Imagemagick कन्वर्ट के साथ आप कुछ ऐसा ही कर सकते हैं
```
convert -size 2480X3508 -depth 8 -extract 640x480+1280+960 file.pdf img.png
```
एक पीडीएफ फाइल को PNG एक में बदलने के लिए, 300 DPI के लिए A4 पृष्ठ आकार आयामों के साथ और ज्यामिति मापदंडों के साथ एक बॉक्स निकालें ^{[ 6 ]} का 640x480 बिंदु से शुरू 1280+960।
ध्यान दें कि यदि मैनुअल स्कैन किया गया है तो आपको अपनी अलग स्थिति दिखाई देगी दिलचस्पी के क्षेत्र प्रत्येक पृष्ठ के लिए।

— Hastur
स्रोत