आज जब से मैं यह पता: पीडीएफ़ से पाठ निकासी के लिए सबसे अच्छी बात है TET, पाठ निष्कर्षण टूलकिट । TET उत्पादों के PDFlib.com परिवार का हिस्सा है।
PDFlib.com थॉमस मर्ज़ की कंपनी है। यदि आप उसका नाम नहीं पहचानते हैं: थॉमस मेरज़ "पोस्टस्क्रिप्ट और पीडीएफ बाइबल" के लेखक हैं।
टीईटी का पहला अवतार एक पुस्तकालय है । यह संभवत: वह सब कुछ कर सकता है, जो बुद्ध 006 चाहते थे, जिसमें पृष्ठ पर प्रत्येक तत्व के बारे में जानकारी शामिल थी। ओह, और यह छवियों को भी निकाल सकता है। यह उन छवियों को पुन: संयोजित करता है जो टुकड़ों में खंडित होती हैं।
pdflib.com इस तकनीक का एक और अवतार प्रदान करता है, एक्रोबेट के लिए टीईटी प्लगइन । और तीसरा अवतार PDFlib TET iFilter है । यह उपयोगकर्ता डेस्कटॉप के लिए एक स्टैंडअलोन उपकरण है। निजी, गैर-वाणिज्यिक प्रयोजनों के लिए उपयोग करने के लिए ये दोनों मुफ्त (बीयर में) हैं।
और यह वास्तव में शक्तिशाली है। एडोब के अपने पाठ निष्कर्षण से बेहतर तरीका है। इसने मेरे लिए पाठ निकाला जहाँ अन्य उपकरण (Adobe के सहित) केवल कचरा बाहर थूकते हैं।
मैंने अभी-अभी डेस्कटॉप स्टैंडअलोन टूल का परीक्षण किया है, और उनके वेबपेज पर वे जो कहते हैं वह सच है। इसकी बहुत अच्छी कमांडलाइन है। मेरे कुछ "समस्याग्रस्त" पीडीएफ परीक्षण उपकरण मेरी पूर्ण संतुष्टि को नियंत्रित करते हैं।
यह बात अब से हर परिष्कृत और चुनौतीपूर्ण पीडीएफ पाठ निष्कर्षण आवश्यकताओं के लिए मेरी सिफारिश होगी।
टीईटी बस कमाल है। यह तालिकाओं का पता लगाता है। तालिकाओं के अंदर, यह कई स्तंभों में फैली कोशिकाओं की पहचान करता है। यह तालिका तालिका और प्रत्येक तालिका सेल की सामग्री को अलग से पहचानता है। यह हाइफ़न के साथ बहुत अच्छा व्यवहार करता है: यह हाइफ़न को हटाता है और पूर्ण शब्दों को पुनर्स्थापित करता है। यह गैर-ASCII भाषाओं (CJK, अरबी और हिब्रू सहित) का समर्थन करता है। जब लिगुरिंग का सामना करना पड़ता है, तो यह मूल पात्रों को पुनर्स्थापित करता है ...
कोशिश करो।