खुले स्रोत (और स्वचालन) के एक प्रशंसक के रूप में मैं यह कहने के लिए नफरत करता हूं, लेकिन मेरे द्वारा प्राप्त किए गए सर्वोत्तम परिणाम (केवल एक बड़े, जटिल पीडीएफ पर) इसे एडोब रीडर में खोलना था, फिर फ़ाइल चुनें।
(मैं एक पाठक के रूप में नहीं, पाठ विश्लेषण प्रयोगों के लिए पूर्व-प्रसंस्करण कर रहा हूं, लेकिन मुझे लगता है कि मेरी पहली और दूसरी पसंद एक ही होगी।)
मैं आउटपुट के साथ-साथ तुलना कर रहा हूं। मेरी दूसरी पसंद ईबुक-कन्वर्ट है।
Adobe : पृष्ठ टूटने के लिए FF में छोड़ दिया, पृष्ठ संख्याओं में छोड़ दिया, शीर्षकों / पैराग्राफों को एकल लाइनों में परिवर्तित नहीं किया है, लेकिन इसमें निश्चित मानक हैं। पीडीएफ में छिपे हुए जंक को आउटपुट नहीं मिला। सही ढंग से वर्गों की शुरुआत में बड़ी राजधानियाँ मिलीं, जैसे "द", न कि "टी हे" या "टी हे"।
ईबुक-कन्वर्ट : पेज नंबरों में छोड़ दिया, और हेडर / फुटर में कुछ छिपा हुआ कबाड़ (लेकिन एफएफ नहीं)। अधिकांश पैराग्राफ को एकल लाइनों में परिवर्तित करता है। यह याद किया हालांकि दोहरे स्थान हैं! बुलेट हमेशा टेक्स्ट के साथ पंक्तिबद्ध नहीं होती हैं। ठीक से अध्याय की शुरुआत में "द" मिला।
pdftotext (बिना --layout) : खराब नहीं, बुलेट लाइन अप, लेकिन हेडर / फुटर शोर। एफएफ में हैं। हाइफ़न निकाल दिया। अध्याय बड़े अक्षरों की शुरुआत के लिए सबसे खराब: "T \ n \ n"।
pdftotext (with --layout) : समान, लेकिन अधिक संकेत । "टी हे" अध्याय की शुरुआत के लिए।
pdftohtml >> pdfreflow >> htmltotext : इसने पृष्ठ संख्याओं को हटा दिया, लेकिन फिर भी शीर्ष लेख / पाद लेख में रद्दी है। "टी हे" अध्याय की शुरुआत के लिए। हाइफ़न निकाल दिया। (यह प्रति पैरा में कई लाइनों का उपयोग करता है, फिर भी वे अन्य संस्करणों की तरह एक ही लाइन ब्रेक नहीं हैं!)