वहाँ pdftotext से पाठ कनवर्टर करने के लिए एक बेहतर पीडीएफ है?


63

पीडीएफ दस्तावेजों को पाठ में बदलने के लिए मैं pdftotext (poppler-utils का हिस्सा) का उपयोग कर रहा हूं। यह सबसे अधिक भाग के लिए काम करता है, लेकिन एक बात जो मैं चाहता हूं कि यह अलग-अलग पैराग्राफ के बीच रिक्त लाइनों को एक साथ मिलाने के बजाय सम्मिलित करना है।

क्या ऐसा करने के लिए pdftotext प्राप्त करने का कोई तरीका है? और यदि नहीं, तो क्या पाठ उपयोगिता के लिए एक और पीडीएफ है जो ऐसा कर सकता है?


8
शीर्षक में आप कहते हैं "pdftotext" (जो कि poppler-utils का हिस्सा है) और शरीर में आप "pdt2text" कहते हैं (जो मुझे नहीं पता)। आप किसका जिक्र कर रहे हैं?
17

समान प्रश्न PDF to audio software for academic papers? softwarerecs.stackexchange.com/questions/10640/...
JinSnow

जवाबों:


25

आप कैलिबरebook-convert से कोशिश कर सकते हैं

अगर कुछ भी हो, तो मैं कहूंगा कि यह दूसरी दिशा में भी है: बहुत सारी लाइन टूट जाती है।

एक और बात मैं निश्चित रूप से विचार करूंगा कि HTML को pdfreflow का उपयोग करके परिवर्तित किया जा रहा है , और फिर HTML को TXT में रूपांतरित करें।


नोट: ebook-convertमल्टी-कॉलम लेआउट को परिवर्तित नहीं किया जा सकता है, यह कॉलम को एक कॉलम में विलय करता है। बहु-स्तंभ लेआउट के लिए pdftotextबेहतर उत्पादन का उत्पादन होता है। आगे की सीमाएँ मैन्युअल.क्लिबरे- बुक . com / conversion.html#convert-pdf-documents पर वर्णित हैं ।
asmaier

117

यदि आप pdftotext का उपयोग कर रहे हैं, तो आप -layoutअपनी इनपुट पीडीएफ फाइल में पृष्ठों पर पाठ के लेआउट को संरक्षित करने के लिए ध्वज का उपयोग कर सकते हैं :

pdftotext -layout input.pdf output.txt

6
विशेष रूप से टेबल लेआउट के लिए भी अनुकूल है, महान काम करता है।
P.Windridge

3
@ P.Windridge, यह तालिका विकल्प कहां है? मैं इसे उबंटू में पॉपलर-बर्तनों से 0.48.0 संस्करण में नहीं पा सकता हूं। 17.04
गूजिल्ली

2
@gozzilli यह पुराना तरीका है । नवीनतम pdftotext v4.00, में उपलब्ध है xpdf उपकरण टारबॉल यहाँ
एड्रियन

2
@gozzilli संस्करणों की शुरुआत 0. से होती है जो दर्शाता है कि यह Xpdf के मूल कोड की पॉप्लर शाखा है। जब उन्होंने कोड को ब्रैक किया तो उन्होंने अपना संस्करण संख्या शुरू कर दी। दोनों समूह अब इन पीडीएफ टूल के अलग-अलग संस्करणों को बनाए रखने के लिए दिखाई देते हैं।
एंड्रयू

1
@VivekSable निर्दिष्ट -r(रिज़ॉल्यूशन, डिफ़ॉल्ट 72 डीपीआई) पर अंक (पिक्सेल ) हैं
vstepaniuk

14

खुले स्रोत (और स्वचालन) के एक प्रशंसक के रूप में मैं यह कहने के लिए नफरत करता हूं, लेकिन मेरे द्वारा प्राप्त किए गए सर्वोत्तम परिणाम (केवल एक बड़े, जटिल पीडीएफ पर) इसे एडोब रीडर में खोलना था, फिर फ़ाइल चुनें।

(मैं एक पाठक के रूप में नहीं, पाठ विश्लेषण प्रयोगों के लिए पूर्व-प्रसंस्करण कर रहा हूं, लेकिन मुझे लगता है कि मेरी पहली और दूसरी पसंद एक ही होगी।)

मैं आउटपुट के साथ-साथ तुलना कर रहा हूं। मेरी दूसरी पसंद ईबुक-कन्वर्ट है।

Adobe : पृष्ठ टूटने के लिए FF में छोड़ दिया, पृष्ठ संख्याओं में छोड़ दिया, शीर्षकों / पैराग्राफों को एकल लाइनों में परिवर्तित नहीं किया है, लेकिन इसमें निश्चित मानक हैं। पीडीएफ में छिपे हुए जंक को आउटपुट नहीं मिला। सही ढंग से वर्गों की शुरुआत में बड़ी राजधानियाँ मिलीं, जैसे "द", न कि "टी हे" या "टी हे"।

ईबुक-कन्वर्ट : पेज नंबरों में छोड़ दिया, और हेडर / फुटर में कुछ छिपा हुआ कबाड़ (लेकिन एफएफ नहीं)। अधिकांश पैराग्राफ को एकल लाइनों में परिवर्तित करता है। यह याद किया हालांकि दोहरे स्थान हैं! बुलेट हमेशा टेक्स्ट के साथ पंक्तिबद्ध नहीं होती हैं। ठीक से अध्याय की शुरुआत में "द" मिला।

pdftotext (बिना --layout) : खराब नहीं, बुलेट लाइन अप, लेकिन हेडर / फुटर शोर। एफएफ में हैं। हाइफ़न निकाल दिया। अध्याय बड़े अक्षरों की शुरुआत के लिए सबसे खराब: "T \ n \ n"।

pdftotext (with --layout) : समान, लेकिन अधिक संकेत । "टी हे" अध्याय की शुरुआत के लिए।

pdftohtml >> pdfreflow >> htmltotext : इसने पृष्ठ संख्याओं को हटा दिया, लेकिन फिर भी शीर्ष लेख / पाद लेख में रद्दी है। "टी हे" अध्याय की शुरुआत के लिए। हाइफ़न निकाल दिया। (यह प्रति पैरा में कई लाइनों का उपयोग करता है, फिर भी वे अन्य संस्करणों की तरह एक ही लाइन ब्रेक नहीं हैं!)


लिनक्स पर एक्रोबेट रीडर 9 ने मेरे मामले में शब्दों को उत्पन्न किया। ebook-convertठीक काम किया।
Ov7a

हमें वास्तव में इसके लिए एआई ऐप की आवश्यकता है, यह उस तरह के कार्य के लिए एकदम सही लगता है: किसी को भी पता है?
जिंसावे

1
एडोब रीडर मुफ्त है, लेकिन ... केवल पीडीएफ पढ़ने के लिए। अन्य चीजों के लिए आपको (मासिक सदस्यता) का भुगतान करना होगा। (पाठ में Pdf कुछ पृष्ठों तक सीमित है)। Pdfto पाठ (या जीत पर xpdf) मेरी जरूरतों के लिए एकदम सही है।
जिंसाव

सारणीबद्ध डेटा के लिए, यह अब सबसे अच्छा है "pdftotext -table file_name.pdf output_name.txt" -table स्विच का उपयोग करने के लिए
Thom Ives 15

5

यदि आपके पास Google खाता है, तो आप पीडीएफ अपलोड करने और उसे संपादन योग्य पाठ में बदलने के लिए Google डॉक्स का उपयोग कर सकते हैं।


1

मैंने भी pypdf की कोशिश की और दो दस्तावेजों पर pdftotext के खिलाफ इसकी तुलना की। इसमें अधिक लाइनब्रेक थे और कुछ सेक्शन के नाम (REFERENCES REFERENCES) विभाजित थे।

pdf2txt ने पूरा कचरा उत्पादन किया।

अगर आउटपुट में pdftotext का शिकंजा होता है तो मैं अक्सर pdfBox (जावा) का उपयोग करता हूं। आप इसे आजमा सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.