ठीक है ... मुझे लगता pdflatexहै कि यहाँ लापता टुकड़ा है।
ओपी ने कहा कि उन्होंने poppler-utilsऔर देखा है pdftk। मुझे इसमें शामिल होने दें pdfimages। ये, एक साथ pdflatexएक समाधान के टुकड़े हैं।
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
ऊपर दिए गए उदाहरण कोड में, pdfimages 20 के माध्यम से पेज 4 के माध्यम से दिखता है target.pdfऔर शुरुआत के नाम वाली सभी छवियों को फ़ाइलों में निकालता है imageroot।
poppler-utilsप्रदान करता है pdftotext। मैं उस -layoutविकल्प की सिफारिश करता हूं जो दस्तावेज़ को मानव को पढ़ने योग्य रखने में बहुत अच्छा काम करता है।
pdftotext -layout $1.pdf $1.txt
पिडोसॉरसimagemagick द्वारा प्रस्तुत समाधान के लिए ओपी की आपत्ति यह है कि एक छवि में निकालने योग्य पाठ नहीं है। मेरे द्वारा उल्लिखित उपयोगिताओं के साथ, ओपी में अब सभी छवियां और साथ ही सभी निकाले गए पाठ होंगे, और पृष्ठ संख्या और सामग्री विकल्प द्वारा रखी गई हैं । ओपी पाठ के सही पृष्ठ की पहचान कर सकता है और इसे एक फ़ाइल में चक सकता है जो एक निर्देश के साथ समाप्त होता है और फ़ाइल नाम से प्रतिस्थापन चित्र को संदर्भित करता है। आप इसके बाद और अपने दस्तावेज़ के बाकी हिस्सों में सम्मिलित करने के लिए एक नए सिंगल-पेज .pdf के साथ समाप्त होते हैं । यदि आप जानते हैं कि मूल पृष्ठ के पाठ में छवि कहाँ स्थित है, तो आप चित्र को सही स्थान पर प्राप्त कर सकते हैं ।-layout.tex%includegraphicspdflatexpdftk%includegraphics [h]