ठीक है ... मुझे लगता pdflatex
है कि यहाँ लापता टुकड़ा है।
ओपी ने कहा कि उन्होंने poppler-utils
और देखा है pdftk
। मुझे इसमें शामिल होने दें pdfimages
। ये, एक साथ pdflatex
एक समाधान के टुकड़े हैं।
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
ऊपर दिए गए उदाहरण कोड में, pdfimages
20 के माध्यम से पेज 4 के माध्यम से दिखता है target.pdf
और शुरुआत के नाम वाली सभी छवियों को फ़ाइलों में निकालता है imageroot
।
poppler-utils
प्रदान करता है pdftotext
। मैं उस -layout
विकल्प की सिफारिश करता हूं जो दस्तावेज़ को मानव को पढ़ने योग्य रखने में बहुत अच्छा काम करता है।
pdftotext -layout $1.pdf $1.txt
पिडोसॉरसimagemagick
द्वारा प्रस्तुत समाधान के लिए ओपी की आपत्ति यह है कि एक छवि में निकालने योग्य पाठ नहीं है। मेरे द्वारा उल्लिखित उपयोगिताओं के साथ, ओपी में अब सभी छवियां और साथ ही सभी निकाले गए पाठ होंगे, और पृष्ठ संख्या और सामग्री विकल्प द्वारा रखी गई हैं । ओपी पाठ के सही पृष्ठ की पहचान कर सकता है और इसे एक फ़ाइल में चक सकता है जो एक निर्देश के साथ समाप्त होता है और फ़ाइल नाम से प्रतिस्थापन चित्र को संदर्भित करता है। आप इसके बाद और अपने दस्तावेज़ के बाकी हिस्सों में सम्मिलित करने के लिए एक नए सिंगल-पेज .pdf के साथ समाप्त होते हैं । यदि आप जानते हैं कि मूल पृष्ठ के पाठ में छवि कहाँ स्थित है, तो आप चित्र को सही स्थान पर प्राप्त कर सकते हैं ।-layout
.tex
%includegraphics
pdflatex
pdftk
%includegraphics [h]