एक ही समस्या के पार आया और निम्नलिखित समाधान पर आया। मुझे इस बात की जानकारी नहीं थी कि पीडीएफ फाइल कैसे बनाई जाती है। मैंने सिर्फ दो खाली पीडीएफ फाइलों की तुलना अलग-अलग पेज साइज से की है।
ऐसा लगता है कि pdfs में "<<" और ">>" के बीच सभी प्रकार के गुण हैं। मैंने पाया कि पृष्ठ आकार की जानकारी सादे पाठ में है और इसे एक साधारण रेगेक्स खोज के साथ पाया जा सकता है।
यह सभी pdfs के लिए सही हो सकता है या नहीं भी हो सकता है, लेकिन यह उन सभी पर काम करता है जो मुझे विभिन्न स्रोतों से मिल सकते हैं।
संबंधित भाग A4 पृष्ठ के आकार के लिए इनमें से किसी को भी देख सकता है:
/MediaBox [0 0 595 842]
/MediaBox[0 0 595 842]
/MediaBox[ 0 0 595.32 841.92]
इसका मतलब है [0 0 चौड़ाई ऊंचाई] तो यह निकालने के लिए मेरा सुपर लंगड़ा लेकिन काम करने वाला समाधान है:
cat test.pdf | egrep -ao "/MediaBox ?\[ ?[0-9]+ [0-9]+ [0-9]+(\.[0-9]+)? [0-9]+(\.[0-9]+)?\]" | head -1
बस अपनी फ़ाइल में test.pdf बदलें।