मैं एक पीडीएफ फाइल की शब्द गणना कैसे प्राप्त कर सकता हूं? मुझे लगता है कि अधिकांश पीडीएफ़ फाइलें, जिनके लिए मैं कुल शब्द गणना प्राप्त करना चाहता हूं, में पाठ परत एम्बेडेड है, इसलिए मुझे कोई ओसीआर नहीं चाहिए।
यह कार्य ज्ञात आकार के कुछ वैज्ञानिक कागजों की खोज से उत्पन्न हुआ था, जैसे 15000 शब्द। अधिकांश मॉडरेट पेपर पीडीएफ फॉर्मेट में प्रकाशित होते हैं
pdftotext
: ई मत भूलना। और आप एक ही आदेश का उपयोग कर सकते हैंpdftotext myfile.pdf - | wc -w
:।