एक पीडीएफ फाइल में शब्दों की संख्या की गणना करें


66

मैं एक पीडीएफ फाइल की शब्द गणना कैसे प्राप्त कर सकता हूं? मुझे लगता है कि अधिकांश पीडीएफ़ फाइलें, जिनके लिए मैं कुल शब्द गणना प्राप्त करना चाहता हूं, में पाठ परत एम्बेडेड है, इसलिए मुझे कोई ओसीआर नहीं चाहिए।

यह कार्य ज्ञात आकार के कुछ वैज्ञानिक कागजों की खोज से उत्पन्न हुआ था, जैसे 15000 शब्द। अधिकांश मॉडरेट पेपर पीडीएफ फॉर्मेट में प्रकाशित होते हैं

जवाबों:


90

शीघ्र जवाब:

pdftotext myfile.pdf - | wc -w

लंबा जवाब:

यदि यूनिक्स पर, आप उपयोग कर सकते हैं pdftotext:

और फिर जनरेट फ़ाइल में शब्द गणना करें। यदि यूनिक्स पर, आप उपयोग कर सकते हैं:

wc -w converted-pdf.txt

शब्द गणना प्राप्त करने के लिए।

इसके अलावा, frabjous द्वारा टिप्पणी देखें - मूल रूप से, आप इसे stdoutअस्थायी फ़ाइल के बजाय पाइपिंग द्वारा एक चरण में कर सकते हैं :

pdftotext myfile.pdf - | wc -w

10
यह है pdftotext: ई मत भूलना। और आप एक ही आदेश का उपयोग कर सकते हैं pdftotext myfile.pdf - | wc -w:।
frabjous

1
@frabjous धन्यवाद, सुझावों के साथ जवाब अद्यतन!
icyrock.com

यह ध्यान देने योग्य है कि pdftotextXpdf का हिस्सा है जो विंडोज़ प्लेटफॉर्म के लिए भी उपलब्ध है। Xpdf डाउनलोड पृष्ठ यहां स्थित है: foolabs.com/xpdf/download.htmlwcभी पाया जा सकता है, लेकिन वैकल्पिक रूप से कोई भी शब्द या लिब्रे ऑफिस राइटर जैसे किसी भी शब्द प्रोसेसर का उपयोग कर सकता है। वे शब्दों को भी गिनते हैं। (LibreOffice राइटर के लिए फाइल पर जाएं -> गुण -> सांख्यिकी)
amenthes

13

यह एक कठिन काम है जिसे हल करना आसान नहीं है। यदि आप वास्तव में एक सटीक परिणाम चाहते हैं, तो अपने पीडीएफ दर्शक के लिए पैराग्राफ को एक पाठ फ़ाइल में कॉपी करें और इसे wc -wटूल के साथ जांचें । pdftotextउस स्थिति में उपयोग न करने का कारण यह है: गणितीय सूत्र भी आउटपुट में आ सकते हैं और "शब्द" के रूप में माना जा सकता है। (वैकल्पिक रूप से आप अपने द्वारा प्राप्त आउटपुट को संपादित कर सकते हैं pdftotext)। एक और कारण यह विफल हो सकता है शीर्षक: "4.3.2 फू बार" को तीन शब्दों के रूप में गिना जाता है।

चारों ओर एक रास्ता केवल [A-Za-z] के एक चार से शुरू होने वाले शब्दों को गिनने का है। इसलिए मैं जो करता हूं वह दो कदम है:

  1. uniq शब्दों की सूची प्राप्त करें और जांच करें कि क्या अंदर बहुत अधिक झूठी सकारात्मकताएँ हैं:

    pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words

    मैं यहाँ एक शब्दकोष का उपयोग नहीं करता, क्योंकि कुछ वर्तनी की त्रुटियाँ शब्दों के रूप में नहीं होंगी।

  2. इस शब्द सूची को प्राप्त करें और इसे pdftotext के आउटपुट में grep करें:

    pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l

मुझे पता है कि यह एक लाइनर के भीतर किया जा सकता है, लेकिन तब मैं आसानी से पहले चरण से फ़िल्टर परिणाम नहीं देख सकता था। -Fके रूप में की टिप्पणी ने कहा आप मदद कर सकते हैं moi नीचे (धन्यवाद)।


1
मुझे उपयोग करना था grep -Ff words, क्योंकि grep "बेजोड़ [या [^" के बारे में शिकायत करता है। मैन पेज से: `` `-F, - उपसर्ग-स्ट्रिंग्स पैटरन की व्याख्या निश्चित स्ट्रिंग्स की एक सूची के रूप में करते हैं, जिसे न्यूलाइन द्वारा अलग किया जाता है, जिनमें से किसी का मिलान किया जाना है। (-F POSIX द्वारा निर्दिष्ट किया गया है।) `` `
moi

10

मैंने अभी एक निशुल्क कार्यक्रम, अनुवादक के अबेकस की कोशिश की । आप विभिन्न फ़ाइल प्रकारों (पीडीएफ सहित) को ड्रैग और ड्रॉप कर सकते हैं, और यह एक ब्राउज़र को प्रत्येक दस्तावेज़ के लिए शब्द गणना की प्रिंट करने योग्य रिपोर्ट के साथ पॉप अप करता है। इसने मेरे लिए अच्छा काम किया। (यह विशेष रूप से शब्द गणना के लिए बनाया गया है और केवल 435 केबी है ... यानी "बड़ा एप्लिकेशन" नहीं है)। अनुवादक का एबाकस पीडीएफ 1.5 या बाद के संस्करण पर काम नहीं करता है।

वैकल्पिक रूप से : आप एक्रोबेट रीडर में सभी पाठ का चयन करने के लिए बस Ctrl+ कर सकते हैं Aऔर फिर इसे Microsoft वर्ड (जैसे स्क्रीन के नीचे स्थित स्थिति पट्टी पर एक शब्द गणना) जैसे प्रोग्राम में कॉपी-पेस्ट कर सकते हैं।


(कई?) PDF में, Crl + A केवल वर्तमान पृष्ठ पर शब्दों का चयन करता है, संपूर्ण दस्तावेज़ का नहीं। अनुवादक का अबैकस पूरी तरह से काम करता है, हालांकि, बढ़िया!
Junuxx

3
सुधार, अनुवादक का एबेकस पीडीएफ 1.5 या उसके बाद काम नहीं करता है।
Junuxx

विंडोज में WinMerge के शानदार काम के साथ एडोब रीडर में +1 Ctrl + A!
सुपरजोस

2

ऐसा करने का एक सीधा तरीका है यदि आप एक्रोबेट प्रो का उपयोग करते हुए पीडीएफ को माइक्रोसॉफ्ट वर्ड दस्तावेज़ में निर्यात करते हैं और फिर वर्ड में वर्ड काउंट करते हैं। वैकल्पिक रूप से, आप इसे एक सादे पाठ फ़ाइल में निर्यात कर सकते हैं और अपनी पसंद के पाठ संपादक में एक शब्द गणना उपयोगिता का उपयोग कर सकते हैं /। मैंने बस वर्ड विधि का उपयोग करके एक पीडीएफ लेख पर एक शब्द गणना की थी और इसे पूरा करने में 30 सेकंड का समय लगा।

उम्मीद है की यह मदद करेगा।


मैंने टेक्स्ट में कनवर्ट किया और wc -w filename.txt किया। इसने काम कर दिया। धन्यवाद।
vijayst

1

आप OCRFeeder इंस्टॉल कर सकते हैं । इसमें फ़ाइल चुनें-> आयात पीडीएफ-> स्वचालित रूप से सभी पृष्ठों का पता लगाएं और पहचानें- > ओडीटी को निर्यात करें और लिबर्रेफिस लेखक दस्तावेज शब्द गणना या किसी अन्य आरटीएफ फ़ंक्शन के लिए तैयार होगा जिसे आप उपयोग करना चाहते हैं।



0

आप निम्न कोड के साथ एडोब एक्रोबेट के कंसोल जावास्क्रिप्ट का उपयोग कर सकते हैं, जो मैंने मंचों पर दवे मर्चेंट के उत्तर से लिया था ।adobe.com :

var cnt=0;
for (var p = 0; p < this.numPages; p++) cnt += getPageNumWords(p);
console.println("There are " + cnt + " words in this file.");

विंडोज 7 SP1 x64 अल्टीमेट पर Adobe Acrobat Pro DC 2018.011.20040 के साथ परीक्षण किया गया।


जावास्क्रिप्ट कंसोल को सक्षम करने के लिए:

यहाँ छवि विवरण दर्ज करें

जावास्क्रिप्ट कंसोल विंडो लॉन्च करने के लिए:

CTRL + J

यहाँ छवि विवरण दर्ज करें

FYI करें, यदि आपके पास PDF के अनुरूप LaTeX स्रोत है: LaTeX दस्तावेज़ की सही शब्द-गणना


-1

डी वास्तविक मानक, जो अनुवादक लगभग 2000 के बाद से उपयोग करते हैं, AnyCount वर्ड काउंट टूल है, यह पीडीएफ और 37 अन्य स्वरूपों में शब्द गणना करता है।


व्लादिमीर, क्या कोई तृतीय-पक्ष संदर्भ (पुस्तकों, पत्रों, पत्रिकाओं, बाजार समीक्षाओं में उल्लेख) है कि शब्द गणना और अनुवाद बाजारों में किसी भी प्रकार का व्यापक रूप से उपयोग किया जाता है? जैसा books.google.com/...
osgx

-3

Ctrl+ Shift+ Fउन्नत खोज टाइप करें शब्द दर्ज करें और यह गिनती करेगा कि यह कितनी बार डॉक्टर में है। यह रॉकेट विज्ञान नहीं है।


9
मुझे लगता है कि आपने प्रश्न को गलत समझा है ... 'शब्द गणना' सामान्य रूप से किसी दस्तावेज़ में किसी विशिष्ट शब्द की संख्या के बजाय कुल शब्दों को संदर्भित करता है ... और यह भी, मुझे लगता है कि यदि आप थे तो बेहतर होगा यह निर्दिष्ट करने के लिए कि आप किस प्रोग्राम के बारे में बात कर रहे हैं - सभी पीडीएफ पाठकों के पास एक ही फ़ंक्शन नहीं है या एक ही कीबोर्ड शॉर्टकट का उपयोग करें।
evilsoup 19

आपने ओपी का जवाब नहीं दिया होगा, लेकिन आपके पोस्ट ने निश्चित रूप से मेरी मदद की। धन्यवाद। : डी
महेला ०
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.