अजगर का उपयोग करते हुए पीडीएफ पार्स करना - स्वरूपित और सादे पाठ निकालना [बंद]


82

मैं एक पीडीएफ लाइब्रेरी की तलाश कर रहा हूं जो मुझे पीडीएफ डॉक्यूमेंट से टेक्स्ट निकालने की अनुमति देगा। मैंने PyPDF को देखा है, और यह पीडीएफ दस्तावेज़ से पाठ को बहुत अच्छी तरह से निकाल सकता है। इसके साथ समस्या यह है कि यदि दस्तावेज़ में तालिकाओं हैं, तो तालिकाओं में पाठ को शेष दस्तावेज़ पाठ के साथ लाइन में निकाला जाता है। यह समस्याग्रस्त हो सकता है क्योंकि यह पाठ के अनुभागों का उत्पादन करता है जो उपयोगी नहीं होते हैं और इनकी गड़गड़ाहट दिखती है (उदाहरण के लिए, बहुत सारे नंबर एक साथ मैश किए हुए)।

मैं किसी भी तालिका और विशेष प्रारूपण को छोड़कर , पीडीएफ दस्तावेज़ से पाठ निकालना चाहूंगा । वहाँ एक पुस्तकालय वहाँ है कि यह करता है?

जवाबों:


61

आप PDFMiner पर भी नज़र डाल सकते हैं (या अजगर के पुराने संस्करणों के लिए PDFMiner और PDFMiner देखें )।

PDFMiner में रुचि की एक विशेष विशेषता यह है कि आप यह नियंत्रित कर सकते हैं कि उन्हें हटाते समय पाठ भागों को कैसे पुन: व्यवस्थित करें। आप लाइनों, शब्दों, वर्णों आदि के बीच की जगह को निर्दिष्ट करके ऐसा करते हैं, इसलिए, शायद इसे ट्विक करके आप जो चाहें प्राप्त कर सकते हैं (जो आपके दस्तावेजों की परिवर्तनशीलता पर निर्भर करता है)। PDFMiner आपको पृष्ठ में पाठ का स्थान भी दे सकता है, यह ऑब्जेक्ट आईडी और अन्य सामान द्वारा डेटा निकाल सकता है। तो PDFMiner में खुदाई और रचनात्मक हो!

लेकिन आपकी समस्या वास्तव में हल करने के लिए आसान नहीं है क्योंकि, एक पीडीएफ में, पाठ निरंतर नहीं है, लेकिन पृष्ठ में बिल्कुल वर्णों के बहुत से छोटे समूहों से बना है। पीडीएफ का ध्यान लेआउट को बरकरार रखना है। यह कंटेंट ओरिएंटेड नहीं बल्कि प्रेजेंटेशन ओरिएंटेड है।


1
PDFMiner दिलचस्प लग रहा है। मैं इसे से एक्सएमएल आउटपुट का उपयोग करने में सक्षम हूं, और फिर मुझे जो नहीं चाहिए उसे अनदेखा करने के लिए पार्स करें। इसके लिए अभी भी पर्याप्त पोस्ट-प्रोसेसिंग की आवश्यकता है, लेकिन अभी के लिए यह संभवतः सबसे अच्छा समाधान है। धन्यवाद।
माइक सियालोविक्ज़

@ एटिएन, अगर पीडीएफ में अन्य भाषा के अक्षर भी हैं तो क्या इसका इस्तेमाल किया जा सकता है?
साहिल मित्तल

इसे अन्य भाषा पात्रों के साथ काम करना चाहिए। डॉक्स का उल्लेख है: सीजेके भाषा और ऊर्ध्वाधर लेखन स्क्रिप्ट समर्थन करते हैं। सुनिश्चित करने के लिए सबसे अच्छा तरीका है, यह परीक्षण!
एटिएन

1
PDFMiner का pdfminer.six पायथन 3 पोर्ट मेरे लिए अच्छी तरह से काम कर रहा है
14

1
संस्करण 20191010 से शुरू, PDFMiner केवल पायथन 3 का समर्थन करता है
काल्पनिक

0

यह हल करने के लिए एक कठिन समस्या है क्योंकि नेत्रहीन समान पीडीएफ में वे कैसे उत्पादित किए गए थे, इसके आधार पर एक बेतहाशा भिन्न संरचना हो सकती है। सबसे खराब स्थिति में पुस्तकालय को मूल रूप से ओसीआर की तरह काम करने की आवश्यकता होगी। दूसरी ओर, पीडीएफ में टेबल और आंकड़ों को आसानी से हटाने के लिए पर्याप्त संरचना और मेटाडेटा हो सकता है, जिसका लाभ उठाने के लिए पुस्तकालय को अनुकूलित किया जा सकता है।

मुझे पूरा यकीन है कि कोई भी ओपन सोर्स टूल नहीं हैं जो आपकी समस्या को विभिन्न प्रकार के पीडीएफ के लिए हल करते हैं, लेकिन मुझे याद है कि कमर्शियल सॉफ्टवेयर के बारे में जो आप पूछते हैं वह करने का दावा करते हैं। मुझे यकीन है कि आप googling करते समय उनमें दौड़ेंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.