अजगर का उपयोग करते हुए पीडीएफ पार्स करना - स्वरूपित और सादे पाठ निकालना [बंद]

Question 1

बन्द है। यह प्रश्न स्टैक ओवरफ्लो दिशानिर्देशों को पूरा नहीं करता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है।

इस प्रश्न को सुधारना चाहते हैं? सवाल को अपडेट करें ताकि यह स्टैक ओवरफ्लो के लिए विषय पर हो ।

5 साल पहले बंद हुआ ।

मैं एक पीडीएफ लाइब्रेरी की तलाश कर रहा हूं जो मुझे पीडीएफ डॉक्यूमेंट से टेक्स्ट निकालने की अनुमति देगा। मैंने PyPDF को देखा है, और यह पीडीएफ दस्तावेज़ से पाठ को बहुत अच्छी तरह से निकाल सकता है। इसके साथ समस्या यह है कि यदि दस्तावेज़ में तालिकाओं हैं, तो तालिकाओं में पाठ को शेष दस्तावेज़ पाठ के साथ लाइन में निकाला जाता है। यह समस्याग्रस्त हो सकता है क्योंकि यह पाठ के अनुभागों का उत्पादन करता है जो उपयोगी नहीं होते हैं और इनकी गड़गड़ाहट दिखती है (उदाहरण के लिए, बहुत सारे नंबर एक साथ मैश किए हुए)।

मैं किसी भी तालिका और विशेष प्रारूपण को छोड़कर , पीडीएफ दस्तावेज़ से पाठ निकालना चाहूंगा । वहाँ एक पुस्तकालय वहाँ है कि यह करता है?

Question 2

आप PDFMiner पर भी नज़र डाल सकते हैं (या अजगर के पुराने संस्करणों के लिए PDFMiner और PDFMiner देखें )।

PDFMiner में रुचि की एक विशेष विशेषता यह है कि आप यह नियंत्रित कर सकते हैं कि उन्हें हटाते समय पाठ भागों को कैसे पुन: व्यवस्थित करें। आप लाइनों, शब्दों, वर्णों आदि के बीच की जगह को निर्दिष्ट करके ऐसा करते हैं, इसलिए, शायद इसे ट्विक करके आप जो चाहें प्राप्त कर सकते हैं (जो आपके दस्तावेजों की परिवर्तनशीलता पर निर्भर करता है)। PDFMiner आपको पृष्ठ में पाठ का स्थान भी दे सकता है, यह ऑब्जेक्ट आईडी और अन्य सामान द्वारा डेटा निकाल सकता है। तो PDFMiner में खुदाई और रचनात्मक हो!

लेकिन आपकी समस्या वास्तव में हल करने के लिए आसान नहीं है क्योंकि, एक पीडीएफ में, पाठ निरंतर नहीं है, लेकिन पृष्ठ में बिल्कुल वर्णों के बहुत से छोटे समूहों से बना है। पीडीएफ का ध्यान लेआउट को बरकरार रखना है। यह कंटेंट ओरिएंटेड नहीं बल्कि प्रेजेंटेशन ओरिएंटेड है।

Question 3

यह हल करने के लिए एक कठिन समस्या है क्योंकि नेत्रहीन समान पीडीएफ में वे कैसे उत्पादित किए गए थे, इसके आधार पर एक बेतहाशा भिन्न संरचना हो सकती है। सबसे खराब स्थिति में पुस्तकालय को मूल रूप से ओसीआर की तरह काम करने की आवश्यकता होगी। दूसरी ओर, पीडीएफ में टेबल और आंकड़ों को आसानी से हटाने के लिए पर्याप्त संरचना और मेटाडेटा हो सकता है, जिसका लाभ उठाने के लिए पुस्तकालय को अनुकूलित किया जा सकता है।

मुझे पूरा यकीन है कि कोई भी ओपन सोर्स टूल नहीं हैं जो आपकी समस्या को विभिन्न प्रकार के पीडीएफ के लिए हल करते हैं, लेकिन मुझे याद है कि कमर्शियल सॉफ्टवेयर के बारे में जो आप पूछते हैं वह करने का दावा करते हैं। मुझे यकीन है कि आप googling करते समय उनमें दौड़ेंगे।