मैं एक पीडीएफ लाइब्रेरी की तलाश कर रहा हूं जो मुझे पीडीएफ डॉक्यूमेंट से टेक्स्ट निकालने की अनुमति देगा। मैंने PyPDF को देखा है, और यह पीडीएफ दस्तावेज़ से पाठ को बहुत अच्छी तरह से निकाल सकता है। इसके साथ समस्या यह है कि यदि दस्तावेज़ में तालिकाओं हैं, तो तालिकाओं में पाठ को शेष दस्तावेज़ पाठ के साथ लाइन में निकाला जाता है। यह समस्याग्रस्त हो सकता है क्योंकि यह पाठ के अनुभागों का उत्पादन करता है जो उपयोगी नहीं होते हैं और इनकी गड़गड़ाहट दिखती है (उदाहरण के लिए, बहुत सारे नंबर एक साथ मैश किए हुए)।
मैं किसी भी तालिका और विशेष प्रारूपण को छोड़कर , पीडीएफ दस्तावेज़ से पाठ निकालना चाहूंगा । वहाँ एक पुस्तकालय वहाँ है कि यह करता है?