सबसे पहले, आपको समझना होगा कि पीडीएफ क्या है। पीडीएफ एक मुद्रित पृष्ठ की नकल करने के लिए डिज़ाइन किए गए हैं, और वे केवल आउटपुट स्वरूप के रूप में डिज़ाइन किए गए हैं , न कि इनपुट प्रारूप। एक पीडीएफ मूल रूप से एक नक्शा है जिसमें वर्णों का सटीक स्थान (व्यक्तिगत पत्र या विराम चिह्न, आदि) या चित्र हैं। ज्यादातर मामलों में , एक पीडीएफ इस बात की जानकारी भी संग्रहीत नहीं करता है कि एक शब्द कहां समाप्त होता है और दूसरा शुरू होता है, बहुत कम चीजें जैसे सॉफ्ट ब्रेक बनाम पैरा ब्रेकिंग के लिए हार्ड ब्रेक।
(कुछ हालिया PDF इस सामान के बारे में कुछ जानकारी संग्रहीत करते हैं, लेकिन यह एक नई तकनीक है, और आप इस तरह से PDF ढूंढने में भाग्यशाली होंगे। यदि आपने किया भी है, तो भी आपके पीडीएफ दर्शक को इसके बारे में पता नहीं होगा।)
वैसे भी, यह आपके सॉफ्टवेयर पर निर्भर है कि किसी तरह के "आर्टिफिशियल इंटेलिजेंस" को लागू करने के लिए केवल अलग-अलग वर्णों के स्थानों से निकालने के लिए कि एक शब्द क्या है, एक पैराग्राफ क्या है, और इसी तरह। अलग-अलग सॉफ्टवेयर दूसरों की तुलना में बेहतर करने जा रहे हैं, और यह इस बात पर भी निर्भर करेगा कि पीडीएफ कैसे बनाया गया था। किसी भी मामले में, आपको कभी भी सही परिणाम की उम्मीद नहीं करनी चाहिए । आउटपुट पीडीएफ होने के स्रोत स्रोत के रूप में ही नहीं है। यदि आप कर सकते हैं तो प्राप्त करने का प्रयास करना बेहतर है।
आपकी तरह की समस्या का मानक समाधान एडोब एक्रोबेट प्रोफेशनल (महंगे वाले, मुफ्त पाठक नहीं) को पीडीएफ को HTML में बदलने के लिए उपयोग करना है। यहां तक कि सही परिणाम भी नहीं मिलने वाले हैं।
मुफ्त सॉफ्टवेयर है जिसका उपयोग पीडीएफ से टेक्स्ट को फॉर्मेटिंग के कुछ तरीकों से निकालने के लिए किया जा सकता है, लेकिन फिर से, सही परिणाम की उम्मीद न करें। देखें, उदाहरण के लिए, कैलिबर (जो RTF प्रारूप में परिवर्तित हो सकता है), pdftohtml / pdfreflow या AbiWord वर्ड प्रोसेसर (सभी आयात / निर्यात प्लग इन सक्षम के साथ)। OpenOffice के लिए एक पीडीएफ आयात प्लगइन भी है।
लेकिन कृपया इनमें से किसी भी परिणाम के साथ पूर्णता की उम्मीद न करें। आप यहाँ अनाज के खिलाफ जा रहे हैं। पीडीएफ सिर्फ एक संपादन योग्य इनपुट प्रारूप के रूप में नहीं है।