जवाबों:
मुक्त दिखता है, बस कोशिश की और यह मेरे लिए अच्छा काम करता है।
Google डॉक्स अब एक नई एपीआई सुविधा का परीक्षण कर रहा है जो छवियों और पीडीएफ पर ओसीआर (ऑप्टिकल कैरेक्टर रिकॉग्निशन) का उपयोग करता है।
से गूगल ऑपरेटिंग सिस्टम :
Google डॉक्स एपीआई एक नई सुविधा का परीक्षण करता है जो आपको एक छवि पर ओसीआर (ऑप्टिकल चरित्र पहचान) करने देता है। एक लाइव डेमो है जो इस सुविधा को दिखाता है : आप एक उच्च-रिज़ॉल्यूशन जेपीजी, जीआईएफ, या पीएनजी छवि अपलोड कर सकते हैं जिसमें 10 एमबी से कम है और Google डॉक्स पाठ को निकालता है और इसे एक नए दस्तावेज़ में परिवर्तित करता है। Google का उल्लेख है कि "ऑपरेशन में वर्तमान में 40 सेकंड तक का समय लग सकता है" और एक छोटे परीक्षण से पता चला कि सेवा अभी तक विश्वसनीय नहीं है: यह धीमा है और यह अक्सर त्रुटियां देता है।
परिणाम एकदम सही हैं और आपको कई त्रुटियां मिलेंगी, लेकिन सेवा मुफ्त है और इसमें लगातार सुधार हो रहा है। यहाँ इस स्कैन किए गए दस्तावेज़ के लिए OCR का परिणाम है :
Google डॉक्स दस्तावेज़ को HTML, OpenOffice और Word सहित कई विभिन्न स्वरूपों में निर्यात किया जा सकता है:
SO पर मेरे उत्तर के अनुसार क्या कोई भी आसानी से एक पीडीएफ को एक docx प्रारूप में प्रोग्रामेटिक रूप से परिवर्तित करने का तरीका जानता है :
एसवीजी में पीडीएफ कन्वर्ट करें (भूतलेख यह करेगा) और आयात करें कि ...
... बिंदु यह है कि जबकि वर्ड पीडीएफ एम्बेड नहीं करेगा, यह एसवीजी एम्बेड करेगा।
उदाहरण के लिए , ओम्निपेज प्रो जैसे एक ऑप्टिकल चरित्र पहचान कार्यक्रम का उपयोग करें । यह पीडीएफ को एक डॉक्यूमेंट इनपुट और वर्ड को आउटपुट के रूप में सपोर्ट करता है।
आप OCRTerminal को भी आज़मा सकते हैं जो प्रति माह 20 पृष्ठों के लिए मुफ्त सेवा प्रदान करता है। उनके पास एक बीटा डेस्कटॉप क्लाइंट है जो निमंत्रण द्वारा उपयोग के लिए उपलब्ध है (आपको उनसे संपर्क करना होगा और रुचि व्यक्त करनी होगी)।