मेरे पास स्कैन किए गए पुस्तक पृष्ठों के कई हजार पृष्ठ हैं। प्रत्येक पृष्ठ को JPG के रूप में व्यक्तिगत रूप से सहेजा जाता है। लेखन स्पष्ट है, लेकिन फ़ॉन्ट अलग-अलग हैं, और पृष्ठों में चित्र और चित्र शामिल हैं।
मुझे प्रत्येक JPG फ़ाइल में दिखाई देने वाले सभी शब्दों की एक सूची बनाने की आवश्यकता है। क्या छवि को स्कैन करने के लिए कमांड लाइन टूल है जो दिखाई देने वाले शब्दों को सूचीबद्ध करता है? इसके लिए एकदम सही स्कैनिंग की जरूरत नहीं है, बस एक अनुमान है।