.PDF स्कैन की गई पुस्तक से पाठ निकालना [बंद]


6

मेरे पास पीडीएफ प्रारूप में एक पुस्तक स्कैन है, लेकिन गुणवत्ता खराब है:

यहां छवि विवरण दर्ज करें

(भाषा रोमानियाई है और यह एक मेडिकल फिजियोलॉजी पुस्तक है, यदि आप सोच रहे थे)

मैं पुस्तक (1500 पृष्ठों) से पाठ निकालना चाहता हूं, लेकिन चित्रों को जिस तरह से रख रहा हूं। मुझे वास्तव में नहीं लगता कि मेरे पास समाधान खोजने का कोई मौका है, इसलिए मैं निश्चित रूप से पुस्तक खरीदूंगा।

इस आक्रामक पर, क्या कोई शक्तिशाली सॉफ्टवेयर है जो मैं देख सकता हूं? इसे रोमानियाई को भी पहचानना होगा।


1
इसे खरीदें, यह कानूनी है। :)

क्या होगा अगर यह एक बहुत पुरानी पुस्तक है जिसे वह अब और नहीं खरीद सकता है? :)
बोटॉन्ड बालाज़

@ बॉटल, जो वास्तव में Google पुस्तक खोज के साथ एक बहुत बड़ा मुद्दा है। इसकी अनुमानित 70% पुस्तकें कॉपीराइट, लेकिन आउट-ऑफ-प्रिंट हैं। क्लास एक्शन सेटलमेंट (Google और ऑथर्स गिल्ड और AAP के लिए काम करने वाले कुछ वकीलों के बीच बातचीत) में कहा गया है कि आउट-ऑफ-प्रिंट के लिए Google को अनुमति की आवश्यकता नहीं है, जब तक कि अधिकार मालिक विशेष रूप से समझौते से बाहर नहीं निकलते। और, जिस तरह से अमेरिकी कानून काम करता है, यह कभी निर्मित साहित्य के हर काम पर बाध्यकारी है। जब तक अन्य कंपनियां नेट का समान सौदा करती हैं, तब तक Google का पुराने साहित्य पर एकाधिकार होता है :-( देखिए बोइंग बोइंग को smallurl.com/yl5rlts
अर्जन

1
ओपी की समस्या एक पुस्तक से पाठ निकालना है। यह अभी भी एक समस्या है, भले ही उसने किताब खरीदी हो। कानूनी मुद्दे, हालांकि विचार करने लायक हैं, यहां दायरे से बाहर हैं।
मौविसील

जवाबों:


6

मैंने पहले एक उत्तर दिया है कि पीडीएफ फाइलों पर ओसीआर करने के लिए क्यूनीफॉर्म (ओपन सोर्स सॉफ्टवेयर) का उपयोग कैसे करें और मूल छवि के पीछे "छिपे हुए पाठ परत" में मान्यता प्राप्त पाठ के साथ एक पीडीएफ फाइल कैसे बनाएं। जहां तक ​​मुझे पता है, क्यूनिफॉर्म वास्तव में रोमानियाई का भी समर्थन करता है।

जबकि विशेष समाधान लिनक्स के लिए था, क्यूनिफॉर्म विंडोज के लिए भी उपलब्ध है।


2

Adobe Acrobat Professional ऐसा कर सकता है। मुझे यकीन नहीं है कि एक रोमानियाई संस्करण है ...


2

ABBYY ललित पाठक बहुत मजबूत OCR सॉफ्टवेयर है। यह बहुत ही जटिल लेआउट के साथ काम करता है और बहुत सारे प्रारूपों (पीडीएफ सहित) का समर्थन करता है। रोमानियाई शब्दकोश के साथ समर्थित है, अर्थात् सॉफ्टवेयर मान्यता के दौरान प्राथमिकता के लिए परिकल्पना के लिए शब्दकोश का उपयोग करता है। ( यहाँ )।

किसी भी मामले में, खराब स्कैन की गुणवत्ता वाला ओसीआर-इंग वैज्ञानिक साहित्य मुश्किल काम है। परिणामों की जाँच और स्थान निर्धारण के साथ सॉफ़्टवेयर की सहायता के लिए बहुत समय बिताने के लिए तैयार रहें। आपके स्कैन पर मुझे बहुत खराब गुणवत्ता वाला टेक्स्ट दिखाई देता है :( मुझे नहीं लगता कि कोई भी ओसीआर सॉफ्टवेयर सामान्य रूप से इसके साथ काम कर सकता है।


1

मान्यता ओमनीपेज अब तक का सबसे अच्छा ओसीआर प्रोग्राम है जिसका मैंने कभी इस्तेमाल किया है। मुझे यकीन है कि यह रोमानियाई पाठ को पहचान लेगा; यह मेरे मूल हंगरी के साथ कोई समस्या नहीं थी। आप लिंक से एक परीक्षण संस्करण डाउनलोड कर सकते हैं और अपनी पुस्तक को परिवर्तित करने के लिए इसका उपयोग कर सकते हैं। पूर्ण संस्करण दुर्भाग्य से बहुत pricey ($ 499.99) है ...



0

खैर, पाठ्य पहचान के लिए आमतौर पर ओसीआर (ऑप्टिकल कैरेक्टर रिकॉग्निशन) कार्यक्रमों की खोज की जाती है। उनके चारों ओर एक किस्म है, इसलिए एक साधारण Google खोज मेरे लिए यहां से अधिक अच्छा करेगी।

मुझे समझ में नहीं आया कि आखिरी भाग "रोमानियाई पहचानें" - आपका मतलब है कि इसे रोमानियाई भाषा को पहचानना है, या रोमानियाई में स्थानीयकृत (अनुवादित) होना है? पहले के मामले में, मेरा मानना ​​है कि कोई समस्या नहीं होगी; अगर दूसरा मामला है, तो मुझे यकीन नहीं है।

इसके अलावा, यदि यह आपके स्थानीय देशवासियों द्वारा एक पुस्तक नहीं है, तो एक मौका है कि यह पहले से ही अंग्रेजी में अनुवादित है ... इसलिए यदि आपके पास यह पीडीएफ में है, तो आप अंग्रेजी संस्करण की खोज करने का प्रयास कर सकते हैं ... तो केवल समस्या है आप जानते हैं कि ... गैरकानूनी (कभी-कभी किसी का चयन नहीं होता है)।


मेरा मतलब है कि इसे रोमानियाई फ़ॉन्ट / रोमानियाई वर्ण को पहचानना होगा। किसी ने मेरी पोस्ट को संपादित किया .. वास्तव में पता नहीं क्यों। : |
क्रिश्चियनएम

मुझे नहीं लगता कि आपको इसके साथ कोई समस्या होनी चाहिए (केवल वास्तव में बुरी तरह से स्कैन की गई टीइटी के लिए, जब यह तय नहीं कर सकता कि कुछ पत्र या बूँद है, तो आपको शायद मैन्युअल रूप से सही करना होगा) - मैंने एक किस्म का उपयोग किया है मास्को भाषा पर सॉफ्टवेयर (हमारे वर्णमाला में कुछ अजीब अक्षर हैं) और इसने ठीक काम किया।
रूक

ओसीआर अक्सर स्कैन त्रुटियों के लिए बनाने के लिए कुछ वर्तनी जांच का उपयोग करता है। तो, उस वर्तनी को रोमानियाई का समर्थन करना चाहिए। (हाँ, कुछ OCR मूल पाठ की तुलना में इस वर्तनी तंत्र के कारण बेहतर परिणाम प्राप्त करते हैं।)
अर्जन

ओसीआर सॉफ्टवेयर का उपयोग करते समय ये फोंट हमेशा मुश्किल होते हैं: ă, â, î, ş, ţ, y, y, y, y, y । आपको आश्चर्य होगा कि किसी पुस्तक को स्कैन करते समय वे कितनी बुरी तरह से बाहर आते हैं।
एलेक्स

-1

PDFCubed.com आज़माएं । यह एक ऑनलाइन ओसीआर सेवा है, जो खोजे गए पाठ पीडीएफ को आसान बनाती है। स्कैन किए गए दस्तावेज़ों को वेब, ईमेल या ड्रॉपबॉक्स के माध्यम से प्रस्तुत किया जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.