एक बड़ी पुस्तक को डिजिटल प्रारूप में बदलने के लिए व्यावहारिक ओसीआर समाधान?


12

पिछले सप्ताह के अंत में मैं अपने दादा-दादी की जगह पर था। मेरी दादी ने अपने परिवार के इतिहास की इस विशालकाय (~ 1400 पृष्ठ) किताब को 1630 या उसके बाद वापस ले लिया। विशालकाय बेवकूफ है कि मैं कर रहा हूँ, मैंने सोचा कि यह डेटाबेस में संग्रहीत और वेब से उपलब्ध सभी जानकारी के लिए चालाक होगा। मैं सभी वेब प्रोग्रामिंग और नियमित अभिव्यक्ति को संभाल सकता हूं और क्या नहीं, लेकिन जो मुझे नहीं पता है वह पुस्तक से कंप्यूटर तक पाठ प्राप्त करने का सबसे अच्छा तरीका है।

मुझे पता है कि मेरे द्वारा किए गए थोड़े से शोध से ओसीआर आवश्यक होगा, ऐसा लगता है जैसे मेरे विकल्प हैं:

  1. एक कैमरे के साथ हर पेज की तस्वीर लें और फिर OCR सॉफ्टवेयर के साथ चित्रों को प्रोसेस करें
  2. प्रत्येक पृष्ठ को स्कैन करने के लिए एक स्कैनर का उपयोग करें, फिर ओसीआर सॉफ्टवेयर के साथ प्रक्रिया करें
  3. कुछ इस तरह से हाथ से पकड़े हुए उपकरण का उपयोग करें

क्या किसी के पास इस समस्या से निपटने के सर्वोत्तम तरीके के बारे में कोई विचार है? मैं पुस्तक को नष्ट नहीं करना चाहता, क्योंकि जहाँ तक मुझे पता है, इसे प्रतिस्थापित नहीं किया जा सकता है। यह शायद एकमात्र समय है जब मैं कभी भी एक बड़ी पुस्तक को स्कैन करने जा रहा हूं, इसलिए मुझे नहीं लगता कि मैं किसी भी तरह के उपकरण पर $ 250 से अधिक खर्च करना चाहता हूं। मुझे यहां कुछ मैनुअल प्रयास में कोई आपत्ति नहीं है (मुझे लगता है कि यह सबसे अधिक संभावना है महीनों लगेंगे), लेकिन मैं संभव सबसे कुशल तरीका खोजना चाहता हूं।

पुस्तक के बारे में ध्यान दें: यह केवल 20 साल पुराना है, इसलिए यह बहुत अच्छे आकार में है। यह मोनोक्रोम है और पृष्ठ पीले होने शुरू नहीं हुए हैं। चूंकि यह इतना बड़ा है, फिर भी मैं संभावित छाया के बारे में चिंता करता हूं जब पाठ बंधन के करीब पहुंच जाता है।

ocr 

1
एक साइड नोट पर, यदि पुस्तक केवल 20 साल पुरानी है और जानकारी 1600 के दशक में वापस आ जाती है, तो मूल स्रोत सामग्री कहां है? यह भी कब्जा करने के लिए अच्छा हो सकता है!
क्रेग

हाँ, यह भी अच्छा होगा। मैं देखने जा रहा हूं कि क्या मैं मूल लेखक को ट्रैक कर सकता हूं।

जवाबों:


8

मैं भर में आया था इस Lifehacker पर काफी कुछ समय पहले, और यह कभी के बाद से अपने शीर्ष DIY परियोजनाओं में से एक हो गया है।

यहाँ छवि विवरण दर्ज करें

IPhone को किसी भी कैमरा या इमेजिंग से बदलें, और आपको किसी भी सॉफ्टवेयर के साथ OCR के लिए तैयार किए गए अच्छे हाई-रेस जेपेग का स्टैक मिलता है, यहाँ तक कि (urks!) MS Office ...;)

सस्ते। प्रभावी। DIY। आप इस तरह एक विचार को हरा नहीं सकते।

संपादित करें: टिप्पणियों ने छाया, पेज कर्लिंग आदि के बारे में कुछ बिंदुओं को उठाया, आसानी से किसी के लिए हल किया गया है, जिनके पास शाब्दिक रूप से फोटो-कॉपी किए गए पुस्तकालय ग्रंथ हैं।

पुस्तक को रोशन करने और छाया को खत्म करने के लिए कई प्रकाश स्रोतों को जोड़ें।

पुस्तक को 90 डिग्री पर तिरछा करके पृष्ठों को बीच में बाँधने की ओर न मोड़ें। यह बाध्यकारी को भी संरक्षित करता है।

मैं देखूंगा कि क्या मैं एक उदाहरण दे सकता हूं और खुद को स्थापित कर सकता हूं।

EDIT 2: आपको पुस्तक को कैसे रखना चाहिए, इसका नमूना अपलोड किया है, और बाईं ओर से प्रकाश स्रोत को भी नोटिस किया है।

यहाँ छवि विवरण दर्ज करें


यह कितना शांत है! काश मैं ऐसा कर पाता :)
एलेक्स

हालाँकि, आपको ऐसा करने के लिए एक वास्तविक कैमरे की आवश्यकता है, और एक अच्छी गुणवत्ता, या आप चित्र के साथ समाप्त करेंगे जो आप शोषण नहीं कर सकते, खासकर एक बहुत पुरानी किताब से। इसलिए यह सस्ते से बहुत दूर है।
ग्नूपी

बहुत ही रोचक। मुझे आश्चर्य है कि यह एक पुस्तक के साथ कैसे काम करेगा, छाया पर विचार करना शायद पृष्ठों के बीच होगा।

यदि पृष्ठ मुड़े हुए हैं या छाया हैं, तो आपको अक्षरों को पहचानने के लिए ओसीआर सॉफ़्टवेयर प्राप्त करने में समस्याएँ होंगी।
एलेक्स

पुस्तक को रोशन करने और छाया को खत्म करने के लिए कई प्रकाश स्रोतों को जोड़ें। पुस्तक को 90 डिग्री पर तिरछा करें ताकि पृष्ठ बीच में बाँधने की ओर न झुकें। यह सामान्य सामान्य ज्ञान है, हम करते हैं कि हर समय कॉलेज में पुस्तकालय ग्रंथों की तस्वीरें ले रहे हैं।
कैलिबन

3

मैं जो जानता हूं, उसमें से एबीबीवाई सबसे अच्छा ओसीआर सॉफ्टवेयर बनाता है, लेकिन यह मुफ्त नहीं है। आपको ABBYY FineReader के परीक्षण संस्करण का उपयोग करने का प्रयास करना चाहिए , शायद यह आपकी मदद करेगा।


1

आपको किसी तरह छवि को कैप्चर करना होगा। आपके लिए ऐसा करने के लिए विभिन्न सेवाएँ मौजूद हैं। आपको किसी ऐसे व्यक्ति की भी आवश्यकता होगी जो पाठ की सामग्री से परिचित हो सके, क्योंकि ओसीआर अभी तक परिपूर्ण नहीं है। विशेष रूप से हस्तलिखित कुछ के साथ।

अन्य लोग यहां आपके प्रश्न पर चर्चा कर रहे हैं: http://ask.metafilter.com/92506/scan-my-books

कुछ कंपनियां आपके लिए ऐसा करेंगी: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www। ristech.ca/product.html

कुछ मुफ्त सॉफ्टवेयर: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html


1

आपके और आपके परिवार के प्रोजेक्ट के लिए इस तरह के एक बड़े और महत्वपूर्ण के लिए, एक DIY बुक स्कैनर जाने का रास्ता हो सकता है, कुछ डिज़ाइन यहां तक ​​कि स्पोर्ट पेज टर्नर - http://www.diybookscanner.org/ यह मूल रूप से OCR का समर्थन नहीं करता है , लेकिन एक घंटे में 600 पृष्ठों की शूटिंग करता है और आप इसे OCR के माध्यम से चला सकते हैं तथ्य http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/ पर



0

मैं एक फ्लैटबेड स्कैनर की सिफारिश करूँगा जो कि पुस्तक स्कैनिंग के लिए या क्रिस द्वारा उल्लिखित एक पूरे पुस्तक स्कैनर के लिए धांधली है।

यदि आप कर सकते हैं, तो अपनी छवियों को टीआईएफएफ प्रारूप में संकलित करें क्योंकि यह दस्तावेज़ प्रबंधन प्रणालियों के लिए उद्योग मानक है।

OCR करने के लिए, मैं Tesseract OCR की सिफारिश करूंगा क्योंकि यह Google द्वारा उनकी पुस्तकों की परियोजना के लिए तैयार की गई रूपरेखा है।


0

जब यह प्रक्रिया को स्वचालित करने के लिए लुभावना लगता है, तो आप अधिक समय और निवेश करना चाह सकते हैं क्योंकि यह विशेष पुस्तक एक व्यक्तिगत मामला है। OCR बल्क करेगा लेकिन आपको पेज के हिसाब से प्रूफरीड करना होगा और मूल से तुलना करनी होगी। ध्यान रखें, लेखक की गलतियाँ सौदे का हिस्सा हैं, उन्हें ठीक न करें (यदि आप ऐसा महसूस करते हैं तो फुटनोट्स बनाएं)। अपना समय ले लो, अपने आप को दबाव में मत डालो, पुस्तक स्कैनिंग गधा काम है लेकिन पूरी तरह से भुगतान करता है और आप अपने परिवार के जीर्ण की एक अच्छी डिजिटल कॉपी के साथ समाप्त करेंगे। आपके प्रयास से शुभकामनाएँ :)


वास्तव में, यह एक बहुत अच्छी बात है। मैंने पुस्तक की मूल सामग्री को डिजिटल रूप से उपलब्ध कराने पर विचार नहीं किया था, लेकिन जब तक मेरे पास यह है, मैं एक .pdf संस्करण बना सकता हूं।

पीडीएफ क्यों? HTML सोचो। और आप मूल स्कैन को बनाए रख सकते हैं, हालांकि आप भारी मात्रा में डेटा समाप्त करेंगे।

मेरा विचार एक डेटाबेस में सभी जन्म / वंश की जानकारी होना था, इसलिए मैं एक वेब फ्रंटएंड बना सकता था जो नेविगेट / खोज / अपडेट करना आसान बना देगा। मैं उस संस्करण से किसी भी टाइपो को काम करने की योजना बना रहा हूं। इसके अलावा, मेरे कुछ चचेरे भाई हैं जो वहां नहीं हैं और उन्हें जोड़ना अच्छा होगा। मैं pdf सोच रहा था क्योंकि कुछ ऐसा होना अच्छा होगा जो मूल पृष्ठ संख्याओं के साथ मूल पुस्तक की तरह दिखाई दे और ऐसा बरकरार हो। वह संस्करण मैं अकेला छोड़ दूंगा और पुस्तक से सभी टाइपोस रखूंगा।

0

काम पर हम एक Plustek Optibook 3600 पुस्तक स्कैनर का उपयोग करते हैं जो लगभग $ 250 है
यह मूल रूप से एक मानक फ्लैट बिस्तर स्कैनर है लेकिन ग्लास प्लेट स्कैनर के किनारे पर सही जा रही है ताकि पुस्तक पृष्ठ को प्लेट पर सपाट रखा जा सके। यह रीढ़ की छाया को समाप्त करता है और हानिकारक पुस्तकों से बचा जाता है।

यहाँ छवि विवरण दर्ज करें


क्या तुमने कभी एक बहुत मोटी किताब के साथ प्रयोग करने की कोशिश की है? यह 3 इंच मोटा है।

यदि आप इसे 90 ° पृष्ठ के साथ खोल सकते हैं तो उचित रूप से समतल होना चाहिए। तालिका किनारे पर प्रयास करें।
pelms
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.