एक बड़ी पुस्तक को डिजिटल प्रारूप में बदलने के लिए व्यावहारिक ओसीआर समाधान?

12

पिछले सप्ताह के अंत में मैं अपने दादा-दादी की जगह पर था। मेरी दादी ने अपने परिवार के इतिहास की इस विशालकाय (~ 1400 पृष्ठ) किताब को 1630 या उसके बाद वापस ले लिया। विशालकाय बेवकूफ है कि मैं कर रहा हूँ, मैंने सोचा कि यह डेटाबेस में संग्रहीत और वेब से उपलब्ध सभी जानकारी के लिए चालाक होगा। मैं सभी वेब प्रोग्रामिंग और नियमित अभिव्यक्ति को संभाल सकता हूं और क्या नहीं, लेकिन जो मुझे नहीं पता है वह पुस्तक से कंप्यूटर तक पाठ प्राप्त करने का सबसे अच्छा तरीका है।

मुझे पता है कि मेरे द्वारा किए गए थोड़े से शोध से ओसीआर आवश्यक होगा, ऐसा लगता है जैसे मेरे विकल्प हैं:

एक कैमरे के साथ हर पेज की तस्वीर लें और फिर OCR सॉफ्टवेयर के साथ चित्रों को प्रोसेस करें
प्रत्येक पृष्ठ को स्कैन करने के लिए एक स्कैनर का उपयोग करें, फिर ओसीआर सॉफ्टवेयर के साथ प्रक्रिया करें
कुछ इस तरह से हाथ से पकड़े हुए उपकरण का उपयोग करें ।

क्या किसी के पास इस समस्या से निपटने के सर्वोत्तम तरीके के बारे में कोई विचार है? मैं पुस्तक को नष्ट नहीं करना चाहता, क्योंकि जहाँ तक मुझे पता है, इसे प्रतिस्थापित नहीं किया जा सकता है। यह शायद एकमात्र समय है जब मैं कभी भी एक बड़ी पुस्तक को स्कैन करने जा रहा हूं, इसलिए मुझे नहीं लगता कि मैं किसी भी तरह के उपकरण पर $ 250 से अधिक खर्च करना चाहता हूं। मुझे यहां कुछ मैनुअल प्रयास में कोई आपत्ति नहीं है (मुझे लगता है कि यह सबसे अधिक संभावना है महीनों लगेंगे), लेकिन मैं संभव सबसे कुशल तरीका खोजना चाहता हूं।

पुस्तक के बारे में ध्यान दें: यह केवल 20 साल पुराना है, इसलिए यह बहुत अच्छे आकार में है। यह मोनोक्रोम है और पृष्ठ पीले होने शुरू नहीं हुए हैं। चूंकि यह इतना बड़ा है, फिर भी मैं संभावित छाया के बारे में चिंता करता हूं जब पाठ बंधन के करीब पहुंच जाता है।

ocr

1

एक साइड नोट पर, यदि पुस्तक केवल 20 साल पुरानी है और जानकारी 1600 के दशक में वापस आ जाती है, तो मूल स्रोत सामग्री कहां है? यह भी कब्जा करने के लिए अच्छा हो सकता है!

— क्रेग

हाँ, यह भी अच्छा होगा। मैं देखने जा रहा हूं कि क्या मैं मूल लेखक को ट्रैक कर सकता हूं।

8

मैं भर में आया था इस Lifehacker पर काफी कुछ समय पहले, और यह कभी के बाद से अपने शीर्ष DIY परियोजनाओं में से एक हो गया है।

यहाँ छवि विवरण दर्ज करें

IPhone को किसी भी कैमरा या इमेजिंग से बदलें, और आपको किसी भी सॉफ्टवेयर के साथ OCR के लिए तैयार किए गए अच्छे हाई-रेस जेपेग का स्टैक मिलता है, यहाँ तक कि (urks!) MS Office ...;)

सस्ते। प्रभावी। DIY। आप इस तरह एक विचार को हरा नहीं सकते।

संपादित करें: टिप्पणियों ने छाया, पेज कर्लिंग आदि के बारे में कुछ बिंदुओं को उठाया, आसानी से किसी के लिए हल किया गया है, जिनके पास शाब्दिक रूप से फोटो-कॉपी किए गए पुस्तकालय ग्रंथ हैं।

पुस्तक को रोशन करने और छाया को खत्म करने के लिए कई प्रकाश स्रोतों को जोड़ें।

पुस्तक को 90 डिग्री पर तिरछा करके पृष्ठों को बीच में बाँधने की ओर न मोड़ें। यह बाध्यकारी को भी संरक्षित करता है।

मैं देखूंगा कि क्या मैं एक उदाहरण दे सकता हूं और खुद को स्थापित कर सकता हूं।

EDIT 2: आपको पुस्तक को कैसे रखना चाहिए, इसका नमूना अपलोड किया है, और बाईं ओर से प्रकाश स्रोत को भी नोटिस किया है।

यहाँ छवि विवरण दर्ज करें

— द्वेषपूर्ण व्यक्ति
स्रोत

यह कितना शांत है! काश मैं ऐसा कर पाता :)

— एलेक्स

हालाँकि, आपको ऐसा करने के लिए एक वास्तविक कैमरे की आवश्यकता है, और एक अच्छी गुणवत्ता, या आप चित्र के साथ समाप्त करेंगे जो आप शोषण नहीं कर सकते, खासकर एक बहुत पुरानी किताब से। इसलिए यह सस्ते से बहुत दूर है।

— ग्नूपी

बहुत ही रोचक। मुझे आश्चर्य है कि यह एक पुस्तक के साथ कैसे काम करेगा, छाया पर विचार करना शायद पृष्ठों के बीच होगा।

यदि पृष्ठ मुड़े हुए हैं या छाया हैं, तो आपको अक्षरों को पहचानने के लिए ओसीआर सॉफ़्टवेयर प्राप्त करने में समस्याएँ होंगी।

— एलेक्स

पुस्तक को रोशन करने और छाया को खत्म करने के लिए कई प्रकाश स्रोतों को जोड़ें। पुस्तक को 90 डिग्री पर तिरछा करें ताकि पृष्ठ बीच में बाँधने की ओर न झुकें। यह सामान्य सामान्य ज्ञान है, हम करते हैं कि हर समय कॉलेज में पुस्तकालय ग्रंथों की तस्वीरें ले रहे हैं।

— कैलिबन

3

मैं जो जानता हूं, उसमें से एबीबीवाई सबसे अच्छा ओसीआर सॉफ्टवेयर बनाता है, लेकिन यह मुफ्त नहीं है। आपको ABBYY FineReader के परीक्षण संस्करण का उपयोग करने का प्रयास करना चाहिए , शायद यह आपकी मदद करेगा।

— एलेक्स
स्रोत

1

आपको किसी तरह छवि को कैप्चर करना होगा। आपके लिए ऐसा करने के लिए विभिन्न सेवाएँ मौजूद हैं। आपको किसी ऐसे व्यक्ति की भी आवश्यकता होगी जो पाठ की सामग्री से परिचित हो सके, क्योंकि ओसीआर अभी तक परिपूर्ण नहीं है। विशेष रूप से हस्तलिखित कुछ के साथ।

अन्य लोग यहां आपके प्रश्न पर चर्चा कर रहे हैं: http://ask.metafilter.com/92506/scan-my-books

कुछ कंपनियां आपके लिए ऐसा करेंगी: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www। ristech.ca/product.html

कुछ मुफ्त सॉफ्टवेयर: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

— NickSentowski
स्रोत

1

आपके और आपके परिवार के प्रोजेक्ट के लिए इस तरह के एक बड़े और महत्वपूर्ण के लिए, एक DIY बुक स्कैनर जाने का रास्ता हो सकता है, कुछ डिज़ाइन यहां तक कि स्पोर्ट पेज टर्नर - http://www.diybookscanner.org/ यह मूल रूप से OCR का समर्थन नहीं करता है , लेकिन एक घंटे में 600 पृष्ठों की शूटिंग करता है और आप इसे OCR के माध्यम से चला सकते हैं तथ्य http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/ पर

— Xaq Fixx
स्रोत

0

आप यह देखना चाहते हैं कि आपके पास के विश्वविद्यालय के पास पूरी पुस्तक स्कैनर है और फिर अपनी पुस्तक को डालने के लिए एक छात्र से भीख माँगें / रिश्वत दें।

— क्रिस नवा
स्रोत

0

मैं एक फ्लैटबेड स्कैनर की सिफारिश करूँगा जो कि पुस्तक स्कैनिंग के लिए या क्रिस द्वारा उल्लिखित एक पूरे पुस्तक स्कैनर के लिए धांधली है।

यदि आप कर सकते हैं, तो अपनी छवियों को टीआईएफएफ प्रारूप में संकलित करें क्योंकि यह दस्तावेज़ प्रबंधन प्रणालियों के लिए उद्योग मानक है।

OCR करने के लिए, मैं Tesseract OCR की सिफारिश करूंगा क्योंकि यह Google द्वारा उनकी पुस्तकों की परियोजना के लिए तैयार की गई रूपरेखा है।

— ग्रेग बुहलर
स्रोत

0

जब यह प्रक्रिया को स्वचालित करने के लिए लुभावना लगता है, तो आप अधिक समय और निवेश करना चाह सकते हैं क्योंकि यह विशेष पुस्तक एक व्यक्तिगत मामला है। OCR बल्क करेगा लेकिन आपको पेज के हिसाब से प्रूफरीड करना होगा और मूल से तुलना करनी होगी। ध्यान रखें, लेखक की गलतियाँ सौदे का हिस्सा हैं, उन्हें ठीक न करें (यदि आप ऐसा महसूस करते हैं तो फुटनोट्स बनाएं)। अपना समय ले लो, अपने आप को दबाव में मत डालो, पुस्तक स्कैनिंग गधा काम है लेकिन पूरी तरह से भुगतान करता है और आप अपने परिवार के जीर्ण की एक अच्छी डिजिटल कॉपी के साथ समाप्त करेंगे। आपके प्रयास से शुभकामनाएँ :)

वास्तव में, यह एक बहुत अच्छी बात है। मैंने पुस्तक की मूल सामग्री को डिजिटल रूप से उपलब्ध कराने पर विचार नहीं किया था, लेकिन जब तक मेरे पास यह है, मैं एक .pdf संस्करण बना सकता हूं।

पीडीएफ क्यों? HTML सोचो। और आप मूल स्कैन को बनाए रख सकते हैं, हालांकि आप भारी मात्रा में डेटा समाप्त करेंगे।

मेरा विचार एक डेटाबेस में सभी जन्म / वंश की जानकारी होना था, इसलिए मैं एक वेब फ्रंटएंड बना सकता था जो नेविगेट / खोज / अपडेट करना आसान बना देगा। मैं उस संस्करण से किसी भी टाइपो को काम करने की योजना बना रहा हूं। इसके अलावा, मेरे कुछ चचेरे भाई हैं जो वहां नहीं हैं और उन्हें जोड़ना अच्छा होगा। मैं pdf सोच रहा था क्योंकि कुछ ऐसा होना अच्छा होगा जो मूल पृष्ठ संख्याओं के साथ मूल पुस्तक की तरह दिखाई दे और ऐसा बरकरार हो। वह संस्करण मैं अकेला छोड़ दूंगा और पुस्तक से सभी टाइपोस रखूंगा।

0

काम पर हम एक Plustek Optibook 3600 पुस्तक स्कैनर का उपयोग करते हैं जो लगभग $ 250 है ।
यह मूल रूप से एक मानक फ्लैट बिस्तर स्कैनर है लेकिन ग्लास प्लेट स्कैनर के किनारे पर सही जा रही है ताकि पुस्तक पृष्ठ को प्लेट पर सपाट रखा जा सके। यह रीढ़ की छाया को समाप्त करता है और हानिकारक पुस्तकों से बचा जाता है।

यहाँ छवि विवरण दर्ज करें

— pelms
स्रोत

क्या तुमने कभी एक बहुत मोटी किताब के साथ प्रयोग करने की कोशिश की है? यह 3 इंच मोटा है।

यदि आप इसे 90 ° पृष्ठ के साथ खोल सकते हैं तो उचित रूप से समतल होना चाहिए। तालिका किनारे पर प्रयास करें।

— pelms