डिजिटल पाठ के लिए भौतिक पाठ


9

मुझे पहले इस प्रश्न के साथ उपसर्ग करने दें, मुझे नहीं पता कि इस प्रश्न के लिए StackExchange साइट सबसे उपयुक्त होगी, लेकिन मुझे लगा कि LifeHacks काम कर सकता है ...

1998 में परिवार के मेरी मॉम के पक्ष में एक बड़ा पारिवारिक पुनर्मिलन हुआ (मेरी महान दादी के दस बच्चे थे इसलिए यह वास्तव में एक बड़ी सभा थी)। मेरे एक दूर के चाचा ने इस पुनर्मिलन के लिए हमारे परिवारों के इतिहास पर एक तरह की किताब लिखी और मेरी माँ ने मुझे पढ़ने के लिए किताब दी। मैं विश्वास नहीं कर सकता कि यह कितना बड़ा है और पुस्तक में कितना शोध हुआ। मैं एक ऐसी वेबसाइट पर पूरी किताब प्राप्त करने का तरीका जानना चाहूंगा, जिसे मैं अपने परिवार के सभी लोगों के साथ साझा कर सकता हूं और आखिरकार इस आकर्षक पुस्तक की तुलना में इतिहास को संरक्षित कर सकता हूं।

इस उम्मीद में कि मुझे इस पूरी 300 पेज की किताब के लिए शब्द टाइप करने की जरूरत नहीं है, क्या कोई ऐसा तरीका है जहां मैं सिर्फ पेजों को स्कैन कर उन्हें डिजिटल टेक्स्ट में ला सकूं? जाहिर है कि मैं सिर्फ चित्र ले सकता था और चित्रों का उपयोग करके वेबसाइट बना सकता था, लेकिन मुझे ऐसा लगता है कि इसे वास्तविक पाठ के रूप में रखना अधिक लाभदायक होगा क्योंकि तब यह Google खोजों में बेहतर दिख सकता है जब कोई परिवार के सदस्यों का नाम या ऐसा कुछ खोजता है। इसके अलावा, यदि परिवार में कोई व्यक्ति कभी भी हमारे परिवार पर एक शोध परियोजना करता है, तो वे कुछ पाठों की प्रतिलिपि बना सकते हैं और इसे अधिक आसानी से संदर्भित कर सकते हैं।

तो क्या कोई सबसे अच्छा तरीका जानता है कि मैं इस पुरानी पारिवारिक पुस्तक को डिजिटल पाठ में शामिल कर सकता हूं?

पुस्तक का मुख पृष्ठ

मोटाई का संकेत देने वाली पुस्तक

जवाबों:


14

एक एंड्रॉइड फोन और " Google लेंस " का उपयोग करें , हाल ही में फोटो ऐप में जोड़ा गया है और कैमरा फोटो की समीक्षा की गई है।

Google लेंस के माध्यम से ओसीआर मेरे द्वारा उपयोग किए गए किसी भी ओसीआर सॉफ़्टवेयर से परे बहुत अद्भुत और सटीक है।

नीचे कुछ स्क्रीनशॉट में एक सस्ते (100 यूएसडी) नोकिया 3 का उपयोग करके प्रक्रिया को रेखांकित किया गया है , सबसे अच्छा फोन जिसे मैंने अपने प्यारे नेक्सस 4 के भूत छोड़ने के बाद से उपयोग करने का आनंद लिया है।

मैं 1976 में छपी एक यूनानी नैतिकता की पुस्तक का एक नमूना OCR स्कैन का विवरण दूंगा कि मैं स्कैनिंग के लिए आंसू नहीं बहा रहा हूं, ऐसा लगता है कि समान वर्ण घनत्व और टाइपफेस है।

मैंने इस मूल तस्वीर को आदर्श प्रकाश व्यवस्था की स्थिति से कम में लिया, इसलिए फ़ोन फोन पर सभी ऑटो सेटिंग्स का उपयोग करते हुए, परिणाम बढ़ाने के लिए कोई विशेष फोटो तकनीक या जुड़नार का उपयोग नहीं किया गया था, आप कह सकते हैं कि यह सिर्फ एक सादे शौकिया तौर पर लिया गया फोन पिक है पुस्तक का पृष्ठ । (बस यह सुनिश्चित करें कि पाठ केंद्रित है, कोई OCR धुंधले ऑफ-फोकस पाठ को डिक्रिप्ट नहीं करेगा)

यहाँ छवि विवरण दर्ज करें

Google लेंस आइकन पर क्लिक करें, चित्र लेने के बाद पूर्वावलोकन के माध्यम से उपलब्ध है या Google फ़ोटो ऐप का उपयोग करके फ़ोटो पर ही

यहाँ छवि विवरण दर्ज करें

Here -Skynet- ^M^M^M^M^M^Mमेरा मतलब है, Google Lens अपनी मैजिक स्कैनिंग कर रहा है (डॉट्स थोड़े खौफनाक हैं, लेकिन उन्हें कुछ करने के लिए आपको बताना होगा कि Googley AI अपनी बात कर रहा है, मुझे लगता है)

यहाँ छवि विवरण दर्ज करें

एक बार छवि स्कैन हो जाने के बाद, आपको उन पाठ क्षेत्रों का पता चलेगा, जो चित्र में Google लेंस को स्पष्ट रूप से मिले थे और उनका पाठ पहले से ही स्क्रीन के निचले आधे हिस्से तक निकाला गया था। यदि आप केवल कुछ क्षेत्रों और दूसरों को नहीं चाहते हैं, तो उन्हें सक्रिय / निष्क्रिय करने के लिए अपने चयन को स्पर्श करें।

यदि आप निकाले गए पाठ को स्पर्श करते हैं, तो यह आपके फोन में कहीं भी कॉपी / पेस्ट अच्छाई के लिए आपके क्लिपबोर्ड में रखा जाएगा ।

यहाँ छवि विवरण दर्ज करें

बाद में, बस टेक्स्ट को Google डॉक्स दस्तावेज़ पर चिपकाएँ । वहाँ, आप कर सकते हैं: - किसी भी गलतियों को वहीं या अपने पीसी पर सही करें, - दस्तावेज़ को अपने दिल की सामग्री में साझा करें, - इसे अपने संपादन के लाइव अपडेट के साथ एक वेब पेज के रूप में प्रकाशित करें, या - सादे पाठ, - शब्द दस्तावेज़ में निर्यात करें , - ओपन ऑफिस डॉक्यूमेंट, - रीफ्लिंग टेक्स्ट के साथ किंडल संगत एपब इलेक्ट्रॉनिक पुस्तक, या - अच्छा ol 'नॉन-डीआरएमडी पीडीएफ

यह तर्क दिया जा सकता है कि यह संभवतया प्रकाशन का सबसे छोटा रास्ता है, जिसमें सबसे अधिक संभव आउटपुट विकल्प हैं।

आप यह सब एक डिवाइस से कर सकते हैं, (इंस्टॉल किए गए उपयुक्त ऐप के साथ एंड्रॉइड फोन) और इसके साथ कुछ ही समय में उच्च सटीकता दर के साथ किया जा सकता है, मूल रूप से मुफ्त में।

यहां Google डॉक्स फ्रैगमेंट चिपकाए गए हैं
यहाँ छवि विवरण दर्ज करें

यहाँ Google डॉक्स URL हिस्सा है, टिप्पणी करने के लिए स्वतंत्र महसूस करें। आप किसी को दस्तावेज़ को दूरस्थ रूप से और साथ-साथ संपादित करने में भी मदद कर सकते हैं।

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

अंत में यहाँ एक Google साइट की वेबसाइट है जो उपरोक्त स्रोत के रूप में लिंक किए गए स्रोत के रूप में प्रकाशित हुई है

https://sites.google.com/h-lo.me/ocrsample

यह https, डेस्कटॉप और मोबाइल सक्षम है और स्वाद पर निर्भर करता है, आम तौर पर एक आंख नहीं है। 15 मिनट के कुल काम के लिए बुरा नहीं है और जो भी कोडिंग नहीं है।


एक परिशोधन शेष है, और वह है Google दस्तावेज़ पर उचित अनुच्छेद बनाना , क्योंकि Google लेंस निकाले गए पाठ की प्रत्येक पंक्ति के बाद एक कठिन रिटर्न सम्मिलित करता है, जो हर पंक्ति को अपना पैराग्राफ बनाता है और यदि आप उपयोग करना चाहते हैं तो यह एक मुद्दा बन जाएगा। Google डॉक्स में सामग्री तालिका के रूप में , या जब आप अपने दस्तावेज़ को किंडल संगत ई-पब इलेक्ट्रॉनिक पुस्तक में निर्यात करते हैं (रिफ्लेक्टिंग टेक्स्ट को गड़बड़ करता है)

आप बस हर उस लाइन से जुड़ सकते हैं, जहाँ हर लाइन स्टार्ट पर बैकस्पेस की मार से उपयुक्त है, या इसे स्क्रिप्ट के साथ स्वचालित किया जा सकता है।

इसलिए, मैं एक ऐप स्क्रिप्ट लिख रहा हूं, जिस पर मैं इस प्रक्रिया को स्वचालित करने के लिए शीघ्र ही प्रकाशित करूंगा। मैं तुम्हें यहाँ बता दूँगा जब यह हो गया।


बहुत अच्छी जानकारी। मुझे यह मुफ्त समाधान पसंद है। धन्यवाद!
काइल ब्रिडेनस्टाइन

मेरा सौभाग्य! तुम भी सब कुछ आप पहले से ही जरूरत हो सकती है! :)
हेलकंडा

एक मोटी किताब के लिए, यह वास्तव में श्रम-गहन दृष्टिकोण है: आपको प्रत्येक पृष्ठ को मैन्युअल रूप से फ्लिप करना होगा और फिर उसकी तस्वीर खींचनी होगी।
होब्स

6

आप इसे चरणों में कर सकते हैं। पेज स्कैन के रूप में ऑनलाइन सब कुछ डालने के साथ शुरू करें और जब आप कर सकते हैं तब अपडेट करें। Cerlox ™ प्लास्टिक कंघी बाइंडिंग को अलग ले जाती है और इसे वापस बांधने में आसान बनाती है।

जैसा कि मुद्रण समान आकार में सामान्य सेरिफ़ प्रकार का प्रतीत होता है, ऑप्टिकल कैरेक्टर रिकॉग्निशन सॉफ़्टवेयर का उपयोग करके स्कैन को डिजिटल किया जा सकता है। OCR आपको एक ड्राफ्ट टेक्स्ट फ़ाइल दे सकता है जिसे आप वेबसाइट पर इसके अंतिम रूप के लिए प्रूफरीड और प्रकाशित कर सकते हैं।

उसी समय, आप चित्रों और अन्य चित्रात्मक सामग्री को साफ-सुथरा कर सकते हैं।

आप इसे समय / संसाधन के रूप में परियोजना के लिए उपलब्ध होने पर कर सकते हैं।


पिछले उत्तर के समान, लेकिन उतना विस्तृत नहीं।
ट्रोजन एस्पेलिन

@TrajanEspelien पिछला उत्तर क्या है? टाइमस्टैम्प की जाँच करें। जवाब पहले, दो दिन पहले ही हेकुआ जमा करना था। :)
स्टेन

हाँ, लेकिन इसका उतना विस्तार नहीं है, जितना कि दूसरे उत्तर में, यही वजह है कि मैंने इस पर दूसरे को स्वीकार किया। यह पहले सर्वर पहले नहीं आया है .. यह सबसे अच्छा जवाब है।
काइल ब्रिडेनस्टाइन

@ केलीब्रिडेनस्टाइन नो किडिंग! मैंने हाईकू को भी उकसाया। यह बहुत अच्छा जवाब था। वैसे, अगर आपके पास एंड्रॉइड फोन नहीं था या ग्लास एक्सेस नहीं कर सकता है तो क्या होगा? मैंने प्रश्न के लिए एक सामान्य उत्तर दिया। :)
स्टेन

1
@KyleBridenstine तरह के शब्दों के लिए धन्यवाद। हम मानते हैं। मुझे लगता है कि आपने इंतजार करके सही काम किया। सबसे पहले इस सवाल का जवाब नहीं सबसे अच्छा है (जब तक यह है किसी कारण से। समय सीमा रहे हैं, सब के बाद।) मैं अपने प्रश्न और एक सहयोगी जो से स्कूल रिकॉर्ड की एक बड़ी ढेर के साथ एक ही बात करना है करने के लिए hiecuanda के महान जवाब देने के लिए लिंक भेजा ब्राजील!
स्टेन

2

कुछ अच्छे जवाब यहाँ खुद के पास पहुंचने के लिए।

मैं आपके लिए यह करने के लिए किसी और को भुगतान करने के अपने अनुभव को जोड़ना चाहूंगा।

मैंने यूनाइटेड किंगडम में डिजिटाइज़ माय बुक्स का इस्तेमाल किया (मैं खुद यूके स्थित हूं)।

मैं परिणामों से बहुत प्रसन्न था: प्रत्येक पुस्तक एक पीडीएफ के रूप में दी गई है जिसमें खोज योग्य (और प्रतिलिपि) पाठ है। एक मानक पीडीएफ तकनीक का उपयोग किया जाता है, जिसके तहत प्रत्येक पृष्ठ के लिए मूल छवि को बरकरार रखा जाता है, लेकिन एक पाठ ओवरले के साथ, जैसे कि आप पृष्ठ पर मूल पाठ को उजागर कर सकते हैं। बहुत अच्छा मूल्य। यूके से किसी के रूप में, आप अभी भी उन्हें किताबें भेज सकते हैं।

वे पुस्तक के लिए संपादन योग्य शब्द दस्तावेज़ प्रारूप में होने का विकल्प भी देते हैं, अतिरिक्त लेकिन बहुत ही उचित लागत पर।

यदि आपको मूल वापस करने की आवश्यकता नहीं है, तो सबसे सस्ता विकल्प विनाशकारी स्कैनिंग चुनना होगा। यह वह जगह है जहाँ पृष्ठों को पुस्तक से अलग-अलग लिया जाता है और स्कैन किया जाता है। डिफ़ॉल्ट रूप से, मूल पुस्तक वापस नहीं की गई है, हालांकि मेरा मानना ​​है कि आप इसे अनुरोध कर सकते हैं, संभवतः अतिरिक्त लागत (उदाहरण के लिए वापसी डाक) पर लेकिन पृष्ठ ढीले होंगे, जिन्हें अलग-अलग स्कैन करने के लिए हटा दिया जाएगा। विनाशकारी स्कैनिंग वह विकल्प है जिसे मैंने अपनी सभी पुस्तकों के लिए चुना था और मुझे मूल को वापस करने की आवश्यकता नहीं थी।

यदि आप मूल की आवश्यकता करते हैं तो वे गैर-विनाशकारी प्रतिलिपि भी पेश करते हैं, लेकिन लागत अधिक होती है। वे आपके स्वयं के डिजिटल स्कैन को भी स्वीकार करते हैं यदि आपने पहले ही किसी पुस्तक को स्वयं स्कैन कर लिया है - तो वे इसे खोज योग्य, कॉपी करने योग्य पीडीएफ या वर्ड डॉक में बना सकते हैं।

उनकी वेबसाइट के चारों ओर एक नज़र है। मुझे वास्तव में लगता है कि यह सबसे अच्छा विकल्प है: समय बचाने के लिए पैसे खर्च करें, बजाय पैसे बचाने के।

मैं डिजिटाइज़ माई बुक्स के लिए काम नहीं करता, न ही उनमें कोई वित्तीय दिलचस्पी है (शेयरधारक या अन्यथा)।

मूल रूप से मैंने खुद को किताबों में "स्कैन" करना शुरू कर दिया था, एक क्लिपबोर्ड क्लिप और ब्लू-टेक के साथ खुले प्रत्येक पृष्ठ के साथ डीएसएलआर कैमरा (फोटो खींचना फ्लैट स्कैन से तेज है) का उपयोग करके। लेकिन मैंने इसे श्रम गहन नहीं पाया।

यदि आप अभी भी इसे स्वयं करने के इच्छुक हैं, तो ScanTailor एक ओपन सोर्स विंडोज एप्लीकेशन है, जो डबल पेज / पेज के जोड़े को अलग-अलग पेज में स्कैन करके, उन्हें सीधा और "डीवर्प" कर देगा। ताकि परिणामी पृष्ठ वांछित के रूप में सपाट और सीधे दिखाई दें, हालांकि यह ओसीआर नहीं करता है: परिणाम अभी भी बिटमैप चित्र हैं। लेकिन कम से कम यह किसी भी तरह से पृष्ठों की किसी भी विकृति को देखते हुए स्वचालित रूप से बैच करने के लिए जाता है, विशेष रूप से गैर-विनाशकारी नकल के लिए जहां बड़ी पुस्तकों के लिए पृष्ठों को पूरी तरह से सपाट करने की व्यवस्था करना मुश्किल है।

अपडेट किया गया

किसी सेवा द्वारा दिए गए स्कैनिंग विकल्पों के बारे में अधिक जानकारी जोड़ी गई। ScanTailor अधिक जानकारी। व्याकरण सुधार।


1

ऐसा करने का सबसे तेज़ तरीका यह है कि अपने रिश्तेदार से संपर्क करें और देखें कि क्या उनके पास अभी भी मूल फाइलें हैं जो उन्होंने उस पुस्तक को बनाने के लिए उपयोग की थीं। फ्रंट पेज फोटो से मैं कहूंगा कि यह एक कंप्यूटर पर बनाया गया है। एक मौजूदा प्रारूप में {डालें वास्तव में पुराने वर्ड प्रोसेसर पैकेज} से एक वर्तमान प्रारूप में कनवर्ट करें और आप कर रहे हैं।

डिजिटल सामग्री में मुद्रित सामग्री के ढेर को बदलने का दूसरा सबसे तेज़ तरीका:

  1. बंधन हटा दो।
  2. छेद से छुटकारा पाने के लिए पन्नों के बाएं किनारे को काटें। छेद एक दस्तावेज़ फीडर के साथ हस्तक्षेप करते हैं।
  3. पुस्तक के माध्यम से जाओ और किसी भी कमी और अन्य नुकसान को प्रकट करें जो दस्तावेज़ फीडर के साथ हस्तक्षेप करेगा।
  4. किसी भी कारण से आधुनिक डुप्लेक्स प्रिंटर ढूंढें जिसमें एक दस्तावेज़ फीडर और एक स्कैनिंग सुविधा है। पीडीएफ पर स्कैन करें।

फिर स्कैन किए गए पृष्ठों को वर्ड फ़ाइल में बदलने के लिए किसी भी OCR पैकेज का उपयोग करें। मैं इस उद्देश्य के लिए एडोब एक्रोबैट के पूर्ण संस्करण में ओसीआर सुविधाओं का उपयोग करता हूं, लेकिन आसपास कई ओसीआर इंजन हैं।


0

आप एक बहुत सस्ती सेवा की कोशिश कर सकते हैं: preserve-your-memories.info। इसे स्वयं करते समय, मैं अपने स्कैनर का उपयोग ओमनीपेज, एक ओसीआर प्रोग्राम को स्कैन करने के लिए करता हूं, और फिर एक पीडीएफ फाइल के रूप में सहेजता हूं जो पूरी तरह से खोज योग्य है। चूंकि आपका प्रकाशन प्लास्टिक कंघी है, इसलिए अलग-अलग पृष्ठों को स्कैन करना और फिर रिबंड करना आसान है। उपर्युक्त सुझावों में दी गई तस्वीरों को लेना भी बहुत ही उपयोगी है - कई दृष्टिकोणों के बीच एक अच्छा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.