बुकशेल्फ़ इमेज से बुक टाइटल और लेखक का स्लिंग और रिकॉग्निशन


13

मैं अपने स्वयं के सीखने के उद्देश्यों के लिए कोशिश कर रहा हूं, एक एल्गोरिथ्म के कार्यान्वयन को विकसित करने के लिए जो पुस्तकों की सूची देगा, जैसे कि एक बुकशेल्फ़ की एक छवि दी गई है:

यहाँ छवि विवरण दर्ज करें

पहला कदम व्यक्तिगत पुस्तकों में छवि को स्लाइस करना है।

मेरे एल्गोरिथ्म, में मेथेमेटिका , है:

    img = ColorConvert[Import["http://i.stack.imgur.com/IaLQk.jpg"], "GrayScale"]
  • एक बुनियादी बढ़त का पता लगाने और
  • पाठ को हटा दें और लंबी लाइनें रखने का प्रयास करें

    edge = DeleteSmallComponents[EdgeDetect[img, 3],Last[ImageDimensions[img]]/5]
    
  • फिर अवांछित क्षैतिज रेखाओं को हटा दें

    lines = Sort[ImageLines[img5] /. {{0., _}, {_, _}} -> Sequence[]]
    Show[img, Graphics[{Thick, Orange, Line /@ lines}]]
    

परिणाम, हालांकि, महान से कम हैं:

यहाँ छवि विवरण दर्ज करें

मेरे प्रश्न हैं:

  1. बेहतर परिणाम प्राप्त करने के लिए मैं इसे कैसे सुधार सकता हूं?
  2. क्या ऐसा करने का कोई स्मार्ट तरीका है?
  3. (बाद में) ओसीआर चरण में सटीकता बढ़ाने के लिए मुझे छवियों को कैसे संसाधित करना चाहिए?
  4. विभाजन को बेहतर बनाने के लिए रंग जानकारी का उपयोग कैसे करें?

1
@OrenPinsky मैं विभाजन के साथ समस्या नहीं देखता: "झूठी पुस्तक क्षेत्रों" की संख्या अधिक नहीं है (मैं आपके द्वारा प्रदान किए गए नमूने में केवल एक ही देख सकता हूं), और यदि आप किसी तरह की पाठ पहचान करने की योजना बनाते हैं अगला कदम, कि पुस्तकों के बीच भेदभाव करने के लिए पर्याप्त होना चाहिए (क्षेत्र में पाठ है) और न ही किताबें (कोई पाठ नहीं)
पेनेलोप

3
@OrenPinsky, मैं कहूंगा कि आपके परिणाम बहुत शानदार हैं। :)
दिमा

जवाबों:


7

यहां एक शोध पत्र का लिंक दिया गया है, जो जैसा आप चाहते हैं वैसा ही करने की कोशिश करता है। यह आपकी मदद कर सकता है। छवि सुविधाओं का उपयोग करके YouTube पर एक अच्छा वीडियो भी


दुर्भाग्य से, पहली कड़ी टूट गई है।
Youngjae

4

लाइनों का पता लगाने के लिए आप किस विधि का उपयोग कर रहे हैं? क्या आपने एलएसडी के साथ प्रयोग करने की कोशिश की है ?

यहाँ एक त्वरित परीक्षण के परिणाम हैं जो मैंने एलएसडी का उपयोग करके किया था:

0.1heightpic1

दूसरी छवि एक ही कोण बाधा के साथ परिणाम हैं लेकिन खंडों की लंबाई की उपेक्षा: pic2

आप इसके साथ थोड़ा सा खेलने की कोशिश कर सकते हैं, यह जान सकते हैं कि सबसे अच्छी लाइन सेगमेंट को कैसे चुना जाए, उन्हें लाइनों तक विस्तारित किया जाए और शायद आपके द्वारा पोस्ट किए गए की तुलना में थोड़ा बेहतर परिणाम प्राप्त करें।


6
"क्या आपने एलएसडी के साथ प्रयोग करने की कोशिश की है?" अच्छी कोशिश, एफबीआई;)
लोरेम इप्सुम

Mathematica की इमेजलाइन Hough के रूपांतरण पर आधारित है, और मुझे अब यकीन है (यहाँ की प्रतिक्रिया से, ज्यादातर) यह बहुत अच्छी तरह से काम करता है। हालाँकि, यह मुझे परेशान करता है, कि जब मैं ग्रेस्केल में रूपांतरित होता हूं, तो मैं प्रासंगिक डेटा खो देता हूं, और इस एप्लिकेशन में रंग डेटा (सहज रूप से) एक मजबूत एज डिटेक्टर की मदद कर सकता है। एलएसडी को आजमाएं और देखें कि यह कैसे जाता है! (यह स्टीव जॉब्स के लिए आश्चर्यजनक रूप से अच्छी तरह से काम किया; ;-)
ओरेन पिंस्की

मैंने दरवाजे की पहचान के लिए एक दोस्त का उपयोग एलएसडी देखा है, मुझे लगता है कि वह अंत में परिणामों से प्रसन्न था। मैं कहता हूँ कि यह एक शॉट के लायक है: D
पेनेलोप

1

आप एज डिटेक्शन के लिए अपनी पसंद की विधि का उपयोग करके, अलग-अलग रंग डोमेन पर एज डिटेक्शन करने की कोशिश कर सकते हैं और फिर उन्हें मर्ज कर सकते हैं।

रंग छवि पर सीधे किनारे का पता लगाने की तुलना में, यह बेहतर परिणाम दे सकता है।


0

इस्रिश द्वारा प्रदान की गई टूटी हुई कड़ी से कागज को इमेज और टेक्स्ट फीचर्स को मिलाते हुए पाया जा सकता है: मोबाइल बुक स्पाइन रिकग्निशन के लिए एक हाइब्रिड अप्रोच , प्रोक। मल्टीमीडिया पर 19 वीं एसीएम अंतर्राष्ट्रीय सम्मेलन, 2011. डेविड चेन एट अल से अन्य कागजात भी देख सकते हैं , उदाहरण के लिए लो-कॉस्ट एसेट ट्रैकिंग लोकेशन-अवेयर कैमरा फ़ोन , प्रोक का उपयोग करके । SPIE 2010।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.