बुकशेल्फ़ इमेज से बुक टाइटल और लेखक का स्लिंग और रिकॉग्निशन

13

मैं अपने स्वयं के सीखने के उद्देश्यों के लिए कोशिश कर रहा हूं, एक एल्गोरिथ्म के कार्यान्वयन को विकसित करने के लिए जो पुस्तकों की सूची देगा, जैसे कि एक बुकशेल्फ़ की एक छवि दी गई है:

यहाँ छवि विवरण दर्ज करें

पहला कदम व्यक्तिगत पुस्तकों में छवि को स्लाइस करना है।

मेरे एल्गोरिथ्म, में मेथेमेटिका , है:

    img = ColorConvert[Import["http://i.stack.imgur.com/IaLQk.jpg"], "GrayScale"]

एक बुनियादी बढ़त का पता लगाने और
पाठ को हटा दें और लंबी लाइनें रखने का प्रयास करें
```
edge = DeleteSmallComponents[EdgeDetect[img, 3],Last[ImageDimensions[img]]/5]
```

फिर अवांछित क्षैतिज रेखाओं को हटा दें

lines = Sort[ImageLines[img5] /. {{0., _}, {_, _}} -> Sequence[]]
Show[img, Graphics[{Thick, Orange, Line /@ lines}]]

परिणाम, हालांकि, महान से कम हैं:

यहाँ छवि विवरण दर्ज करें

मेरे प्रश्न हैं:

बेहतर परिणाम प्राप्त करने के लिए मैं इसे कैसे सुधार सकता हूं?
क्या ऐसा करने का कोई स्मार्ट तरीका है?
(बाद में) ओसीआर चरण में सटीकता बढ़ाने के लिए मुझे छवियों को कैसे संसाधित करना चाहिए?
विभाजन को बेहतर बनाने के लिए रंग जानकारी का उपयोग कैसे करें?

opencv computer-vision image-segmentation

— ओरेन पिंस्की
स्रोत

1

@OrenPinsky मैं विभाजन के साथ समस्या नहीं देखता: "झूठी पुस्तक क्षेत्रों" की संख्या अधिक नहीं है (मैं आपके द्वारा प्रदान किए गए नमूने में केवल एक ही देख सकता हूं), और यदि आप किसी तरह की पाठ पहचान करने की योजना बनाते हैं अगला कदम, कि पुस्तकों के बीच भेदभाव करने के लिए पर्याप्त होना चाहिए (क्षेत्र में पाठ है) और न ही किताबें (कोई पाठ नहीं)

— पेनेलोप

3

@OrenPinsky, मैं कहूंगा कि आपके परिणाम बहुत शानदार हैं। :)

— दिमा

7

यहां एक शोध पत्र का लिंक दिया गया है, जो जैसा आप चाहते हैं वैसा ही करने की कोशिश करता है। यह आपकी मदद कर सकता है। छवि सुविधाओं का उपयोग करके YouTube पर एक अच्छा वीडियो भी

— isrish
स्रोत

दुर्भाग्य से, पहली कड़ी टूट गई है।

— Youngjae

4

लाइनों का पता लगाने के लिए आप किस विधि का उपयोग कर रहे हैं? क्या आपने एलएसडी के साथ प्रयोग करने की कोशिश की है ?

यहाँ एक त्वरित परीक्षण के परिणाम हैं जो मैंने एलएसडी का उपयोग करके किया था:

$0.1 * height$

दूसरी छवि एक ही कोण बाधा के साथ परिणाम हैं लेकिन खंडों की लंबाई की उपेक्षा:

आप इसके साथ थोड़ा सा खेलने की कोशिश कर सकते हैं, यह जान सकते हैं कि सबसे अच्छी लाइन सेगमेंट को कैसे चुना जाए, उन्हें लाइनों तक विस्तारित किया जाए और शायद आपके द्वारा पोस्ट किए गए की तुलना में थोड़ा बेहतर परिणाम प्राप्त करें।

— ppalasek
स्रोत

6

"क्या आपने एलएसडी के साथ प्रयोग करने की कोशिश की है?" अच्छी कोशिश, एफबीआई;)

— लोरेम इप्सुम

Mathematica की इमेजलाइन Hough के रूपांतरण पर आधारित है, और मुझे अब यकीन है (यहाँ की प्रतिक्रिया से, ज्यादातर) यह बहुत अच्छी तरह से काम करता है। हालाँकि, यह मुझे परेशान करता है, कि जब मैं ग्रेस्केल में रूपांतरित होता हूं, तो मैं प्रासंगिक डेटा खो देता हूं, और इस एप्लिकेशन में रंग डेटा (सहज रूप से) एक मजबूत एज डिटेक्टर की मदद कर सकता है। एलएसडी को आजमाएं और देखें कि यह कैसे जाता है! (यह स्टीव जॉब्स के लिए आश्चर्यजनक रूप से अच्छी तरह से काम किया; ;-)

— ओरेन पिंस्की

मैंने दरवाजे की पहचान के लिए एक दोस्त का उपयोग एलएसडी देखा है, मुझे लगता है कि वह अंत में परिणामों से प्रसन्न था। मैं कहता हूँ कि यह एक शॉट के लायक है: D

— पेनेलोप

1

आप एज डिटेक्शन के लिए अपनी पसंद की विधि का उपयोग करके, अलग-अलग रंग डोमेन पर एज डिटेक्शन करने की कोशिश कर सकते हैं और फिर उन्हें मर्ज कर सकते हैं।

रंग छवि पर सीधे किनारे का पता लगाने की तुलना में, यह बेहतर परिणाम दे सकता है।

— नरेश
स्रोत

0

इस्रिश द्वारा प्रदान की गई टूटी हुई कड़ी से कागज को इमेज और टेक्स्ट फीचर्स को मिलाते हुए पाया जा सकता है: मोबाइल बुक स्पाइन रिकग्निशन के लिए एक हाइब्रिड अप्रोच , प्रोक। मल्टीमीडिया पर 19 वीं एसीएम अंतर्राष्ट्रीय सम्मेलन, 2011. डेविड चेन एट अल से अन्य कागजात भी देख सकते हैं । , उदाहरण के लिए लो-कॉस्ट एसेट ट्रैकिंग लोकेशन-अवेयर कैमरा फ़ोन , प्रोक का उपयोग करके । SPIE 2010।

— दिमित्री पोडबोर्स्की
स्रोत