सामग्री आधारित छवि पुनर्प्राप्ति के लिए संभावित छवि सुविधाओं की सूची


15

मैं रंग, उन्मुख किनारों और इतने पर छवियों में समान / समान वस्तुओं को खोजने के मामले में उनकी प्रयोज्य को मापने के लिए संभव छवि सुविधाओं की एक सूची खोजने की कोशिश कर रहा हूं। क्या कोई ऐसी सूची या कम से कम कुछ विशेषताओं को जानता है?


यह विषय से बाहर है लेकिन, क्या सीबीआईआर ओपन इमेज डेटासेट से फीचर निकाल सकता है? क्या स्थानीय डिस्क में छवि को सहेजे नहीं जाने के बावजूद छवि की सुविधा को निकालना संभव है?
Quix0te

जवाबों:


25

मैदान अपने आप में बहुत विशाल है। इसलिए मुझे संदेह है कि आप यहां पूरी तरह से विस्तृत सूची रख सकते हैं। हालाँकि, MPEG 7 इस क्षेत्र के मानकीकरण में प्राथमिक प्रयासों में से एक है। तो यहां जो शामिल है वह सार्वभौमिक नहीं है - लेकिन कम से कम सबसे प्राथमिक।

यहाँ कुछ मुख्य फ़ीचर सेट हैं जो एमपीईजी 7 में पहचाने जाते हैं (मैं वास्तव में केवल विज़ुअल डेस्क्रिप्टर के बारे में बात कर सकता हूं जो अन्य लोग इसे पूरी गुंजाइश के लिए नहीं देखते हैं )।

विजुअल डिस्क्रिप्टर्स के 4 कैटगरी हैं:

1. रंग
वर्णक जिसमें शामिल हैं: प्रमुख रंग,
रंग लेआउट (अनिवार्य रूप से ब्लॉक-बाय-ब्लॉक आधार पर प्राथमिक रंग)
स्केलेबल रंग (अनिवार्य रूप से रंग हिस्टोग्राम),
रंग संरचना (अनिवार्य रूप से स्थानीय रंग हिस्टोग्राम),
और रंगीन स्थान जो चीजों को अस्थिर बनाने के लिए।

2. बनावट विवरण (यह भी देखें) इस ) जो शामिल हैं:
बनावट ब्राउज़िंग डिस्क्रिप्टर - जो परिभाषित करता है के विवरण का स्तर / बेअदबी, नियमितता, और दिशा। सजातीय बनावट वर्णक - जो कि गैबर फिल्टर बैंक पर आधारित है। और
एज हिस्टोग्राम

3. आकृति विवरणी जिसमें शामिल हैं:
विवरणी क्षेत्र आधारित विवरणक विचार के तहत आकार के अदिश गुण हैं - जैसे कि क्षेत्र, ecentricities आदि
कंटूर आधारित जो वास्तविक विशेषता आकृति सुविधाओं और
3 डी विवरणकों को कैप्चर करता है।

4. वीडियो के लिए मोशन डिस्क्रिप्टर्स
कैमरा मोशन (3-डी कैमरा मोशन पैरामीटर)
मोशन ट्रैजेक्टरी (दृश्य में मौजूद वस्तुएं) [जैसे ट्रैकिंग एल्गोरिदम द्वारा निकाले गए] पैरामीट्रिक मोशन (जैसे मोशन वैक्टर, जो दृश्य की गति का वर्णन करने की अनुमति देता है।) लेकिन यह विभिन्न वस्तुओं पर अधिक जटिल मॉडल हो)।
गतिविधि जो एक शब्दार्थ वर्णनकर्ता से अधिक है।


MPEG 7 परिभाषित नहीं करता है "ये कैसे निकाले जाते हैं" - यह केवल यह परिभाषित करता है कि उनका क्या मतलब है और उन्हें कैसे प्रतिनिधित्व / स्टोर करना है। इसलिए उन्हें निकालने और उनका उपयोग करने के तरीके पर शोध मौजूद है।

यहाँ एक और है अच्छा पेपर है जो इस विषय में अंतर्दृष्टि देता है।

लेकिन हां, इनमें से कई विशेषताएं बुनियादी हैं और अधिक शोध हो सकता है और अधिक परिष्कृत (और जटिल) सुविधा सेट बनाएगा।



6

एक पुस्तक भी है जो इस विषय से संबंधित कागजात का एक समूह बनाती है। इसे विजुअल जानकारी रिट्रीवल का सिद्धांत कहा जाता है ।


पुस्तकों के बारे में Google कई सकारात्मक समीक्षा प्रकट नहीं करता है। सकारात्मक से अधिक शिकायतें वास्तव में। क्या आपको अभी भी लगता है कि यह एक अच्छा संदर्भ है, और यदि हां, तो शायद आप हमें बता सकते हैं कि यह आपके लिए कब उपयोगी था? :)
पेनेलोप

इसे यहां रखने का मुख्य कारण यह नहीं है कि मैंने इसका बहुत उपयोग किया है, लेकिन मेरे शिक्षक ने इसकी सिफारिश की (और मैं उनकी राय को महत्व देता हूं)। इसके बारे में Google से पता चलता है कि यह वास्तव में कागजों का एक बंडल है, और वास्तव में एक पुस्तक नहीं है। यह अपने पुराने को भी दिखाता है, लेकिन इस विषय पर कुछ पुस्तकों में से एक है। इसलिए, मुझे लगता है कि मेरा उत्तर अभी भी उपयुक्त है।
गीर्टन

3

@ दिपन मेहता ने उन फीचर डिस्क्रिप्टर को कवर किया, जिनका उपयोग किया जा सकता है। चलिए अब मैं कुछ फीचर डिटेक्शन मेथड्स का उल्लेख करके सिक्के के दूसरे हिस्से को आजमाता हूं और कवर करता हूं जो सीबीआईआर के लिए अच्छे फीचर निकालते हैं ।

मेरे लिए मेरा संदर्भ CBIR अनुसंधान द्वारा कागजात थे Sivic, Zisserman और Nister, Stewenius । इन लेखकों से अधिक वर्तमान पेपर हैं, लेकिन ये सभी प्रासंगिक विचारों को प्रस्तुत करते हैं।

उनका तर्क है कि एक कुशल सीबीआईआर विधियों को लागू करने के लिए , पूरक गुणों की सुविधाओं का उपयोग किया जाना चाहिए:

  • आकार अनुकूलित क्षेत्र - कोने जैसी सुविधाओंपर केंद्रित होते हैं

    उदाहरण: हैरिस कॉर्नर, मल्टी-स्केल हैरिस, DoG (गॉसियंस का अंतर - लेकिन किनारों पर भी प्रतिक्रिया करता है!)।

  • मैक्सिमली स्टेबल क्षेत्र - बूँद जैसी विशेषताओंपर केंद्रित होते हैं

    उदाहरण: MSER (Maximally Stable Extermal Region), DoG

आश्चर्यजनक रूप से, विकिपीडिया भी सुविधा (डिटेक्टर) प्रकारों का एक अच्छा वर्गीकरण प्रदान करता है, जिसमें बताया गया है कि वे वर्तमान में उपयोग की जाने वाली अधिकांश सुविधाओं के लिए किस प्रकार के ब्याज क्षेत्रों का पता लगाते हैं:

  • एज डिटेक्टरों
  • कोने का पता लगाने वाला
  • बूँद डिटेक्टर
  • रिज डिटेक्टर

अधिकांश वर्तमान लेख मैंने पढ़ा है कि SIFT (स्केल-इनवेरिएंट फ़ीचर ट्रांस्फ़ॉर्म) डिस्क्रिप्टर रॉक का उपयोग करते हैं और चुने हुए फ़ीचर डिटेक्टरों के साथ संयोजन में उपयोग करने के लिए पर्याप्त रूप से मजबूत होते हैं। संदर्भ में शामिल हैं:

  • पहले से ही उपलब्ध कराए गए लिंक
  • Mikolajczyk, Schmid स्थानीय विवरणकों की तुलना के साथ संबंधित है
  • Dahl डिटेक्टर-डिस्क्रिप्टर संयोजनों का मूल्यांकन करता है

ध्यान दें! ये कागज सीबीआईआर के साथ कड़ाई से पेश नहीं आते हैं, लेकिन सीबीआईआर- संबंधित कार्यों में संदर्भ के रूप में उपयोग किए जाते हैं ।

अंत में, यह उल्लेख करते हुए कि सफल CBIR विधियाँ केवल फ़ीचर डिटेक्टरों और वर्णनकर्ताओं पर निर्भर नहीं करती हैं , बल्कि:

  • एक कुशल खोज संरचना (दृश्य सुविधाओं का परिमाण)
  • छवि विवरणकों के निर्माण का तरीका - या तो सामान्य दृश्य सुविधाओं (स्थानीय वर्णनकर्ता) पर आधारित है, या वैश्विक छवि विवरणकों की तुलना करके (यह बहुत नया विचार है, इसलिए वर्तमान में कोई संदर्भ नहीं)
  • छवि विवरणकों के बीच की दूरी को मापें

इसके अलावा, मैं पहले से ही विषय में कुछ सवाल का जवाब दे दिया CBIR पर डीएसपी और stackoverflow , दोनों संदर्भ और स्पष्टीकरण के साथ साथ कर रहे हैं और मुझे लगता है कि वे प्रासंगिक हो सकता है, तो आप एक बार देख लेने के लिए चाहते हो सकता है:

  • डीएसपी: 1
  • स्टैकओवरफ़्लो: 1 , 2
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.