छवियों में कार-मॉडल को पहचानने के लिए अच्छी विशेषताएं / एल्गोरिदम


9

मेरे पास ऑब्जेक्ट मान्यता के बारे में एक सवाल है, विशेष रूप से कार-मॉडल को पहचानने में! मैं विभिन्न छवियों में एक ही कार-मॉडल की पहचान करने के बारे में एक काम की शुरुआत में हूं। फिलहाल मुझे लगता है कि 3 डी ऑब्जेक्ट रिकग्निशन के लिए सबसे अच्छा एल्गोरिथ्म में से एक SIFT है, लेकिन एक डेमो कार्यान्वयन के साथ थोड़ा खेलने के बाद मुझे अजीब लग रहा है कि इस एल्गोरिथ्म में कारों जैसी चमकदार धातु की वस्तुओं के साथ कुछ समस्याएं हैं, खासकर अगर उनके पास अलग-अलग रंग हैं।

क्या किसी को इस क्षेत्र में सामान्य रूप से अलग-अलग छवियों में एक ही कार-मॉडल को खोजने के कार्य के लिए कुछ उपयुक्त एल्गोरिदम में कुछ काम पता है?

आपकी सहायता के लिये पहले से ही धन्यवाद!


2
क्या आप कुछ उदाहरण चित्र पोस्ट कर सकते हैं?
एंडोलिथ

ज़रूर। कार-मॉडल का एक मॉडल बनाने के लिए छवियां ;-) इस तरह हो सकती हैं: s5 कूप प्रशिक्षण 1 या s5 कूप प्रशिक्षण 2 लेकिन यह भी 'सामान्य' चित्र। क्वेरी छवियां s5 कूप क्वेरी 1 आशा की तरह हो सकती हैं जो मदद करती हैं!
21:39

कारों पर उपयुक्त मुख्य बिंदुओं की पहचान करने के लिए SIFT, GLOH या SURF जैसे वैकल्पिक फ़ीचर-डिटेक्टर क्या हैं?
jstr

@ अगर आपने नीचे वर्णित योजना को लागू करना समाप्त कर दिया है, तो यह कितनी अच्छी तरह काम करता है?
सॉल्विंगपीसूट्स

जवाबों:


7

मैं तथाकथित "शब्दों के बैग" या "दृश्य शब्दों" दृष्टिकोण पर एक नज़र होगा। इसका उपयोग छवि वर्गीकरण और पहचान के लिए तेजी से किया जाता है। यह एल्गोरिथ्म आमतौर पर एक छवि में, मजबूत बिंदुओं जैसे कि SIFT अंक का पता लगाने से शुरू होता है। इन पाया बिंदुओं के आसपास का क्षेत्र (आपके मामले में 128 बिट SIFT विवरणक) का उपयोग किया जाता है।

सबसे सरल रूप में, सभी विवरणों से सभी डेटा सभी डेटा एकत्र कर सकते हैं और उन्हें क्लस्टर कर सकते हैं, उदाहरण के लिए k- साधनों का उपयोग करते हुए। प्रत्येक मूल छवि में तब वर्णनकर्ता होते हैं जो कई समूहों में योगदान करते हैं। इन समूहों के केंद्रक यानी दृश्य शब्द, छवि के लिए एक नए विवरणक के रूप में इस्तेमाल किए जा सकते हैं। मूल रूप से आप आशा करते हैं कि क्लस्टर एक छवि जिसका वर्णनकर्ता योगदान देता है, छवि श्रेणी का सूचक है।

फिर से, सबसे सरल मामले में, आपके पास क्लस्टर की एक सूची है, और प्रति चित्र में, आप यह गिनते हैं कि इनमें से कौन से क्लस्टर में उस छवि के विवरणकर्ता हैं और कितने हैं। यह पाठ पुनर्प्राप्ति में प्रयुक्त शब्द आवृत्ति / व्युत्क्रम दस्तावेज़ आवृत्ति (TD / IFD) विधि के समान है। इस त्वरित और गंदे Matlab स्क्रिप्ट को देखें।

इस दृष्टिकोण पर सक्रिय रूप से शोध किया गया है और आसपास बहुत अधिक उन्नत एल्गोरिदम हैं।

VLfeat वेबसाइट में कैलटेक 101 डेटासेट को वर्गीकृत करते हुए इस दृष्टिकोण का एक अच्छा और उन्नत डेमो है। इसके अलावा उल्लेखनीय, कैलटेक से ही परिणाम और सॉफ्टवेयर हैं ।


हे मॉरिट्स, आपके उत्तर के लिए धन्यवाद। मैं उस बारे में सोचूंगा! लेकिन एक सवाल। यदि मेरे पास 'दृश्य शब्द' हैं तो मैं उनके बीच की दूरी को कैसे मापूं? मुझे लगता है कि मैं SIFT डिस्क्रिप्टर का उपयोग करूंगा क्या यह सही है? - लोव के पास एक पेपर है जिसमें उन्होंने SIFT डिस्क्रिप्टर के मॉडल बनाकर 3D ऑब्जेक्ट्स को पहचानने की विधि का वर्णन किया है। क्या कोई इस विषय पर कुछ अन्य अच्छे कागजात (अन्य विशेषताओं के साथ 3 डी ऑब्जेक्ट मान्यता) जानता है?
jstr

इस मामले में, बस यूक्लिडियन दूरी, जैसा कि आप पूर्णांक वैक्टर को क्लस्टर कर रहे हैं। मुझे नहीं लगता है कि आपको क्लस्टर सेंट्रोइड्स के बीच की दूरी को प्रति सेगमेंट में मापना होगा, बल्कि, जब एक क्वेरी इमेज (और इस तरह क्वेरी डिस्क्रिप्टर) के साथ प्रस्तुत किया जाता है, तो आप मापते हैं कि ये डिस्क्रिप्टर सबसे नज़दीक किस सेंट्रो के लिए हैं।
मॉरिस 22:12

ओके डिस्टेंस मेजरमेंट का उपयोग करना स्पष्ट है;; लेकिन किस डेटा पर? दृश्य शब्द प्रति SIFT डिस्क्रिप्टर्स पर?
जस्ट

वास्तव में तीन बार, प्रारंभिक क्लस्टरिंग के लिए एक मीट्रिक के रूप में, यह पता लगाने के लिए कि किस डेटाबेस में विज़ुअलाइज़ेशन के लिए क्वेरी / td / idf वेक्टर की तुलना करने के लिए किस सेंट्रो / विज़ुअर्ड में क्वेरी डिस्क्रिप्टर सबसे करीब है, और फिर अंत में।
मॉरिस 22:56 12:56

ठीक है, मुझे वह ;-) लेकिन किस डेटा पर दूरी मापने का काम करता है? SIFT विवरणकों पर?
जस्ट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.