डीसीटी के माध्यम से बनावट वर्गीकरण


12

एक असतत कोसाइन रूपांतरण से सुविधाओं का उपयोग करके छवि की बनावट को वर्गीकृत करना कितना व्यवहार्य होगा? Googling "बनावट वर्गीकरण dct" केवल इस विषय पर एक एकल शैक्षणिक पेपर पाता है , एक तंत्रिका नेटवर्क का उपयोग कर।

मेरे आवेदन के लिए, मेरे पास लेबल वाली छवियों का एक बड़ा समूह है, जिसमें पूरी छवि एक सुसंगत बनावट है (जैसे कंबल, पेड़ की छाल, एक घास का मैदान, आदि का क्लोज-अप शॉट्स)।

पिछले प्रश्न के उत्तर से प्रेरित होकर , मैं निम्नलिखित दृष्टिकोण पर विचार कर रहा था:

  1. पिक्सेल के NxN ब्लॉकों में प्रत्येक छवि को विभाजित करें
  2. प्रत्येक ब्लॉक का डीसीटी लें
  3. प्रत्येक DCT को 1xM सरणी में समतल करें और इसे K-Means क्लस्टरिंग एल्गोरिथ्म में फ़ीड करें, और प्रत्येक DCT के लिए क्लस्टर लेबल प्राप्त करें
  4. # 3 से छवि के अनुसार प्रत्येक लेबल की गिनती करके प्रत्येक छवि के लिए क्लस्टरिंग लेबल के एक हिस्टोग्राम की गणना करें
  5. [(हिस्टोग्राम, इमेज लेबल)] का एक सेट खिलाकर एसवीएम क्लासिफायर ट्रेन करें

यह कितना अच्छा काम करेगा? मैंने एक समान प्रणाली लागू की, SIFT / SURF एल्गोरिदम के माध्यम से निकाली गई विशेषताओं का उपयोग करते हुए, लेकिन मैं केवल 60% सटीकता प्राप्त करने में सक्षम था।

बनावट को वर्गीकृत करने के लिए मैं डीसीटी का उपयोग किन अन्य तरीकों से कर सकता हूं?


1
यह लगभग तंत्रिका नेटवर्क असाइनमेंट की तरह लगता है जो मुझे सिर्फ ml-class.org के लिए करना था
Ivo Flipse

2
@IvoFlipse: +1 को ml-class.org के लिए। हालांकि, यह सवाल सुविधाओं के बारे में है। अंत में, यदि आपकी विशेषताएं समस्या के लिए उपयुक्त नहीं हैं, तो इससे कोई फर्क नहीं पड़ता कि आपका वर्गीकरण एल्गोरिदम कितना अच्छा है।
दिमा

गैबर फिल्टर के बैंक शायद पाठ वर्गीकरण के लिए बहुत उपयोगी हैं।
मृग्लोम

जवाबों:


6

अब तक आप जो प्रस्ताव दे रहे हैं वह एक उचित दृष्टिकोण की तरह लगता है। हालाँकि, मुझे नहीं लगता कि आप यह जान पाएंगे कि जब तक आप इसे आज़माते हैं, ठीक उसी तरह से यह काम करता है, जैसे आपने SIFT की कोशिश की है।

हालांकि हमारे पास एक सवाल है। आप अपने आप को डीसीटी तक सीमित क्यों रख रहे हैं? बनावट वर्गीकरण के लिए उपयोग किए जाने वाले बहुत सारे निरूपण हैं: सह-घटना मैट्रिसेस, स्थानीय बाइनरी पैटर्न, आदि। यह तथ्य कि आपने बनावट वर्गीकरण के लिए डीसीटी का उपयोग करने पर केवल एक पेपर पाया है, यह सुझाव देगा कि यह सबसे अधिक इस्तेमाल की जाने वाली विशेषता नहीं है इस समस्या के लिए। मैं आपको सलाह दूंगा कि आप अपनी साहित्य खोज को यह देखने के लिए व्यापक करें कि लोगों ने अन्य सुविधाओं का क्या उपयोग किया है, और उन्होंने कितनी अच्छी तरह काम किया है।


4

यदि आप छवि को एनएक्सएन ब्लॉक में विभाजित नहीं करेंगे, लेकिन इसके बजाय स्लाइडिंग विंडो का उपयोग करें - छवि के प्रत्येक बिंदु पर केंद्रित ब्लॉकों के लिए डीसीटी की गणना करें यह अनिवार्य रूप से तरंगिका दृष्टिकोण का उपयोग होगा। ब्लॉकों में आपकी विभाजन की छवि स्लाइडिंग विंडो और डाउनसमलिंग छवि का उपयोग करने के समान है। तो अनिवार्य रूप से आप तरंगिकाओं की बनावट विभाजन के कम रूप का उपयोग कर रहे हैं। डीसीटी के बजाय गैबर वेवलेट का उपयोग आमतौर पर इसलिए किया जाता है: इसमें अधिक पैरामीटर (+ स्केल और + दिशा) और चिकनी क्षीणन (खिड़की के तेज किनारे के बजाय) होता है।


3

सबसे बड़े आकर्षण में से एक डीसीटी आधारित बनावट विभाजन / वर्गीकरण (या कोई अन्य गतिविधि) क्यों करना चाहते हैं, यह तथ्य यह है कि अधिकांश जेपीईजी चित्र और एमपीईजी वीडियो पहले से ही डीसीटी में हैं। दूसरी ओर, यह आमतौर पर माना जाता है कि गैबोर आधारित दृष्टिकोण कम्प्यूटेशनल रूप से महंगा है।

डीसीटी सह-प्रभावोत्पादक मध्य से उच्च आवृत्तियों और या विकर्ण आवृत्तियों पिक्सेल डोमेन में स्थानीय भिन्नताओं के अच्छे प्रतिनिधित्व को दर्शाते हैं।

हालाँकि, यह सब उतना अच्छा नहीं हो सकता जितना कि यह लगता है। सबसे पहले, अधिकांश मानकों में डीसीटी ब्लॉक 8x8 आकार के हैं। इसलिए यह निहितार्थ है कि यदि दृश्य में पैटर्न है, जिसमें 8 पिक्सेल बिंदुओं की आवधिकता है, तो यह अनुनाद प्रभाव समीपवर्ती ब्लॉकों के संबंधित सह-प्रभावकारों की समानता के संदर्भ में दिखाई देगा, जब आवधिकता इस संबंध को बदलती है।

डीसीटी बनाम गैबर के शुद्ध ब्लॉकों के बीच महत्वपूर्ण अंतर को समझें कि गैबर का एक पैमाना है। इसलिए यदि आप बनावट की "आवधिकता" या "सूक्ष्मता / खुरदरापन" को बदलते हैं, तो गैबर को यह पता चलेगा कि DCT के निर्धारित मूल्यांकन @ 8x8 ब्लॉक आकार के रूप में अच्छी तरह से फिट नहीं हो पाएंगे।

हालांकि, इस पैमाने की घटना का मूल्यांकन करने के लिए कई ब्लॉक को एक साथ देखकर इस तरह के पैटर्न का निर्माण करने की आवश्यकता क्या है। उदाहरण के लिए एक बुनियादी दृष्टिकोण के रूप में, पूछें कि अगर मेरे पास 16x16 ब्लॉक या 32x32 आकार के ब्लॉक होते, तो सह-प्रभावकारियों में परिणामी पैटर्न क्या होता? संबंधित स्थानों में सह-प्रभावकारियों का शोषण करने के लिए कुछ संबंध होंगे और वे बनावट के वास्तविक पैमाने की खोज कर सकते हैं।

यह वास्तव में पीछा करने के लिए एक अच्छा शोध विषय है।

ध्यान दें: यहां तक ​​कि MPEG7 (जो एमपीईजी बनाने वाली समितियों के बहुत करीब है) - वे सीसीटी आधारित के बजाय बनावट के लिए गैबर आधारित सुविधाओं का प्रस्ताव करते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.