SIFT डिस्क्रिप्टर के बारे में कहानी के पीछे की कहानी क्या है?


9

निम्नलिखित लोव 2004 पेपर ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ) से है।

एक स्पष्ट दृष्टिकोण उचित पैमाने पर मुख्य बिंदु के आसपास स्थानीय छवि तीव्रता का नमूना लेना होगा, और सामान्यीकृत सहसंबंध उपाय का उपयोग करके इनका मिलान करना होगा। हालांकि, छवि पैच का साधारण सहसंबंध उन परिवर्तनों के प्रति अत्यधिक संवेदनशील है, जो नमूनों के गलत उपयोग का कारण बनते हैं, जैसे कि point ne या 3D व्यूपॉइंट परिवर्तन या गैर-कठोर विकृति। एडलमैन, इंट्रेटर और पोगियो (1997) द्वारा एक बेहतर दृष्टिकोण का प्रदर्शन किया गया है। उनका प्रस्तावित प्रतिनिधित्व जैविक दृष्टि के एक मॉडल पर आधारित था, विशेष रूप से प्राथमिक दृश्य प्रांतस्था में जटिल न्यूरॉन्स के।ये जटिल न्यूरॉन्स एक विशेष अभिविन्यास और स्थानिक आवृत्ति पर एक ढाल का जवाब देते हैं, लेकिन रेटिना पर ग्रेडिएंट के स्थान को ठीक स्थानीयकृत होने के बजाय एक छोटे ग्रहणशील rather बड़े पर स्थानांतरित करने की अनुमति दी जाती है। एडेलमैन एट अल। परिकल्पना है कि इन जटिल न्यूरॉन्स का कार्य 3 डी वस्तुओं के मिलान और मान्यता की दृष्टि से देखने के लिए अनुमति देना था।

मैं SIFT डिस्क्रिप्टर को समझने की कोशिश कर रहा हूं। मैं पिछले चरण (कीपॉइंट डिटेक्टर) को समझता हूं।

मुझे नहीं पता कि इसे क्यों लागू किया गया है। मैं कहानी के पीछे की कहानी जानना चाहता हूं।

जवाबों:


1

डिस्क्रिप्टर ने प्राप्त पैमाने पर ब्याज बिंदु के पड़ोस से प्राप्त किया।64×64

यह इस क्षेत्र को पैच पर विभाजित करेगा जो पैच का नेतृत्व करेगा।64×6416×16

प्रत्येक पैच के लिए हम ग्रेडिएंट्स की गणना करते हैं और फिर ग्रेडिएंट्स (जिसमें कुछ विवरण होते हैं) की प्रमुख दिशा पाते हैं, फिर प्रमुख दिशा को संदर्भ दिशा के रूप में लेते हुए हम 360 डिग्री को 8 कोणीय क्षेत्र में विभाजित करेंगे प्रत्येक में 45 डिग्री है, फिर योग करें प्रत्येक ग्रेडिएंट का परिमाण जो प्रत्येक कोणीय क्षेत्र में होता है।

हम इसे वितरण दिशा के 8 बिन हिस्टोग्राम के रूप में मान सकते हैं (मजबूत ग्रेडिएंट्स के बारे में अधिक जानकारी है कि हमें वितरण की गणना में उच्च वजन के साथ उनका उपयोग करना है इसलिए हम उनके परिमाण का उपयोग उनके वजन के रूप में करते हैं जो उनके परिमाण की ओर जाता है)। फिर हम इन हिस्टोग्राम को सामान्य करेंगे।

प्रत्येक पैच के लिए अंत में हमारे पास 8 बिन हिस्टोग्राम है और हमारे पास 16 पैच हैं जो 128 नंबर डिस्क्रिप्टर की ओर जाता है।

प्रमुख दिशा पाकर हमारा विवरणक भी घूर्णन अपरिवर्तनीय हो जाता है। ग्रेडिएंट का उपयोग करके हमारा डिस्क्रिप्टर बेसलाइन रोशनी के संबंध में अपरिवर्तनीय हो जाता है और प्राप्त हिस्टोग्राम को सामान्य करके हमारा डिस्क्रिप्टर छवि के विपरीत के लिए अपरिवर्तनीय हो जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.