स्पेसियन स्केल स्पेस इंवेरिएंट का अंतर क्यों है?


15

मैं यहाँ एक उदाहरण के रूप में स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म एल्गोरिथ्म का उपयोग करूँगा । SIFT एक छवि के स्केल किए गए गॉसियन फ़िल्टरिंग के आधार पर एक स्केल स्पेस बनाता है, और फिर संभावित ब्याज बिंदुओं का पता लगाने के लिए गॉसियंस के अंतर की गणना करता है। इन बिंदुओं को गौसीयों के अंतर पर स्थानीय मिनीमा और मैक्सिमा के रूप में परिभाषित किया गया है।

यह दावा किया जाता है कि यह दृष्टिकोण पैमाना अपरिवर्तनीय है (अन्य हैरान करने वाले आक्रमणों के बीच)। ऐसा क्यों है? यह मेरे लिए अस्पष्ट है कि ऐसा क्यों है।


नहीं जानते कि SIFT क्या है, इसे wiki en.wikipedia.org/wiki/Scale-invariant_feature_transform पर पाया गया । "इमेज फ़ीचर जेनरेशन के लिए लोव का तरीका एक छवि को फ़ीचर वैक्टर के बड़े संग्रह में बदल देता है, जिनमें से प्रत्येक इमेज ट्रांसलेशन, स्केलिंग और रोटेशन के लिए अपरिवर्तनीय है, जो आंशिक रूप से रोशनी के बदलाव और स्थानीय ज्यामितीय विरूपण के लिए मजबूत है।" क्या वह स्पष्टीकरण है?
नीरेन

हां, मैं यही बात कर रहा हूं
पानी

SIFT स्केल-स्पेस सिद्धांत का उपयोग करता है। हालाँकि, मैं यह नहीं समझता कि उस सिद्धांत में "पैमाने" से क्या मतलब है। आप इसके बारे में टोनी लिंडबर्ग के पत्रों को पढ़ने की कोशिश कर सकते हैं: csc.kth.se/~tony/earlyvision.html
मैक्सिमस

जवाबों:


7

"स्केल-इनवेरिएंट" शब्द का अर्थ यहाँ निम्नलिखित है। चलो कहते हैं कि तुम छवि है मैं , और आप एक सुविधा (एक ब्याज बिंदु उर्फ) का पता चला है कुछ स्थान पर (एक्स, वाई) और कुछ पैमाने स्तर पर रों । अब मान लें कि आपके पास एक छवि I 'है , जो कि I का छोटा संस्करण है (उदाहरण के लिए, डाउनसम्पल्ड)। तो फिर, अगर आपके सुविधा डिटेक्टर पैमाने-अपरिवर्तनीय है, तो आप इसी सुविधा का पता लगाने के लिए सक्षम होना चाहिए 'एफ में मैं' इसी स्थान पर (एक्स ', वाई') और इसी पैमाने s ' है, जहां (एक्स, वाई, एस) और (x ', y', s ') उपयुक्त स्केलिंग परिवर्तन द्वारा संबंधित हैं।

दूसरे शब्दों में, यदि आपके स्केल-इनवेरिएंट डिटेक्टर ने किसी के चेहरे के अनुरूप एक फीचर बिंदु का पता लगाया है, और फिर आप उसी दृश्य पर अपने कैमरे से ज़ूम इन या आउट करते हैं, तो आपको अभी भी उस चेहरे पर एक सुविधा बिंदु का पता लगाना चाहिए।

बेशक, आप एक "फीचर डिस्क्रिप्टर" भी चाहते हैं जो आपको दो विशेषताओं से मेल खाने की अनुमति देगा, जो कि वास्तव में SIFT आपको देता है।

इसलिए, आपको आगे भ्रमित करने के जोखिम में, दो चीजें हैं जो यहां पैमाने-अपरिवर्तनीय हैं। एक DoG ब्याज बिंदु डिटेक्टर है, जो स्केल-इनवेरिएंट है, क्योंकि यह एक विशेष प्रकार की छवि सुविधाओं (ब्लॉब्स) का पता लगाता है, भले ही उनके पैमाने कुछ भी हों। दूसरे शब्दों में, DoG डिटेक्टर किसी भी आकार के ब्लब्स का पता लगाता है। दूसरी स्केल-इनवेरिएंट चीज़ फीचर डिस्क्रिप्टर है, जो ग्रेडिएंट ओरिएंटेशन का एक हिस्टोग्राम है, जो स्केल में बदलाव के बावजूद एक ही इमेज फीचर के लिए कम या ज्यादा समान रहता है।

वैसे, गॉसियंस के अंतर का उपयोग यहां लैपेलियन-ऑफ-गॉसियन फिल्टर के एक सन्निकटन के रूप में किया जाता है।


आपने स्केल-स्पेस सिद्धांत से कुछ जानकारी ली है। क्या आप स्केल-स्पेस सिद्धांत का उपयोग करके दो संकेतों की तुलना में वास्तव में क्या होता है, इसका स्पष्टीकरण दे सकते हैं? अपने पत्रों में लिंडबर्ग: csc.kth.se/~tony/earlyvision.html ने ब्लब्स इत्यादि का पता लगाने के कुछ उदाहरण बनाए। वास्तव में स्केल पैरामीटर द्वारा व्युत्पन्न को लेने से स्केल इनरवार्सी में मदद मिलती है?
मैक्सिमस

तुम सही हो। मैं केवल स्केल-स्पेस सिद्धांत के पीछे अंतर्ज्ञान का वर्णन करने की कोशिश कर रहा था। आप जो पूछ रहे हैं वह एक अलग प्रश्न होना चाहिए। :) मुझे लगता है कि आप जिस बारे में बात कर रहे हैं, वह यह है कि विभिन्न पैमानों पर लिया गया डेरिवेटिव उचित रूप से सामान्य होना चाहिए। जैसा कि आप मोटे तराजू पर जाते हैं, संकेत चिकना हो जाता है, इसलिए यह आयाम कम हो जाता है। इसका मतलब है कि डेरिवेटिव की भयावहता भी कम हो गई है। इस प्रकार पैमानों पर व्युत्पन्न प्रतिक्रिया तुलना करने के लिए आप के द्वारा उन्हें गुणा करने की आवश्यकता
Dima

सिग्मा की उपयुक्त शक्ति: सिग्मा द्वारा पहला व्युत्पन्न, दूसरा सिग्मा ^ 2, आदि से
Dima

@ मैक्सिमस, उफ़, मैं फोगट द @। :)
दिमा

आपके जवाब के लिए धन्यवाद! इसने मेरी मदद की, लेकिन फिर भी कुछ सवाल हैं, जो मैंने यहाँ एक अलग सवाल के रूप में पूछे: dsp.stackexchange.com/questions/570/…
maximus

5

गौसियन का अंतर पैमाना अपरिवर्तनीय नहीं है। SIFT (सीमित डिग्री तक) स्केल इनवेरिएंट क्योंकि यह स्केल-स्पेस में DoG एक्स्ट्रामा के लिए दिखता है - जो कि स्थानिक और अपेक्षाकृत दोनों पड़ोसी तराजू में DoG चरम के साथ स्केल पा रहा है। क्योंकि आउटपुट DoG इस निश्चित पैमाने के लिए प्राप्त होता है (जो कि इनपुट स्केल का कार्य नहीं है) परिणाम स्केल-इंडिपेंडेंट है, जो कि स्केल-इनवॉइसेंट है।


1
सही। लेकिन यह केवल पड़ोसी तराजू के साथ विलुप्त होने के लिए देखता है। यह सब पैमाना नहीं है, जब तक कि मुझसे गलती न हो। यहां तक ​​कि अगर यह सब तराजू था, यह अभी भी स्पष्ट नहीं है कि यह कैसे स्वतंत्र है
पानी

@ पानी, यह बिल्कुल सही है। आप सभी पैमानों पर एक चरम सीमा नहीं चाहते हैं, आप स्थानीय अतिरेक चाहते हैं। यह आपको नेस्टेड संरचनाओं का पता लगाने देता है, उदाहरण के लिए ग्रे बैकग्राउंड पर एक बड़े चमकीले सर्कल के भीतर एक छोटा डार्क सर्कल।
दीमा

LoG के बजाय DoG का उपयोग किया जाता है क्योंकि DoG की गणना करना तेज़ होता है।
मैक्सिमस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.