गॉसियन के अंतर, गॉसियन के लाप्लास और मैक्सिकन हैट वेवलेट के बीच अंतर क्या है?


10

सीवी में तीन तकनीकों का उपयोग किया जाता है जो एक दूसरे के समान लगती हैं, लेकिन सूक्ष्म अंतर के साथ:

  • गाऊसी के लाप्लासियन:2[g(x,y,t)f(x,y)]
  • का अंतर:[g1(x,y,t)f(x,y)][g2(x,y,t)f(x,y)]
  • रिकर तरंगिका के साथ वार्तालाप :Ricker(x,y,t)f(x,y)

जैसा कि मैं वर्तमान में इसे समझता हूं: DoG LoG का एक अनुमान है। दोनों का उपयोग ब्लॉब डिटेक्शन में किया जाता है, और दोनों अनिवार्य रूप से बैंड-पास फिल्टर के रूप में प्रदर्शन करते हैं। एक मैक्सिकन हैट / रिकर वेवलेट के साथ बातचीत से बहुत ही समान प्रभाव प्राप्त होता है।

मैंने तीनों तकनीकों को एक पल्स सिग्नल (मैग्नीट्यूड को समान करने के लिए आवश्यक स्केलिंग के साथ) लागू किया है और परिणाम बहुत करीब हैं। वास्तव में, LoG और रिकर लगभग समान दिखते हैं। एकमात्र वास्तविक अंतर जो मैंने देखा है, वह DoG के साथ है, मेरे पास LoG और रिकर के लिए 2 मुक्त पैरामीटर ट्यून करने के लिए ( σ1 और σ1 ) बनाम 1 था। मैंने यह भी पाया कि तरंगिका सबसे आसान / सबसे तेज़ थी, क्योंकि यह एक एकल कनवल्शन के साथ किया जा सकता है (Do कर्नल के एफए के साथ फूरियर अंतरिक्ष में गुणा के माध्यम से) बनाम DoG के लिए 2, और एक कनवल्शन प्लस और LoG के लिए एक लाप्लासियन।

रिकर वेवलेट कनवल्शन का परिणाम, गाऊसी का लाप्लासियन और गौसियन का अंतर

  • प्रत्येक तकनीक के तुलनात्मक लाभ / नुकसान क्या हैं?
  • क्या अलग-अलग उपयोग-मामले हैं जहां एक दूसरे को पछाड़ता है?

मेरे पास सहज ज्ञान युक्त विचार है कि असतत नमूनों पर, LoG और रिकर एक ही ऑपरेशन में पतित होते हैं, क्योंकि को कर्नेल के रूप में लागू किया जा सकता है ।[ - 1 , 2 , - 1 ]2

[-1,2,-1]या[0-10-14-10-10]2 डी छवियों के लिए

उस ऑपरेशन को एक गाऊसी में लागू करने से रिकर / हाट वेवलेट को जन्म मिलता है। इसके अलावा, चूंकि एलओजी और डीओजी गर्मी प्रसार समीकरण से संबंधित हैं, मुझे लगता है कि मैं दोनों को पर्याप्त पैरामीटर फ़िडलिंग के साथ मिल सकता हूं।

(मैं अभी भी अपने पैरों को इस सामान के साथ गीला कर रहा हूं ताकि यह किसी भी को सही / स्पष्ट करने के लिए स्वतंत्र महसूस हो सके!)

जवाबों:


6

गाऊसी की गोद

गाऊसी की लाप्लास (लॉग इन करें) छवि के के रूप में लिखा जा सकता है

2(*जी)=*2जी

के साथ गाऊसी कर्नेल और दृढ़ संकल्प। यही है, एक गाऊसी कर्नेल द्वारा चिकनाई गई छवि का लाप्लास गाऊसी कर्नेल के लाप्लास के साथ चित्रित छवि के समान है। 2 डी मामले में, इस दृढ़ संकल्प का और विस्तार किया जा सकता हैजी*

*2जी=*(2एक्स2जी+2y2जी)=*2एक्स2जी+*2y2जी

इस प्रकार, यह गॉसियन कर्नेल के दूसरे डेरिवेटिव के साथ इनपुट छवि के दो संकल्पों के अतिरिक्त के रूप में गणना करना संभव है (3 डी में यह 3 संकल्प, आदि है)। यह दिलचस्प है क्योंकि गाऊसी कर्नेल वियोज्य है, जैसा कि इसके डेरिवेटिव हैं। अर्थात्,

(एक्स,y)*जी(एक्स,y)=(एक्स,y)*(जी(एक्स)*जी(y))=((एक्स,y)*जी(एक्स))*जी(y)

इसका मतलब है कि 2 डी कनवल्शन के बजाय, हम दो 1 डी का उपयोग करके एक ही चीज़ की गणना कर सकते हैं। इससे बहुत सारी संगणनाएँ बचती हैं। सबसे छोटे विचारशील गाऊसी कर्नेल के लिए आपके पास प्रत्येक आयाम में 5 नमूने होंगे। 2 डी कनवल्शन के लिए 25 गुणन और परिवर्धन की आवश्यकता होती है, दो 1D संकेतन की आवश्यकता होती है। 10. कर्नेल, या छवि में जितने अधिक आयाम होते हैं, उतने ही महत्वपूर्ण ये कम्प्यूटेशनल बचत होते हैं।

इस प्रकार, एलओजी की गणना चार 1 डी संकल्पों का उपयोग करके की जा सकती है। एलओजी कर्नेल ही, हालांकि, वियोज्य नहीं है।

एक अनुमान है कि छवि को पहली बार गॉसियन कर्नेल के साथ सजाया गया है और फिर को परिमित अंतरों का उपयोग करके कार्यान्वित किया गया है, जो कि बीच के -4 और इसके चार किनारे पड़ोसियों में 3x3 कर्नेल के साथ अग्रणी है।2

रिकर तरंगिका या मैक्सिकन टोपी संचालक स्केलिंग और सामान्यीकरण तक, LoG के समान हैं ।

गौसियन का अंतर

छवि गॉसियंस (DoG) के अंतर को लिखा जा सकता है

*जी(1)-*जी(2)=*(जी(1)-जी(2))

इसलिए, LoG के साथ की तरह, DoG को दो अलग-अलग कनवल्शन के एकल गैर-वियोज्य 2D कनवल्शन या योग (इस मामले में अंतर) के रूप में देखा जा सकता है। इसे इस तरह से देखने पर ऐसा लगता है कि LoG पर DoG का उपयोग करने के लिए कोई कम्प्यूटेशनल लाभ नहीं है। हालांकि, DoG एक ट्यून करने योग्य बैंड-पास फिल्टर है, LoG उसी तरह से ट्यून करने योग्य नहीं है, और इसे व्युत्पन्न ऑपरेटर के रूप में देखा जाना चाहिए। DoG भी स्केल-स्पेस सेटिंग में स्वाभाविक रूप से दिखाई देता है, जहाँ छवि को कई पैमानों (विभिन्न सिग्मस के साथ गाऊसी) में फ़िल्टर किया जाता है, बाद के पैमानों के बीच का अंतर DoG होता है।

DoG कर्नेल के लिए एक सन्निकटन है, जो अलग करने योग्य है, कम्प्यूटेशनल लागत को आधे से कम कर देता है, हालांकि यह सन्निकटन आइसोट्रोपिक नहीं है, जो फिल्टर की घूर्णी निर्भरता के लिए अग्रणी है।

मैंने एक बार (खुद के लिए) LoG और DoG की समानता दिखाई, एक DoG के लिए जहां दो गाऊसी गुठली के बीच सिग्मा में अंतर असीम रूप से छोटा होता है (स्केलिंग तक)। मेरे पास इसका रिकॉर्ड नहीं है, लेकिन यह दिखाना मुश्किल नहीं था।

इन फिल्टरों की गणना के अन्य रूप

लॉरेंट के जवाब पुनरावर्ती छानने का उल्लेख है, और ओ पी फूरियर डोमेन गणना का उल्लेख है। ये अवधारणा LoG और DoG दोनों पर लागू होती हैं।

गाऊसी और उसके डेरिवेटिव एक कारण और विरोधी कारण IIR फिल्टर का उपयोग कर की जा सकती है। तो ऊपर उल्लिखित सभी 1D संकल्पों को निरंतर समय पर सिग्मा लागू किया जा सकता है। ध्यान दें कि यह केवल बड़े सिगमा के लिए कुशल है।

इसी तरह, फ्यूरियर डोमेन में किसी भी कनवल्शन की गणना की जा सकती है, इसलिए DoG और LoG 2D कर्नेल दोनों को फूरियर डोमेन में परिवर्तित किया जा सकता है (या वहां गणना की जाती है) और गुणा द्वारा लागू किया जाता है।

निष्कर्ष के तौर पर

इन दोनों दृष्टिकोणों के कम्प्यूटेशनल जटिलता में कोई महत्वपूर्ण अंतर नहीं हैं। मुझे अभी तक DoG का उपयोग करते हुए LoG को अनुमानित करने के लिए एक अच्छा कारण मिल गया है।


यह एक शानदार जवाब है! मैं इसे नए उत्तर के रूप में अपडेट करने जा रहा हूं, यह नहीं कि लॉरेंट का उत्तर गलत है या अधूरा है, लेकिन आपने एक साल के उत्तर वाले प्रश्न में शानदार दूसरा दृष्टिकोण जोड़ने के लिए समय लिया।
DeusXMachina

2
DoG और LoG 20:56 पर "बार्क" स्केल
लॉरेंट

4

रिकर वेवलेट, (आइसोट्रोपिक) मार्र वेलेट, मैक्सिकन टोपी या गाऊसी के लाप्लासियन एक ही अवधारणा के हैं: निरंतर स्वीकार्य तरंगिकाएं (कुछ शर्तों को संतोषजनक)। परंपरागत रूप से, रिकर तरंग 1 डी संस्करण है। Marr तरंगिका या मैक्सिकन टोपी 2 डी छवि decompositions के संदर्भ में दिए गए नाम हैं, आप उदाहरण के लिए मल्टीस्केल ज्यामितीय अभ्यावेदन पर एक पैनोरमा की धारा 2.2 पर विचार कर सकते हैं , स्थानिक, दिशात्मक और आवृत्ति चयनात्मकता , सिग्नल प्रोसेसिंग, 2011, एल। जैक्स एट अल। गाऊसी का लाप्लासियन बहुआयामी सामान्यीकरण है।

हालांकि, व्यवहार में, लोग विभिन्न स्तरों पर विभिन्न प्रकार के विवेक स्वीकार करते हैं।

मेरा मानना ​​है कि (जब तक कि अधिक विवरण न दिया जाए) कि गाऊसी के लिए लागू असतत ढाल कर्नेल मूल रिकर नहीं है, लेकिन एक सरलीकरण है, जो ग्राफ में सूक्ष्म अंतर बताता है। मुझे संदर्भों में दिलचस्पी है। वास्तव में, आपके पास _3 लाप्लासियन ऑपरेटर (4- और 8-पड़ोसी) के कम से कम दो प्राकृतिक विवेक हो सकते हैं :3×33×3

(0-10-14-10-10)

or अन्य सन्निकटन भी हैं , उदाहरण के लिए a के साथ कर्नेल , या गाऊसी के लाप्लासियन / लैपेलियन के अन्य अवतार ।

(-1-1-1-18-1-1-1-1)
5×5

उनके विचरण अनुपात और (आमतौर पर लगभग 1.6) में एक उचित विकल्प के साथ , गाऊसी लोगों का एक अंतर LoG को एक अच्छा वियोज्य सन्निकटन प्रदान करता है (उदाहरण के लिए देखें फास्ट ऑल - गाउसेन फ़िल्टरिंग , पी। कोवेसी)। उन गाऊसी को बदले में पुनरावर्ती अनुमानित गाऊसी द्वारा अनुमानित किया जा सकता है ।σ1σ2

लेकिन अन्य अनुपातों का उपयोग किया गया है, उदाहरण के लिए कुछ लाप्लासियन पिरामिडों में, जो कि DoG को अधिक सामान्य बैंडपास फिल्टर या एज डिटेक्टर में बदल देते हैं।

अंतिम संदर्भ: छवि मिलान सामान्यीकृत स्केल-अंतरिक्ष ब्याज स्थानों का प्रयोग , टी Lindeberg 2015।


1
बहुत ज्ञानवर्धक, धन्यवाद! इसलिए यह लगता है कि फास्ट गॉसियन स्मूथिंग से ऐसा लगता है कि DoG में कम्प्यूटेशन फायदे हैं, यह सीधे स्थानिक डोमेन में किया जा सकता है, इसलिए मैं CCD / इंटीग्रेटेड कंप्यूटर विज़न के लिए ऑन-चिप सिग्नल प्रोसेसिंग को कल्पना करता हूं। इसके अलावा, ए पैनोरमा समग्र रूप से शानदार पढ़ा हुआ लगता है, धन्यवाद!
DeusXMachina

तेजी से सन्निकटन के साथ, आप वास्तव में बड़े पैमाने पर स्वतंत्र कई ऑपरेशन कर सकते हैं
लॉरेंट

1
1.6 अनुपात कहाँ से आता है? यदि आप गणित लिखते हैं, तो आप देख सकते हैं कि गाऊसी के दूसरे व्युत्पन्न और गास्सियन के अंतर के बीच एक सटीक समानता है जो सिग्मा में एक असीम अंतर है (स्केलिंग तक)।
क्रिस Luengo

1
1980 और मार्र्ड हिल्ड्रेथ, अपेंडिक्स बी से, वे इसे "सर्वश्रेष्ठ इंजीनियरिंग सन्निकटन" कहते हैं, जिसमें बैंडविड्थ और संवेदनशीलता के बीच एक व्यापार-बंद होता है, जो चौड़ाई अनुपात को बदलते हुए योग्यता घटता पर आधारित है। मैं Delft में लोगों द्वारा अतीत में कुछ कामों को पूरा करता था, उसी नाम से। संयोग?
लॉरेंट डुवल

1
@ लॉरेंटड्यूवल: मैंने डेल्फ़्ट में पीएचडी की। मेरा नाम AFAIK के साथ वहां कोई अन्य व्यक्ति नहीं है। मैं देख सकता हूं कि संवेदनशीलता और बैंडविड्थ के आधार पर आप एक (व्यक्तिपरक) इष्टतम कैसे प्राप्त कर सकते हैं। यदि अनुपात बहुत छोटा है, तो प्रतिक्रिया बहुत कम है, शायद किसी भी चीज की तुलना में विवेकाधीन शोर पर अधिक निर्भर है; यदि अनुपात बहुत अधिक है, तो यह एक दिलचस्प फिल्टर नहीं है। समझ में आता है। धन्यवाद!
संकट लुएंगो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.