स्केल स्पेस थ्योरी अंडरस्टैंडिंग


10

पैमाने अंतरिक्ष सिद्धांत रूप में संकेत के पैमाने अंतरिक्ष प्रतिनिधित्व , (छवि के मामले में डी = 2 ) के रूप में दिया जाता है: एल ( एक्स , y ; टी ) = जी ( एक्स , वाई , टी ) * ( एक्स , वाई ) जहां जी ( एक्स yf(x),x=(x1,...,xd)d=2L(x,y;t)=g(x,y;t)f(x,y) एक गाऊसी कर्नेल के साथ पैरामीटर है टी और * एक घुमाव है। टी पैरामीटर कोबदलकरहम अधिक या कम चिकनी छवि प्राप्त करते हैं। परिणाम के रूप में मोटे प्रतिनिधित्व (पैरामीटर टी ) में छोटी वस्तुएं या शोर नहीं होंगे।g(x,y;t)ttt

मुख्य बिंदु स्केल-इनवेरिएंट सुविधा का पता लगाने का एक तरीका है, है ना? ताकि आकार में कम की गई कुछ छवि के लिए, की-पॉइंट जैसी सुविधाओं को सही ढंग से पता लगाया जा सके, भले ही आकार अन्य शोर बिंदुओं को खोजने के बिना अलग हो।

  1. पत्र में वे उपयोग कर रहे -normalized डेरिवेटिव। δ ξ , γ - एन आर मीटर = टी γ / 2 δ एक्स । का उपयोग करने का अर्थ क्या है γ व्युत्पन्न -normalized, यह कैसे स्केल-invariancy में मदद करता है करता है?γδξ,γnorm=tγ/2δxγ

  2. इस छवि से हम देख सकते हैं कि एक ही स्थिति के पास अलग-अलग कीपॉइंट पाए जाते हैं (आकार में भिन्न)। वो कैसे संभव है?

सुविधाओं का पता लगाया

यदि आप स्केल-इनवायरेंट फीचर डिटेक्शन के चरण-दर-चरण एल्गोरिथम की व्याख्या कर सकते हैं, तो यह बहुत अच्छा होगा। वास्तव में क्या किया जाता है? डेरिवेटिव को या t द्वारा लिया जा सकता है । ब्लॉब को L बाय ( x , y ) चर के व्युत्पन्न लेने से पता लगाया जा सकता है । टी द्वारा व्युत्पन्न कैसे यहाँ मदद कर रहा है?x,ytL(x,y)t

मैं जो पेपर पढ़ रहा था वह है: स्वचालित स्केल चयन के साथ फ़ीचर का पता लगाना

जवाबों:


3
  1. यह वास्तव में एक लंबा समय रहा है क्योंकि मैंने लिंडबर्ग के पेपर पढ़े हैं, इसलिए अंकन थोड़ा अजीब लगता है। परिणामस्वरूप, मेरा प्रारंभिक उत्तर गलत था। पैमाने स्तर नहीं है। यह कुछ प्रकार का एक पैरामीटर लगता है जिसे ट्यून किया जा सकता है। यह सच है कि आपको टी की उपयुक्त शक्ति से व्युत्पन्न गुणा करने की आवश्यकता है । t खुद एक स्केल लेवल से मेल खाता है, और पावर व्युत्पन्न के क्रम पर निर्भर करता है ।γtt

  2. आप एक ही स्थान पर कई पैमानों पर कीपॉइंट पा सकते हैं। ऐसा इसलिए है क्योंकि आप तराजू पर स्थानीय मैक्सिमा की तलाश करते हैं। यहाँ अंतर्ज्ञान है: एक चेहरे की छवि के बारे में सोचो। ठीक पैमाने पर आपको नाक के अनुरूप एक बूँद मिलती है। पाठ्यक्रम के पैमाने पर आपको पूरे चेहरे के अनुरूप एक बूँद मिलती है। दो बूँदें एक ही बिंदु पर केंद्रित हैं, लेकिन अलग-अलग पैमाने हैं।

  3. यहाँ पूरा एल्गोरिथ्म है:

    • तय करें कि आपकी कौन सी छवि सुविधाएँ हैं (जैसे कि ब्लब्स, कोनों, किनारों)
    • डेरिवेटिव के संदर्भ में एक इसी "डिटेक्टर फ़ंक्शन" को परिभाषित करें, उदाहरण के लिए बूँद के लिए एक लाप्लासियन।
    • गणना डेरिवेटिव जो आपको तराजू की एक सीमा पर अपने डिटेक्टर फ़ंक्शन के लिए आवश्यक है।
    • गुणा से व्युत्पन्न प्रतिक्रियाओं , जहां मीटरtmγ/2m व्युत्पन्न का आदेश है, परिमाण कमी की भरपाई के लिए।
    • पूरे पैमाने पर अंतरिक्ष में डिटेक्टर फ़ंक्शन की गणना करें।
    • एक्स , वाई , टी पर डिटेक्टर फ़ंक्शन की स्थानीय मैक्सिमा का पता लगाएंx,y,t
    • ये आपकी रुचि के बिंदु हैं, या की-पॉइंट हैं।

संपादित करें:

  1. लिंडबर्ग पेपर में साबित करते हैं कि tγ/2 डेरिवेटिव को सामान्य के लिए उपयुक्त कारक है। मुझे नहीं लगता कि मैं यहां सबूत को पुन: पेश कर सकता हूं।
  2. आप संबंध में डेरिवेटिव नहीं लेते हैं । आप केवल एक्स और वाई के संबंध में डेरिवेटिव की गणना करते हैं, लेकिन आप उन्हें तराजू की एक सीमा पर गणना करते हैं। इस बारे में सोचने का एक तरीका यह है कि आप पहले गॉसियन स्केल स्पेस उत्पन्न करें, बार-बार छवि को कुछ विचरण टी के गॉसियन फिल्टर के साथ धुंधला कर । फिर एक्स और वाई के संबंध में डेरिवेटिव की गणना करेंtxytxy प्रत्येक स्केल स्तर पर ।
  3. आप तराजू पर स्थानीय मैक्सिमा ढूंढना चाहते हैं क्योंकि आपके पास एक ही स्थान पर विभिन्न आकार की छवि विशेषताएं हो सकती हैं। एक बैलेंस-आई की तरह, गाढ़ा हलकों की छवि के बारे में सोचो। यह आपको कई पैमानों पर एक लाप्लासियन की उच्च प्रतिक्रिया देगा। या तराजू की एक सीमा पर एक लाप्लासियन द्वारा फ़िल्टर की गई वास्तविक मानव आंख की छवि के बारे में सोचें। आपको पुतली के लिए एक ठीक पैमाने पर उच्च प्रतिक्रिया, उच्च प्रतिक्रिया परितारिका के लिए कुछ मध्यम पैमाने पर और पूरी आँख के लिए मोटे पैमाने पर एक उच्च प्रतिक्रिया मिलेगी।

पूरी बात यह है कि आप यह नहीं जानते कि ब्याज की सुविधाएँ किस पैमाने पर समय से पहले हो सकती हैं। इसलिए आप सभी पैमानों पर गौर करें।


tγ/2ttt पूरी तरह से चयनित सीमा पर । और परिणाम के रूप में मैं (डेरिवेटिव लेने के द्वारा) मिल जाएगाएक्स,y) विभिन्न पैमानों पर सुविधाएँ। सही?
मैक्सिमस

और जैसा कि आपने 3 में लिखा था: डिटेक्टर फ़ंक्शन के स्थानीय मैक्सिमा का पता लगाएं एक्स,y,टीहमें टी द्वारा स्थानीय मैक्सिमा खोजने की आवश्यकता क्यों है? क्या आप कृपया उस कदम का विवरण दे सकते हैं? वास्तव में कैसे व्युत्पन्न करता हैटीयहाँ प्रयोग किया जाता है
मैक्सिमस

@maximus कृपया उत्तर को संपादित देखें।
दिमा

@ मैक्सिमस, मुझे पहले यह गलत लगा। गामा स्केल लेवल नहीं है। मैंने जवाब तय कर दिया है।
दिमा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.