SURF को समझना गणना प्रक्रिया है


9

इसलिए, मैं SURF (Bay, Ess, Tuytelaars, Van Gool: Speeded-Up Robust Features (SURF) ) पर पेपर पढ़ रहा था और मैं इस पैराग्राफ को नीचे नहीं लिख सकता:

बॉक्स फिल्टर और अभिन्न छवियों के उपयोग के कारण, हमें पूर्व फ़िल्टर की गई परत के आउटपुट पर पुनरावृत्तीय रूप से समान फ़िल्टर लागू करने की आवश्यकता नहीं है, बल्कि मूल छवि पर सीधे उसी गति से किसी भी आकार के बॉक्स फ़िल्टर लागू कर सकते हैं और समानांतर में भी (हालांकि बाद का शोषण यहां नहीं किया गया है)। इसलिए, स्केल स्पेस को इमेज साइज़, फिगर 4 को कम करने के बजाय फ़िल्टर साइज़ को अप-स्केलिंग करके विश्लेषण किया जाता है।

This is figure 4 in question.

चित्र 4

पुनश्च: कागज में अभिन्न छवि की व्याख्या है, हालांकि कागज की पूरी सामग्री ऊपर दिए गए विशेष पैराग्राफ पर आधारित है। यदि किसी ने इस पत्र को पढ़ा है, तो क्या आप संक्षेप में बता सकते हैं कि यहां क्या चल रहा है। संपूर्ण गणितीय व्याख्या पहले अच्छी समझ रखने के लिए काफी जटिल है, इसलिए मुझे कुछ सहायता की आवश्यकता है। धन्यवाद।

संपादित करें, मुद्दों की जोड़ी:

1।

प्रत्येक सप्तक को स्केल स्तरों की एक निरंतर संख्या में विभाजित किया गया है। अभिन्न छवियों की असतत प्रकृति के कारण, 2 बाद के तराजू के बीच न्यूनतम पैमाने का अंतर व्युत्पत्ति की दिशा में व्युत्पन्न आंशिक दूसरे क्रम के सकारात्मक या नकारात्मक लोबों की लंबाई पर निर्भर करता है, जो व्युत्पत्ति (x या y) की दिशा में व्युत्पन्न है, जो फिल्टर आकार लंबाई का तीसरा। 9x9 फ़िल्टर के लिए, यह लंबाई लो है 3. दो क्रमिक स्तरों के लिए, हमें आकार को असमान रखने के लिए इस प्रकार का आकार न्यूनतम 2 पिक्सेल (हर तरफ एक पिक्सेल) बढ़ाना होगा और इस तरह केंद्रीय पिक्सेल की उपस्थिति सुनिश्चित होगी । इसके परिणामस्वरूप 6 पिक्सेल द्वारा मुखौटा आकार की कुल वृद्धि हुई है (चित्र 5 देखें)।

Figure 5

चित्र 5

मैं दिए गए संदर्भ में लाइनों का अर्थ नहीं बना सका।

लगातार दो स्तरों के लिए, हमें आकार को असमान रखने के लिए इस आकार को कम से कम 2 पिक्सेल (हर तरफ एक पिक्सेल) बढ़ाना होगा और इस प्रकार केंद्रीय पिक्सेल की उपस्थिति सुनिश्चित करनी होगी।

मुझे पता है कि वे छवि की लंबाई के साथ कुछ करने की कोशिश कर रहे हैं, अगर इसकी भी वे इसे विषम बनाने की कोशिश कर रहे हैं, ताकि एक केंद्रीय पिक्सेल हो जो उन्हें पिक्सेल ढाल की अधिकतम या न्यूनतम गणना करने में सक्षम करेगा। मैं इसके प्रासंगिक अर्थ के बारे में थोड़ा iffy हूँ।

2।

वर्णनकर्ता की गणना करने के लिए Haar तरंगिका का उपयोग किया जाता है।

हर वेवलेट

मध्य क्षेत्र कैसा है निम्न है Σ एक्सलेकिन उच्च।Σ |एक्स|

3।

और एक

अनुमानित फिल्टर होने की क्या आवश्यकता है?

4. मेरे पास इस बात का कोई मुद्दा नहीं है कि उन्हें फ़िल्टर के आकार का पता चला। उन्होंने "कुछ" अनुभवपूर्वक किया। हालाँकि, मेरे पास इस लाइन के टुकड़े के साथ कुछ नागवार है

पिछले अनुभाग में पेश किए गए 9x9 फ़िल्टर के आउटपुट को प्रारंभिक पैमाने की परत के रूप में माना जाता है, जिसे हम स्केल s = 1.2 (aus = 1.2 के साथ गाऊसियन व्युत्पन्न सन्निकट) के रूप में संदर्भित करेंगे।

उन्हें σ के मूल्य के बारे में कैसे पता चला। इसके अलावा नीचे की छवि में दिखाए गए स्केलिंग की गणना कैसे की जाती है। इस छवि के बारे में बताते हुए कारण यह है कि s=1.2इसकी उत्पत्ति के बारे में स्पष्ट रूप से बताते हुए, आवर्ती रखने का मूल्य है । स्केल छवि

5. हेसियन मैट्रिक्स का प्रतिनिधित्व किया गया है, Lजो कि गौसेनियन फिल्टर और छवि के दूसरे क्रम ढाल का दृढ़ संकल्प है।

हालांकि "अनुमानित" निर्धारक को केवल दूसरे क्रम के गॉसियन फिल्टर से युक्त शब्द शामिल करने के लिए कहा जाता है।

का मान wहै:

मेरा सवाल यह है कि निर्धारक की गणना ऊपर की तरह क्यों की जाती है, और अनुमानित हेसियन और हेसियन मैट्रिक्स के बीच क्या संबंध है।


अरे! मैंने आपके प्रश्नों में लेखक के नाम और लेख का शीर्षक जोड़ा है, मुझे आशा है कि आपको कोई आपत्ति नहीं है। सबसे पहले, यह लेख को खोज योग्य बनाता है, भले ही लिंक मृत हो जाए। दूसरा, जैसा कि कोई है जो शोध करता है, मुझे लगता है कि लेखकों को उनके नाम और प्रकाशन के नामों के साथ श्रेय देना कम से कम हम उनके काम को स्वीकार करने के लिए कर सकते हैं :)
पेनेलोप

@ पेनेलोप: मैं आधा डर गया था कि लोग मुझे गुमनामी में डाल देंगे।
प्रेरक

मुझे लगता है कि यह वास्तव में अच्छा सवाल है, हाल ही में अधिक दिलचस्प लोगों में से एक। मैं कभी भी अपने आप को SURF में नहीं मिला, लेकिन मैं कोशिश कर सकता हूं और कल देख सकता हूं और देख सकता हूं कि क्या मैं योगदान कर सकता हूं, सवाल ने वास्तव में मुझे दिलचस्पी दी :) और PS: यदि आप इसे "आधिकारिक" यूनी परियोजना के हिस्से के रूप में कर रहे हैं , मुझे यकीन है कि आपका पर्यवेक्षक ख़ुशी से आपकी मदद करेगा (खासकर यदि आप मास्टर स्तर पर हैं)। उनकी नौकरी का एक हिस्सा आपको वैज्ञानिक साहित्य पढ़ना सिखाता है।
पेनेलोप

PPS: आप अभिन्न छवि और बॉक्स फ़िल्टर की संक्षिप्त व्याख्या को जोड़ने के लिए अपने प्रश्न को संपादित करना चाह सकते हैं: आप जो समझ रहे हैं उसे समझने में मदद मिलेगी कि आप क्या समझते हैं हमें समझने में मदद नहीं करेंगे;)
पेनेलोप

@ हेनेलोपे: आप एक बहुत अच्छी लड़की / पुरुष हैं, जो भी हो। और नहीं, मुझे इस पत्र की साहित्य समीक्षा करनी है, मैंने डेविड लोवे द्वारा 2004 और 1999 दोनों में लिखा गया एक लेख पढ़ा। यह काफी समझ में आता था, साथ ही उस पर एक अच्छा यूट्यूब व्याख्यान भी था। समस्या यह है कि इस पेपर में कई गणितीय शब्द इस्तेमाल किए गए हैं, जो SURF के साथ हैं। यदि आपके पास अपने सिर में एक गणितीय मॉडल नहीं है, तो मुख्य विचार देखने के लिए इसकी मुश्किल है।
प्रेरक

जवाबों:


10

SURF क्या है?

यह समझने के लिए कि क्या चल रहा है, आपको SIFT से परिचित होना चाहिए : SURF मूल रूप से SIFT का एक अनुमान है। अब, असली सवाल यह है: SIFT क्या है?

SIFT एक कीपॉइंट डिटेक्टर और एक keypoint डिस्क्रिप्टर दोनों है । डिटेक्टर भाग में, SIFT मूल रूप से हैरिस कॉर्नर जैसे शास्त्रीय कोने के डिटेक्टरों का एक बहु-स्तरीय संस्करण है, और इस पैमाने को ऑटो-ट्यून करने की क्षमता है। फिर, एक स्थान और एक पैच आकार (पैमाने से प्राप्त) को देखते हुए, यह विवरणकर्ता भाग की गणना कर सकता है।

SIFT छवियों के स्थानीय रूप से समृद्ध टुकड़ों के मिलान में बहुत अच्छा है, लेकिन इसकी एक खामी है: यह गणना करने के लिए महंगा (यानी, लंबा) है। गौसियन स्केल-स्पेस (डिटेक्टर भाग में) की गणना करने में बड़ी मात्रा में समय व्यतीत होता है, फिर ग्रेडिएंट दिशा के हिस्टोग्राम (डिस्क्रिप्टर भाग के लिए) में।

SIFT और SURF दोनों को स्वचालित पैमाने (यानी, गाऊसी आकार) के चयन के साथ गाऊसी के अंतर के रूप में देखा जा सकता है। यह, आप पहले एक स्केल-स्पेस का निर्माण करते हैं, जहाँ विभिन्न पैमानों पर इनपुट छवि को फ़िल्टर किया जाता है। स्केल-स्पेस को एक पिरामिड के रूप में देखा जा सकता है, जहां दो लगातार छवियों को एक स्केल चेंज से संबंधित किया जाता है (यानी, गॉसियन लो-पास फाईटर का आकार बदल गया है), और तराजू को फिर ऑक्टेव्स (यानी, एक बड़ा परिवर्तन) द्वारा समूहीकृत किया जाता है। गाऊसी फिल्टर के आकार में)।

  • SIFT में, यह तय चौड़ाई के गॉसियन के साथ इनपुट को बार-बार फ़िल्टर करके किया जाता है जब तक कि अगले ऑक्टेव का पैमाना न हो जाए।
  • SURF में, आप एकीकृत छवि चाल के उपयोग के लिए गाऊसी फ़िल्टर धन्यवाद के आकार से कोई रनटाइम जुर्माना नहीं भुगतते हैं। इस प्रकार, आप प्रत्येक पैमाने पर (पिछले पैमाने पर परिणाम का उपयोग किए बिना) सीधे फ़िल्टर की गई छवि की गणना करते हैं।

अंदाजन भाग

चूंकि गॉसियन स्केल-स्पेस की गणना और ग्रेडिएंट दिशा के हिस्टोग्राम लंबे होते हैं, इसलिए इन गणनाओं को तेजी से अनुमान लगाने के लिए (एसयूआरएफ के लेखकों द्वारा चुना गया) एक अच्छा विचार है।

लेखकों ने टिप्पणी की कि छोटे गाऊसी (जैसे सिफ्ट में इस्तेमाल होने वाले) को स्क्वायर इंटीग्रल्स (जिसे बॉक्स ब्लर के रूप में भी जाना जाता है ) द्वारा अच्छी तरह से लगाया जा सकता है । इन आयत औसत में अभिन्न छवि चाल के लिए धन्यवाद प्राप्त करने के लिए बहुत तेज संपत्ति है।

इसके अलावा, गॉसियन स्केल-स्पेस वास्तव में प्रति se का उपयोग नहीं किया जाता है , लेकिन गॉसियंस के एक लाप्लासियन को अनुमानित करने के लिए (आप इसे SIFT पेपर में पा सकते हैं)। इस प्रकार, आपको केवल गाऊसी-धुंधली छवियों की आवश्यकता नहीं है, लेकिन डेरिवेटिव और उनमें से अंतर। तो, आप बस एक बॉक्स द्वारा एक गाऊसी को सन्निकट करने के विचार को थोड़ा और आगे बढ़ाते हैं: पहले एक गाऊसी को जितनी बार जरूरत हो, उतारे, फिर प्रत्येक लोब को सही आकार के बॉक्स द्वारा अनुमानित करें। आप अंततः Haar सुविधाओं के एक सेट के साथ समाप्त हो जाएंगे।

2 से वृद्धि

यह सिर्फ एक कार्यान्वयन कलाकारी है, जैसा आपने अनुमान लगाया है। लक्ष्य एक केंद्रीय पिक्सेल है। फ़ीचर डिस्क्रिप्टर का वर्णन करने के लिए छवि पैच के केंद्र के संबंध में गणना की जाती है।

मध्य क्षेत्र

जब काली किरण से सफेद किरण में जा रहे हों, तो आपके पास कुछ ऐसा होता है Σकॉलम में सभी पिक्सएक्स=। फिर, सफेद से काले रंग में जा रहे हैं, आपके पास विपरीत राशि है:Σकॉलम में सभी पिक्सएक्स=-। इस प्रकार, आपके पास एक छोटा हैΣएक्स खिड़की के लिए, लेकिन परिमाण का एक उच्च योग।

जादुई संख्या

के साथ एक धब्बा लगाकर पहला पैमाना प्राप्त किया जाता है σ=1.2(या कुछ पत्रों में 1.4)। इसका कारण यह है कि एक प्राकृतिक (वास्तविक) तीक्ष्ण छवि को चौड़ाई के धब्बा कर्नेल के साथ एक आदर्श (अलियासिंग के बिना) के दृढ़ संकल्प का परिणाम माना जा सकता हैσ=1.2। मुझे वास्तव में याद नहीं है कि यह कहाँ से आता है, लेकिन यह भी स्पष्ट रूप से ए-सिफ्ट पर गुओसेन यू के काम में अध्ययन किया गया था, इसलिए आप इस पृष्ठ की जांच कर सकते हैं ।


स्पष्टीकरण के लिए धन्यवाद, इसने कुछ सामानों को साफ किया, मुझे देखने दें कि क्या किसी को अधिक विस्तृत समझ है।
प्रेरक

मैंने आपके नए प्रश्नों के संबंध में उत्तर संपादित किया है।
संवासो

ओह, हाँ, धन्यवाद। पेपर एक तरह से लंबा होता है, इसलिए बहुत सी चीजें एक ही बार में हो जाती हैं।
मोतीझर mot

मेरा नवीनतम संपादन देखने के लिए परवाह है?
प्रेरक mot

1
यह सामान्य साझा ज्ञान का मिश्रण है (छोटे गॉसियंस बॉक्स ब्लर्स द्वारा अच्छी तरह से अनुमानित किए गए हैं), प्रयोग (वास्तविक दुनिया की छवियों में रुचि की न्यूनतम / अधिकतम आकार) और गणित (एक प्रारंभिक पैच आकार, कंप्यूटिंग आयतें और गॉसिप्स जो इसमें फिट होते हैं) ।
संवासो

4

संभावित ब्याज बिंदुओं की पहचान करने के लिए, अंतर-गॉसियन फ़ंक्शन (डीओजी) का उपयोग अक्सर छवि को संसाधित करने के लिए किया जाता है, इस प्रकार यह पैमाने और अभिविन्यास के लिए अपरिवर्तनीय बनाता है।

SIFT में, छवि पिरामिड बढ़ते sigmaमूल्यों के DOG के साथ प्रत्येक परत को फ़िल्टर करके और अंतर लेते हुए स्थापित किए जाते हैं ।

दूसरी ओर, SURF, गाऊसी के लाप्लासियन (LoG) और अलग-अलग आकार के चौकोर फिल्टर (9 * 9, 15 * 15, ...) के साथ सेकेंड-ऑर्डर गाऊसी आंशिक व्युत्पन्न का बहुत तेज़ सन्निकटन लागू करता है । कम्प्यूटेशनल लागत फ़िल्टर आकार से स्वतंत्र है। sigmaपिरामिड में उच्च स्तर के लिए कोई डाउन-सैंपलिंग (परिवर्तन ) नहीं है, लेकिन केवल एक ही रिज़ॉल्यूशन के चित्र होने के परिणामस्वरूप फ़िल्टर आकार का अप-स्केल है।

संपादित करें

एक अतिरिक्त ध्यान दें: अपने अखबार में लेखकों आगे कर्नेल के साथ 4 झुकाव (एक्स, वाई, xy, YX) पर गाऊसी दूसरा व्युत्पन्न को आसान बनाने [1 -2 1], [1 -2 1]', [1 -1;-1 1], और [-1 1;1 -1]। जब फ़िल्टर का आकार बढ़ता है, तो आपको बड़े को प्राप्त करने के लिए सरलीकृत कर्नेल क्षेत्रों को विस्तारित करने की आवश्यकता होती है। और यह अलग-अलग तराजू के साथ डीओजी के बराबर है (एलओजी वक्र डीओजी के समान आकार है, और फिल्टर आकार उनकी चौड़ाई को भी समान बनाता है)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.