एंकरिंग फास्टर आरसीएनएन


10

एंकरिंग के बारे में बात करते हुए फास्टर आरसीएनएन पेपर में, "संदर्भ बक्से के पिरामिड" का उपयोग करने से उनका क्या मतलब है और यह कैसे किया जाता है? क्या इसका यह अर्थ है कि प्रत्येक W * H * k एंकर में एक बाउंडिंग बॉक्स उत्पन्न होता है?

जहां डब्ल्यू = चौड़ाई, एच = ऊंचाई, और कश्मीर = पहलू अनुपात की संख्या * संख्या तराजू

पेपर का लिंक: https://arxiv.org/abs/1506.01497


यह एक बहुत अच्छा सवाल है।
माइकल आर। चेरिक

जवाबों:


10

एंकरों ने समझाया

लंगर

कुछ समय के लिए, "संदर्भ बक्से के पिरामिड" के फैंसी शब्द को नजरअंदाज करें, एंकर क्षेत्र प्रस्ताव नेटवर्क को खिलाए जाने के लिए निश्चित आकार के आयतों के अलावा कुछ भी नहीं हैं। एंकरों को अंतिम फीचर मानचित्र पर परिभाषित किया जाता है, जिसका अर्थ है कि उनमें से हैं, लेकिन वे छवि के अनुरूप हैं। प्रत्येक एंकर के लिए तब आरपीएन सामान्य रूप से एक ऑब्जेक्ट रखने की संभावना की भविष्यवाणी करता है और चार एंकर को सही स्थिति में ले जाने और आकार बदलने के लिए समन्वय करता है। लेकिन एंकरों की ज्यामिति को आरपीएन के साथ कुछ भी कैसे करना है? (एचटीयूआरपी*डब्ल्यूटीयूआरपी)*()

एंकर वास्तव में लॉस फंक्शन में दिखाई देते हैं

आरपीएन को प्रशिक्षित करते समय, पहले एक बाइनरी क्लास लेबल प्रत्येक एंकर को सौंपा जाता है। ग्राउंड-ट्रुथ बॉक्स के साथ इन्टर्सेक्शन -ओवर-यूनियन ( IoU ) ओवरलैप वाले एंकर एक निश्चित सीमा से अधिक होते हैं, उन्हें एक सकारात्मक लेबल दिया जाता है (इसी प्रकार दिए गए थ्रेशोल्ड से कम IoU के साथ एंकर नकारात्मक रूप से लेबल किए जाएंगे)। इन लेबल का उपयोग आगे चलकर नुकसान के कार्य की गणना के लिए किया जाता है:

आरपीएन लॉस फंक्शन

पी आरपीएन का वर्गीकरण प्रधान आउटपुट है जो किसी ऑब्जेक्ट को समाहित करने के लिए एंकर की संभावना को निर्धारित करता है। नकारात्मक के रूप में लेबल किए गए एंकर के लिए, प्रतिगमन - से कोई नुकसान नहीं हुआ है , जमीनी सच्चाई लेबल शून्य है। दूसरे शब्दों में, नेटवर्क नकारात्मक एंकरों के लिए आउटपुट निर्देशांक के बारे में परवाह नहीं करता है और जब तक यह उन्हें सही ढंग से वर्गीकृत करता है तब तक खुश है। सकारात्मक एंकर के मामले में, प्रतिगमन हानि को ध्यान में रखा जाता है। आरपीएन का प्रतिगमन हेड आउटपुट है, एक वेक्टर जो अनुमानित बाउंडिंग बॉक्स के 4 मापदंडों वाले निर्देशांक का प्रतिनिधित्व करता है। पैरामीटर एंकर ज्यामिति पर निर्भर करता है और निम्नानुसार है:पी*टी

यहाँ छवि विवरण दर्ज करें

जहां और h बॉक्स के केंद्र निर्देशांक और उसकी चौड़ाई और ऊंचाई को दर्शाते हैं। चर और क्रमशः अनुमानित बॉक्स, लंगर बॉक्स और जमीनी सच्चाई बॉक्स के लिए हैं (इसी तरह )।एक्स,y,w,एक्स,एक्स,एक्स*y,w,

बिना लेबल वाले नोटिस एंकरों को न तो वर्गीकृत किया जाता है और न ही पुनर्परिभाषित किया जाता है और RPM बस उन्हें संगणना से बाहर फेंक देता है। एक बार RPN का काम पूरा हो जाता है, और प्रस्ताव तैयार हो जाते हैं, बाकी फास्ट R-CNN के समान होता है।


@Fathi अगर हमारे पास कई वर्ग हैं तो क्या होगा? जहां तक ​​मुझे पता है, फास्ट आर-सीएनएन में प्रत्येक प्रशिक्षण आरओआई को एक ग्राउंड ट्रूथ क्लास सौंपा गया है। तो, मुझे लगता है कि ऐसा ही कुछ यहाँ होता है?
thanasissdr

@ फथी मैं पूरी तरह से सहमत हूं कि आप क्या कह रहे हैं, इसलिए मुझे लगता है कि आप मुझसे सहमत हैं। मेरा मतलब है कि फास्टर आर-सीएनएन के लिए मूल पेपर के लेखकों ने सरलता के लिए केवल दो वर्गों (पृष्ठभूमि / वस्तु) का उपयोग किया है, यह समझाने की कोशिश कर रहा है कि आरपीएन कैसे काम करता है, है ना? इसलिए, केवल दो कक्षाएं होने के बजाय, मेरे पास केवल दो से अधिक हो सकते हैं और मुझे लगता है कि मैं ज्ञात क्रॉस एन्ट्रॉपी लॉस फ़ंक्शन ले सकता हूं, है ना?
थान्सिस्डर

@thanasissdr फास्टर आर-सीएनएन के पीछे मूल विचार यह था कि "जब तंत्रिका जाल बाकी सब चीजों में इतने अच्छे होते हैं, तो क्षेत्र प्रस्तावों के लिए भी उनका उपयोग क्यों नहीं किया जाता है?"। फास्ट आर-सीएनएन की तुलना मानक आर-सीएनएन से करने के लिए, एकमात्र अंतर यह है कि आरओआई प्रस्ताव - जो फिर से उसी पुरानी तकनीकों का उपयोग करके बनाया जाता है, जैसे सेलेक्टिवसर्च या एजबॉक्स - कच्ची छवि से मेधावी सुविधाओं तक मैप किए जाते हैं, और फिर इसे खिलाया जाता है एफसी। इस तरह CNN के माध्यम से प्रत्येक RoI की फॉरवर्ड पास प्रक्रिया को छोड़ दिया जाता है।
महान फथी

फास्टर आर-सीएनएन में, आरपीएन उचित क्षेत्रों को प्रस्तावित करना सीखता है। एक बार आरपीएन हो जाने के बाद, बाकी फास्ट आर-सीएनएन के समान है, और एफसी प्रस्तावों को वर्गीकृत और पुनः प्राप्त करते हैं।
महान फ़ाथी

@ थानसैसिड्र यस। हम इसी पृष्ठ पर हैं। मुझे लगता है कि आप आरपीएन में वर्गीकृत कर सकते हैं, लेकिन यह अनावश्यक होगा क्योंकि एफसी नेट फिर से वर्गीकरण करता है, और जंक प्रस्तावों को अस्वीकार करने में कोई कठिनाई नहीं है। पाइपलाइन के बारे में भी सोचें, आप वर्गीकरण स्कोर का उपयोग कैसे करेंगे, और वे किस तरह से मदद करेंगे? मेरा अंतिम स्टैंड है, (पृष्ठभूमि / वस्तु) वर्गीकरण फास्टर आर-सीएनएन में एक आधारशिला है।
महान फथी

1

मैंने कल इस पेपर को पढ़ा और पहली नजर में यह मेरे लिए भी उलझन भरा था। फिर से पढ़ने के बाद मैं इस नतीजे पर पहुँचा:

  • मूल नेटवर्क (ZF या VGG-16) की अंतिम परत क्षेत्र प्रस्ताव नेटवर्क और आरओआई पूलिंग के लिए इनपुट के रूप में कार्य करती है। वीजीजी -16 के मामले में यह अंतिम संकरी परत है 7x7x512 (HxWxD)
  • इस परत को ५१० आयामी परत को एक 3x3सजाया परत के साथ मैप किया जाता है । आउटपुट का आकार है 7x7x512(यदि पैडिंग का उपयोग किया जाता है)।
  • यह परत प्रत्येक एंकर बक्से के लिए एक परत के साथ एक 7x7x(2k+4k)(जैसे 7x7x54) परत को मैप की जाती है ।1x1k

अब कागज में चित्र 1 के अनुसार आपके पास इनपुट छवियों का पिरामिड हो सकता है (अलग-अलग पैमाने पर समान छवियां), फिल्टर का एक पिरामिड (एक अलग स्तर के फिल्टर, एक ही परत में) या संदर्भ बक्से का एक पिरामिड। उत्तरार्द्ध kक्षेत्र प्रस्ताव नेटवर्क की अंतिम परत पर लंगर बक्से को संदर्भित करता है । विभिन्न आकारों वाले फ़िल्टर के बजाय जो एक दूसरे के ऊपर (बीच का मामला) स्टैक्ड होते हैं, एक अलग आकार और पहलू अनुपात वाले फ़िल्टर एक-दूसरे के ऊपर स्टैक्ड होते हैं।

संक्षेप में, प्रत्येक एंकर बिंदु ( HxWजैसे, उदाहरण के लिए 7x7) संदर्भ बक्से का एक पिरामिड ( k, जैसे 9) का उपयोग किया जाता है।


लेकिन वास्तव में एक लंगर बॉक्स क्या है? प्रत्येक एंकर बॉक्स का उद्देश्य क्या है: आरपीएन के इनपुट के रूप में उपयोग किया जाता है एंकर बॉक्स की चौड़ाई और ऊंचाई में प्रत्येक एंकर बॉक्स के लिए एक डेल्टा की भविष्यवाणी करता है जिसे अग्रभूमि का हिस्सा माना जाता है?
बैडप्रोग्रामर

RPN अग्रभूमि स्थान और वस्तु स्कोर के डेल्टा बदलाव दोनों की भविष्यवाणी करता है। उत्तरार्द्ध स्पष्ट रूप से भविष्यवाणी करने की कोशिश करता है अगर यह पृष्ठभूमि या अग्रभूमि है (फुटनोट 3 भी देखें)।
पीटर

क्या आप बता सकते हैं कि कैसे एक 3x3परत परत का अनुवाद होता है 7x7? प्रोटोटेक्स्ट में, यह कहता है कि पिछले VGG16 परत पर पैडिंग 1 है।
क्लिक करें If
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.