एंकरिंग फास्टर आरसीएनएन

एंकरिंग के बारे में बात करते हुए फास्टर आरसीएनएन पेपर में, "संदर्भ बक्से के पिरामिड" का उपयोग करने से उनका क्या मतलब है और यह कैसे किया जाता है? क्या इसका यह अर्थ है कि प्रत्येक W * H * k एंकर में एक बाउंडिंग बॉक्स उत्पन्न होता है?

जहां डब्ल्यू = चौड़ाई, एच = ऊंचाई, और कश्मीर = पहलू अनुपात की संख्या * संख्या तराजू

पेपर का लिंक: https://arxiv.org/abs/1506.01497

deep-learning computer-vision

— BadProgrammer
स्रोत

यह एक बहुत अच्छा सवाल है।

— माइकल आर। चेरिक

जवाबों:

एंकरों ने समझाया

लंगर

कुछ समय के लिए, "संदर्भ बक्से के पिरामिड" के फैंसी शब्द को नजरअंदाज करें, एंकर क्षेत्र प्रस्ताव नेटवर्क को खिलाए जाने के लिए निश्चित आकार के आयतों के अलावा कुछ भी नहीं हैं। एंकरों को अंतिम फीचर मानचित्र पर परिभाषित किया जाता है, जिसका अर्थ है कि उनमें से हैं, लेकिन वे छवि के अनुरूप हैं। प्रत्येक एंकर के लिए तब आरपीएन सामान्य रूप से एक ऑब्जेक्ट रखने की संभावना की भविष्यवाणी करता है और चार एंकर को सही स्थिति में ले जाने और आकार बदलने के लिए समन्वय करता है। लेकिन एंकरों की ज्यामिति को आरपीएन के साथ कुछ भी कैसे करना है? $(H_{featuremap}*W_{featuremap})*(k)$

एंकर वास्तव में लॉस फंक्शन में दिखाई देते हैं

आरपीएन को प्रशिक्षित करते समय, पहले एक बाइनरी क्लास लेबल प्रत्येक एंकर को सौंपा जाता है। ग्राउंड-ट्रुथ बॉक्स के साथ इन्टर्सेक्शन -ओवर-यूनियन ( IoU ) ओवरलैप वाले एंकर एक निश्चित सीमा से अधिक होते हैं, उन्हें एक सकारात्मक लेबल दिया जाता है (इसी प्रकार दिए गए थ्रेशोल्ड से कम IoU के साथ एंकर नकारात्मक रूप से लेबल किए जाएंगे)। इन लेबल का उपयोग आगे चलकर नुकसान के कार्य की गणना के लिए किया जाता है:

$p$ आरपीएन का वर्गीकरण प्रधान आउटपुट है जो किसी ऑब्जेक्ट को समाहित करने के लिए एंकर की संभावना को निर्धारित करता है। नकारात्मक के रूप में लेबल किए गए एंकर के लिए, प्रतिगमन - से कोई नुकसान नहीं हुआ है , जमीनी सच्चाई लेबल शून्य है। दूसरे शब्दों में, नेटवर्क नकारात्मक एंकरों के लिए आउटपुट निर्देशांक के बारे में परवाह नहीं करता है और जब तक यह उन्हें सही ढंग से वर्गीकृत करता है तब तक खुश है। सकारात्मक एंकर के मामले में, प्रतिगमन हानि को ध्यान में रखा जाता है। आरपीएन का प्रतिगमन हेड आउटपुट है, एक वेक्टर जो अनुमानित बाउंडिंग बॉक्स के 4 मापदंडों वाले निर्देशांक का प्रतिनिधित्व करता है। पैरामीटर एंकर ज्यामिति पर निर्भर करता है और निम्नानुसार है: $p^*$ $t$

जहां और h बॉक्स के केंद्र निर्देशांक और उसकी चौड़ाई और ऊंचाई को दर्शाते हैं। चर और क्रमशः अनुमानित बॉक्स, लंगर बॉक्स और जमीनी सच्चाई बॉक्स के लिए हैं (इसी तरह )। $x, y, w,$ $x, x_a,$ $x^*$ $y, w, h$

बिना लेबल वाले नोटिस एंकरों को न तो वर्गीकृत किया जाता है और न ही पुनर्परिभाषित किया जाता है और RPM बस उन्हें संगणना से बाहर फेंक देता है। एक बार RPN का काम पूरा हो जाता है, और प्रस्ताव तैयार हो जाते हैं, बाकी फास्ट R-CNN के समान होता है।

— महान फथी
स्रोत

@Fathi अगर हमारे पास कई वर्ग हैं तो क्या होगा? जहां तक मुझे पता है, फास्ट आर-सीएनएन में प्रत्येक प्रशिक्षण आरओआई को एक ग्राउंड ट्रूथ क्लास सौंपा गया है। तो, मुझे लगता है कि ऐसा ही कुछ यहाँ होता है?

— thanasissdr

@ फथी मैं पूरी तरह से सहमत हूं कि आप क्या कह रहे हैं, इसलिए मुझे लगता है कि आप मुझसे सहमत हैं। मेरा मतलब है कि फास्टर आर-सीएनएन के लिए मूल पेपर के लेखकों ने सरलता के लिए केवल दो वर्गों (पृष्ठभूमि / वस्तु) का उपयोग किया है, यह समझाने की कोशिश कर रहा है कि आरपीएन कैसे काम करता है, है ना? इसलिए, केवल दो कक्षाएं होने के बजाय, मेरे पास केवल दो से अधिक हो सकते हैं और मुझे लगता है कि मैं ज्ञात क्रॉस एन्ट्रॉपी लॉस फ़ंक्शन ले सकता हूं, है ना?

— थान्सिस्डर

@thanasissdr फास्टर आर-सीएनएन के पीछे मूल विचार यह था कि "जब तंत्रिका जाल बाकी सब चीजों में इतने अच्छे होते हैं, तो क्षेत्र प्रस्तावों के लिए भी उनका उपयोग क्यों नहीं किया जाता है?"। फास्ट आर-सीएनएन की तुलना मानक आर-सीएनएन से करने के लिए, एकमात्र अंतर यह है कि आरओआई प्रस्ताव - जो फिर से उसी पुरानी तकनीकों का उपयोग करके बनाया जाता है, जैसे सेलेक्टिवसर्च या एजबॉक्स - कच्ची छवि से मेधावी सुविधाओं तक मैप किए जाते हैं, और फिर इसे खिलाया जाता है एफसी। इस तरह CNN के माध्यम से प्रत्येक RoI की फॉरवर्ड पास प्रक्रिया को छोड़ दिया जाता है।

— महान फथी

फास्टर आर-सीएनएन में, आरपीएन उचित क्षेत्रों को प्रस्तावित करना सीखता है। एक बार आरपीएन हो जाने के बाद, बाकी फास्ट आर-सीएनएन के समान है, और एफसी प्रस्तावों को वर्गीकृत और पुनः प्राप्त करते हैं।

— महान फ़ाथी

@ थानसैसिड्र यस। हम इसी पृष्ठ पर हैं। मुझे लगता है कि आप आरपीएन में वर्गीकृत कर सकते हैं, लेकिन यह अनावश्यक होगा क्योंकि एफसी नेट फिर से वर्गीकरण करता है, और जंक प्रस्तावों को अस्वीकार करने में कोई कठिनाई नहीं है। पाइपलाइन के बारे में भी सोचें, आप वर्गीकरण स्कोर का उपयोग कैसे करेंगे, और वे किस तरह से मदद करेंगे? मेरा अंतिम स्टैंड है, (पृष्ठभूमि / वस्तु) वर्गीकरण फास्टर आर-सीएनएन में एक आधारशिला है।

— महान फथी

मैंने कल इस पेपर को पढ़ा और पहली नजर में यह मेरे लिए भी उलझन भरा था। फिर से पढ़ने के बाद मैं इस नतीजे पर पहुँचा:

मूल नेटवर्क (ZF या VGG-16) की अंतिम परत क्षेत्र प्रस्ताव नेटवर्क और आरओआई पूलिंग के लिए इनपुट के रूप में कार्य करती है। वीजीजी -16 के मामले में यह अंतिम संकरी परत है 7x7x512 (HxWxD)।
इस परत को ५१० आयामी परत को एक 3x3सजाया परत के साथ मैप किया जाता है । आउटपुट का आकार है 7x7x512(यदि पैडिंग का उपयोग किया जाता है)।
यह परत प्रत्येक एंकर बक्से के लिए एक परत के साथ एक 7x7x(2k+4k)(जैसे 7x7x54) परत को मैप की जाती है ।1x1k

अब कागज में चित्र 1 के अनुसार आपके पास इनपुट छवियों का पिरामिड हो सकता है (अलग-अलग पैमाने पर समान छवियां), फिल्टर का एक पिरामिड (एक अलग स्तर के फिल्टर, एक ही परत में) या संदर्भ बक्से का एक पिरामिड। उत्तरार्द्ध kक्षेत्र प्रस्ताव नेटवर्क की अंतिम परत पर लंगर बक्से को संदर्भित करता है । विभिन्न आकारों वाले फ़िल्टर के बजाय जो एक दूसरे के ऊपर (बीच का मामला) स्टैक्ड होते हैं, एक अलग आकार और पहलू अनुपात वाले फ़िल्टर एक-दूसरे के ऊपर स्टैक्ड होते हैं।

संक्षेप में, प्रत्येक एंकर बिंदु ( HxWजैसे, उदाहरण के लिए 7x7) संदर्भ बक्से का एक पिरामिड ( k, जैसे 9) का उपयोग किया जाता है।

— पीटर
स्रोत

लेकिन वास्तव में एक लंगर बॉक्स क्या है? प्रत्येक एंकर बॉक्स का उद्देश्य क्या है: आरपीएन के इनपुट के रूप में उपयोग किया जाता है एंकर बॉक्स की चौड़ाई और ऊंचाई में प्रत्येक एंकर बॉक्स के लिए एक डेल्टा की भविष्यवाणी करता है जिसे अग्रभूमि का हिस्सा माना जाता है?

— बैडप्रोग्रामर

RPN अग्रभूमि स्थान और वस्तु स्कोर के डेल्टा बदलाव दोनों की भविष्यवाणी करता है। उत्तरार्द्ध स्पष्ट रूप से भविष्यवाणी करने की कोशिश करता है अगर यह पृष्ठभूमि या अग्रभूमि है (फुटनोट 3 भी देखें)।

— पीटर

क्या आप बता सकते हैं कि कैसे एक 3x3परत परत का अनुवाद होता है 7x7? प्रोटोटेक्स्ट में, यह कहता है कि पिछले VGG16 परत पर पैडिंग 1 है।

— क्लिक करें If