क्या कोई समझा सकता है कि वैश्विक अधिकतम पूलिंग परत क्या है और क्यों और कब हम इसका उपयोग तंत्रिका नेटवर्क के प्रशिक्षण के लिए करते हैं। क्या उन्हें साधारण अधिकतम पूलिंग परत पर कोई फायदा है?
क्या कोई समझा सकता है कि वैश्विक अधिकतम पूलिंग परत क्या है और क्यों और कब हम इसका उपयोग तंत्रिका नेटवर्क के प्रशिक्षण के लिए करते हैं। क्या उन्हें साधारण अधिकतम पूलिंग परत पर कोई फायदा है?
जवाबों:
वैश्विक अधिकतम पूलिंग = पूल आकार के साथ साधारण अधिकतम पूलिंग परत इनपुट के आकार के बराबर होती है (शून्य फिल्टर आकार + 1, सटीक होने के लिए)। आप देख सकते हैं कि MaxPooling1D
एक pool_length
तर्क लगता है , जबकि GlobalMaxPooling1D
ऐसा नहीं है।
उदाहरण के लिए, यदि अधिकतम पूलिंग परत का इनपुट , वैश्विक अधिकतम पूलिंग आउटपुट 5 है , जबकि पूल आकार के साथ साधारण अधिकतम पूलिंग परत 3 आउटपुट 2 , 2 , 5 , के बराबर है । 5 , 5 (स्ट्राइड मानकर = 1)।
यह कोड में देखा जा सकता है :
class GlobalMaxPooling1D(_GlobalPooling1D):
"""Global max pooling operation for temporal data.
# Input shape
3D tensor with shape: `(samples, steps, features)`.
# Output shape
2D tensor with shape: `(samples, features)`.
"""
def call(self, x, mask=None):
return K.max(x, axis=1)
कुछ डोमेन में, जैसे कि प्राकृतिक भाषा प्रसंस्करण, वैश्विक अधिकतम पूलिंग का उपयोग करना आम है। कंप्यूटर विज़न जैसे कुछ अन्य डोमेन में, अधिकतम पूलिंग का उपयोग करना आम है जो वैश्विक नहीं है।
जैसा कि इस पत्र में वर्णित है कि प्रस्तावित वैश्विक औसत पूलिंग (GAP):
परम्परागत रूप से जटिल तंत्रिका नेटवर्क नेटवर्क की निचली परतों में दीक्षांत समारोह करते हैं। वर्गीकरण के लिए, अंतिम दृढ़ परत के फ़ीचर मानचित्रों को सदिश और पूरी तरह से कनेक्ट की गई परतों में फीड किया जाता है, इसके बाद सॉफ्टमैक्स लॉजिस्टिक रिग्रेसिव लेयर का उपयोग किया जाता है। यह संरचना पारंपरिक तंत्रिका नेटवर्क क्लासिफायर के साथ जटिल संरचना को पुल करती है। यह विभेदक परतों को फीचर एक्सट्रैक्टर्स के रूप में मानता है, और परिणामस्वरूप फीचर को पारंपरिक तरीके से वर्गीकृत किया जाता है।
हालांकि, पूरी तरह से जुड़ी हुई परतें ओवरफिटिंग के लिए प्रवण हैं, इस प्रकार समग्र नेटवर्क की सामान्यीकरण क्षमता में बाधा उत्पन्न होती है। ड्रॉपआउट को एक नियमित के रूप में हिंटन एट अल द्वारा प्रस्तावित किया गया है जो प्रशिक्षण के दौरान पूरी तरह से जुड़े परतों में आधे से सक्रिय रूप से सक्रियता सेट करता है। इसने सामान्यीकरण क्षमता में सुधार किया है और मोटे तौर पर ओवरफिटिंग को रोकता है।
इस पत्र में, हम CNN में पारंपरिक पूरी तरह से जुड़े परतों को बदलने के लिए वैश्विक औसत पूलिंग नामक एक अन्य रणनीति का प्रस्ताव करते हैं। विचार अंतिम mlpconv परत में वर्गीकरण कार्य के प्रत्येक संबंधित श्रेणी के लिए एक फीचर मैप तैयार करना है। फ़ीचर मैप्स के शीर्ष पर पूरी तरह से जुड़ी हुई परतों को जोड़ने के बजाय, हम प्रत्येक फ़ीचर मैप का औसत लेते हैं, और परिणामस्वरूप वेक्टर को सीधे सॉफ्टमैक्स लेयर में फीड किया जाता है। पूरी तरह से जुड़े परतों पर वैश्विक औसत पूलिंग का एक फायदा यह है कि यह फीचर मैप्स और श्रेणियों के बीच पत्राचार को लागू करके कनवल्शन स्ट्रक्चर के लिए अधिक मूल है। इस प्रकार फीचर मैप की व्याख्या आसानी से श्रेणियों के विश्वास मानचित्र के रूप में की जा सकती है। एक और लाभ यह है कि वैश्विक औसत पूलिंग में अनुकूलन के लिए कोई पैरामीटर नहीं है इस प्रकार इस परत पर ओवरफिटिंग से बचा जाता है। इसके अलावा, वैश्विक औसत पूलिंग से स्थानिक जानकारी निकलती है, इस प्रकार यह इनपुट के स्थानिक अनुवाद के लिए अधिक मजबूत है। हम वैश्विक औसत पूलिंग को एक संरचनात्मक नियमितकर्ता के रूप में देख सकते हैं जो स्पष्ट रूप से अवधारणाओं (श्रेणियों) के विश्वास मानचित्र होने के लिए फ़ीचर मानचित्रों को लागू करता है। यह mlpconv परतों द्वारा संभव बनाया गया है, क्योंकि वे GLM की तुलना में आत्मविश्वास के नक्शे में बेहतर सन्निकटन करते हैं।
संपादित करें: जैसा कि @MaxLawnboy द्वारा सुझाया गया है, यहां एक ही विषय पर एक और पेपर है ।