एक अलौकिक तंत्रिका नेटवर्क में अंतिम सॉफ्टमैक्स परत से पहले गैर-रैखिकता


12

मैं अध्ययन कर रहा हूं और विवादास्पद तंत्रिका नेटवर्क को लागू करने की कोशिश कर रहा हूं, लेकिन मुझे लगता है कि यह सवाल बहुपरत अवधारणात्मक रूप से सामान्य रूप से लागू होता है।

मेरे नेटवर्क में आउटपुट न्यूरॉन्स प्रत्येक वर्ग की सक्रियता का प्रतिनिधित्व करते हैं: सबसे सक्रिय न्यूरॉन किसी दिए गए इनपुट के लिए अनुमानित वर्ग से मेल खाता है। प्रशिक्षण के लिए एक क्रॉस-एन्ट्रापी लागत पर विचार करने के लिए, मैं नेटवर्क के अंत में एक सॉफ्टमैक्स परत जोड़ रहा हूं, ताकि प्रत्येक न्यूरॉन के सक्रियण मूल्य की संभाव्यता मान के रूप में व्याख्या की जाए।

मेरा सवाल है: आउटपुट परत में न्यूरॉन्स इनपुट के लिए एक गैर रेखीय समारोह लागू करना चाहिए? मेरा अंतर्ज्ञान यह है कि यह आवश्यक नहीं है:

  • अगर -th आउटपुट न्यूरॉन पर इनपुट एक वेक्टर (पिछली परत से आने वाला) के बीच डॉट उत्पाद और उस न्यूरॉन के लिए भार ,ixTθixθi
  • और अगर मैं सिग्मॉइड या ReLU जैसे एक मोनोटोनिक गैर-रेखीय फ़ंक्शन को नियोजित करता हूं
  • तब बड़ा सक्रियण आउटपुट अभी भी सबसे बड़े अनुरूप होगा , इसलिए इस दृष्टिकोण से गैर-रेखीय फ़ंक्शन भविष्यवाणी को नहीं बदलेगा।xTθi

क्या इस व्याख्या में कुछ गड़बड़ है? क्या कुछ प्रशिक्षण कारक हैं जो मैं देख रहा हूँ जो आउटपुट को गैर-रैखिकता के लिए आवश्यक बनाते हैं?

और अगर मैं सही हूं, तो क्या कुछ बदल जाएगा अगर सिग्मॉइड फ़ंक्शन का उपयोग करने के बजाय मैं ReLU फ़ंक्शन का उपयोग करता हूं , जो कड़ाई से मोनोटोनिक नहीं है?

max(0,xTθi)

संपादित करें

कारेल के उत्तर के संदर्भ में, जिसका उत्तर मूल रूप से "यह निर्भर करता है" था, यहां मेरे नेटवर्क और संदेह का अधिक विस्तृत वर्णन है:

मान लीजिए कि मेरे पास एन छिपी हुई परतें हैं, और मेरी आउटपुट परत केवल कक्षाओं का प्रतिनिधित्व करने वाले न्यूरॉन्स के एक सेट पर एक सॉफ्टमैक्स परत है (इसलिए मेरी अपेक्षित आउटपुट संभावना है कि इनपुट डेटा प्रत्येक वर्ग का है)। पहली N-1 परतों को मानने से नॉनलाइनियर न्यूरॉन्स होते हैं, एन-एन छिपी परत में नॉनलाइनियर बनाम लीनियर न्यूरॉन्स का उपयोग करने में क्या अंतर है?



क्या परतें N-2, N-3, .. 1 रेखीय या अरेखीय हैं?
कारेल मेस्क

1 से लेयर्स (इनपुट के निकटतम) से N-1 नॉनलाइनर हैं। लेयर एन अंतिम (आउटपुट के करीब) छिपी हुई परत है। सॉफ्टमैक्स परत परत N + 1 है।
रैंड

1
सॉफ्टमैक्स से ठीक पहले बीएन परत के बारे में क्या? क्या यह गैर-रैखिकता ठीक है? (क्या यह एक गैर-रैखिकता के रूप में गिना जाता है?)
चार्ली पार्कर

जवाबों:


11

सॉफ्टमैक्स वर्गीकरण से पहले आपको अंतिम परत के लिए एक गैर-रैखिकता का उपयोग नहीं करना चाहिए। ReLU गैर-रैखिकता (अब लगभग अनन्य रूप से उपयोग किया जाता है) इस मामले में बस किसी भी अतिरिक्त लाभ को जोड़े बिना जानकारी को फेंक देगा। आप व्यवहार में क्या किया है के संदर्भ के लिए प्रसिद्ध एलेक्सनेट के कैफ कार्यान्वयन को देख सकते हैं ।


2
सॉफ्टमैक्स से ठीक पहले बीएन परत के बारे में क्या? क्या यह गैर-रैखिकता ठीक है? (क्या यह एक गैर-रैखिकता के रूप में गिना जाता है?)
चार्ली पार्कर

6

आप सॉफ्टमैक्स फ़ंक्शन में एक नकारात्मक मान भेजना चाहते हैं, यह इंगित करने के लिए कि किसी घटना की संभावना कम है। यदि आप इनपुट मानों को एक रिले में पास करते हैं, तो नेटवर्क उन इकाइयों के माध्यम से किसी भी ग्रेडिएंट को पास नहीं करने जा रहा है, जहां पर रिले के लिए इनपुट नकारात्मक है। इसलिए जब सॉफ्टमैक्स की अभिव्यंजक शक्ति नहीं बदली जाती है, तो यह सीखने को बहुत कठिन बना देगा।


0

इसका उत्तर हां या ना में नहीं है। यह दृढ़ता से आपके नेटवर्क के बारे में आपकी अपेक्षा पर निर्भर करता है। मुझे लगता है कि आप एक अच्छा क्लासिफायरियर चाहते हैं, संभवतः समस्याओं की एक विस्तृत श्रृंखला के लिए लागू है। इसलिए, गैर-रैखिकता गैर-तुच्छ वर्गों को पकड़ने के लिए सहायक हो सकती है। गैर-रैखिकता को नरम-अधिकतम परत से पहले या तो अंतिम परत में शामिल किया जा सकता है या यह पूर्ववर्ती परत में हो सकता है।


क्या आप मेरे संपादन को देख सकते हैं?
रैंड
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.