मैं अध्ययन कर रहा हूं और विवादास्पद तंत्रिका नेटवर्क को लागू करने की कोशिश कर रहा हूं, लेकिन मुझे लगता है कि यह सवाल बहुपरत अवधारणात्मक रूप से सामान्य रूप से लागू होता है।
मेरे नेटवर्क में आउटपुट न्यूरॉन्स प्रत्येक वर्ग की सक्रियता का प्रतिनिधित्व करते हैं: सबसे सक्रिय न्यूरॉन किसी दिए गए इनपुट के लिए अनुमानित वर्ग से मेल खाता है। प्रशिक्षण के लिए एक क्रॉस-एन्ट्रापी लागत पर विचार करने के लिए, मैं नेटवर्क के अंत में एक सॉफ्टमैक्स परत जोड़ रहा हूं, ताकि प्रत्येक न्यूरॉन के सक्रियण मूल्य की संभाव्यता मान के रूप में व्याख्या की जाए।
मेरा सवाल है: आउटपुट परत में न्यूरॉन्स इनपुट के लिए एक गैर रेखीय समारोह लागू करना चाहिए? मेरा अंतर्ज्ञान यह है कि यह आवश्यक नहीं है:
- अगर -th आउटपुट न्यूरॉन पर इनपुट एक वेक्टर (पिछली परत से आने वाला) के बीच डॉट उत्पाद और उस न्यूरॉन के लिए भार ,
- और अगर मैं सिग्मॉइड या ReLU जैसे एक मोनोटोनिक गैर-रेखीय फ़ंक्शन को नियोजित करता हूं
- तब बड़ा सक्रियण आउटपुट अभी भी सबसे बड़े अनुरूप होगा , इसलिए इस दृष्टिकोण से गैर-रेखीय फ़ंक्शन भविष्यवाणी को नहीं बदलेगा।
क्या इस व्याख्या में कुछ गड़बड़ है? क्या कुछ प्रशिक्षण कारक हैं जो मैं देख रहा हूँ जो आउटपुट को गैर-रैखिकता के लिए आवश्यक बनाते हैं?
और अगर मैं सही हूं, तो क्या कुछ बदल जाएगा अगर सिग्मॉइड फ़ंक्शन का उपयोग करने के बजाय मैं ReLU फ़ंक्शन का उपयोग करता हूं , जो कड़ाई से मोनोटोनिक नहीं है?
संपादित करें
कारेल के उत्तर के संदर्भ में, जिसका उत्तर मूल रूप से "यह निर्भर करता है" था, यहां मेरे नेटवर्क और संदेह का अधिक विस्तृत वर्णन है:
मान लीजिए कि मेरे पास एन छिपी हुई परतें हैं, और मेरी आउटपुट परत केवल कक्षाओं का प्रतिनिधित्व करने वाले न्यूरॉन्स के एक सेट पर एक सॉफ्टमैक्स परत है (इसलिए मेरी अपेक्षित आउटपुट संभावना है कि इनपुट डेटा प्रत्येक वर्ग का है)। पहली N-1 परतों को मानने से नॉनलाइनियर न्यूरॉन्स होते हैं, एन-एन छिपी परत में नॉनलाइनियर बनाम लीनियर न्यूरॉन्स का उपयोग करने में क्या अंतर है?