समस्या यह है:
एक एकल छिपे हुए परत तंत्रिका नेटवर्क के लिए इनपुट परत के संबंध में ढाल को इनपुट के लिए सिग्मॉइड का उपयोग करके -> छिपा हुआ, छिपा के लिए सॉफ्टमैक्स -> आउटपुट, एक क्रॉस एन्ट्रॉपी लॉस के साथ।
मैं श्रृंखला नियम का उपयोग करके अधिकांश व्युत्पत्ति प्राप्त कर सकता हूं, लेकिन मैं इस बात पर अनिश्चित हूं कि वास्तव में उन्हें एक साथ "चेन" कैसे किया जाए।
कुछ अंकन को परिभाषित करें
, sigmoid फ़ंक्शन है
,
, सॉफ्टमैक्स फ़ंक्शन है
, असली लेबल वन-हॉट वेक्टर
फिर चेन नियम से,
व्यक्तिगत ग्रेडिएंट हैं:
अब हमें एक साथ परिभाषाओं की श्रृंखला बनानी होगी। एकल-चर में यह आसान है, हम बस सब कुछ एक साथ गुणा करते हैं। वैक्टर में, मुझे यकीन नहीं है कि तत्व-वार गुणन या मैट्रिक्स गुणन का उपयोग करना है या नहीं।
कहाँ वैक्टर के तत्व-वार गुणन है, और एक मैट्रिक्स गुणा है। ऑपरेशनों का यह संयोजन एकमात्र तरीका है जिससे मैं एक साथ एक स्ट्रिंग प्राप्त कर सकता हूं ताकि एक आयाम सदिश प्राप्त हो, जिसे मैं जानता हूं कि होना चाहिए।
मेरा प्रश्न है: मेरे लिए यह निर्धारित तरीका है कि किस ऑपरेटर का उपयोग करना है? मैं और बीच तत्व-वार की आवश्यकता से विशेष रूप से भ्रमित हूं ।
धन्यवाद!