कौन सा गहन शिक्षण मॉडल उन श्रेणियों को वर्गीकृत कर सकता है जो पारस्परिक रूप से अनन्य नहीं हैं


9

उदाहरण: मेरे पास नौकरी के विवरण में एक वाक्य है: "यूके में जावा वरिष्ठ इंजीनियर"।

मैं इसे 2 श्रेणियों के रूप में भविष्यवाणी करने के लिए एक गहरे शिक्षण मॉडल का उपयोग करना चाहता हूं: English और IT jobs। यदि मैं पारंपरिक वर्गीकरण मॉडल का उपयोग करता हूं, तो यह केवल softmaxअंतिम स्तर पर फ़ंक्शन के साथ 1 लेबल की भविष्यवाणी कर सकता है । इस प्रकार, मैं दोनों श्रेणियों के साथ "हां" / "नहीं" की भविष्यवाणी करने के लिए 2 मॉडल तंत्रिका नेटवर्क का उपयोग कर सकता हूं, लेकिन अगर हमारे पास अधिक श्रेणियां हैं, तो यह बहुत महंगा है। तो क्या हमारे पास एक ही समय में 2 या अधिक श्रेणियों की भविष्यवाणी करने के लिए कोई deeplearning या मशीन लर्निंग मॉडल है?

"संपादित करें": पारंपरिक दृष्टिकोण से 3 लेबल के साथ, यह [1,0,0] द्वारा एन्कोड किया जाएगा, लेकिन मेरे मामले में, यह [1,1,0] या [1,1,1] द्वारा एन्कोड किया जाएगा

उदाहरण: यदि हमारे पास 3 लेबल हैं, और इन सभी लेबल के साथ एक वाक्य फिट हो सकता है। इसलिए अगर सॉफ्टमैक्स फ़ंक्शन से आउटपुट [0.45, 0.35, 0.2] है तो हमें इसे 3 लेबल या 2 लेबल में वर्गीकृत करना चाहिए, या एक हो सकता है? जब हम यह करते हैं तो मुख्य समस्या यह है: 1, या 2, या 3 लेबल में वर्गीकृत करने के लिए अच्छी सीमा क्या है?


हमें सॉफ्टमैक्स फ़ंक्शन के बजाय सिग्मोइड फ़ंक्शन का उपयोग करना होगा। यह डेटा बिंदुओं के लिए कई वर्गों को असाइन कर सकता है।
नीतीश महावन

जवाबों:


6

आप इस मल्टी-लेबल वर्गीकरण को सॉफ्टमैक्स को सिग्मॉइड सक्रियण के साथ बदल सकते हैं और नुकसान फ़ंक्शन के रूप में श्रेणीगत क्रॉसेंट्रोपी के बजाय बाइनरी क्रॉसेंट्रोपी का उपयोग कर सकते हैं। तब आपको केवल एक नेटवर्क की आवश्यकता होती है जिसमें कई आउटपुट यूनिट / न्यूरॉन्स होते हैं जैसे कि आपके पास लेबल होते हैं।

आपको द्विआधारी क्रॉसेंट्रॉपी को नुकसान को बदलने की जरूरत है क्योंकि श्रेणीगत क्रॉस एन्ट्रापी को केवल सकारात्मक लक्ष्यों के लिए भविष्यवाणी से नुकसान मिलता है। इसे समझने के लिए, एक उदाहरण के लिए स्पष्ट क्रॉसेंट्रोपी हानि के सूत्र को देखेंमैं (वर्ग सूचकांकों हैं जे):

एलमैं=-Σजेटीमैं,जेलॉग(पीमैं,जे)

सामान्य मल्टीक्लास सेटिंग में, आप एक सॉफ्टमैक्स का उपयोग करते हैं, ताकि सही वर्ग के लिए भविष्यवाणी सीधे अन्य वर्गों के लिए भविष्यवाणियों पर निर्भर हो। यदि आप सिग्मॉइड द्वारा सॉफ्टमैक्स को प्रतिस्थापित करते हैं तो यह अब सच नहीं है, इसलिए नकारात्मक उदाहरण (जहांटीमैं,जे=0) अब प्रशिक्षण में उपयोग नहीं किया जाता है! इसलिए आपको बाइनरी क्रॉसेंट्रोपी में बदलने की आवश्यकता है, जो सकारात्मक और नकारात्मक दोनों उदाहरणों का उपयोग करता है: एलमैं=-Σजेटीमैं,जेलॉग(पीमैं,जे)-Σजे(1-टीमैं,जे)लॉग(1-पीमैं,जे)


हमें नुकसान फ़ंक्शन के रूप में श्रेणीबद्ध क्रॉसेंट्रॉपी के बजाय द्विआधारी क्रॉसेंट्रोपी का उपयोग करने की आवश्यकता क्यों है? क्या आप और अधिक व्याख्या कर सकते हैं ? अब मैं सिग्मॉइड एक्टिवेशन @robintibor
voxter

मैंने उत्तर @voxter
robintibor

प्रतिभाशाली ! धन्यवाद। इसके अलावा, क्या आप कुछ दस्तावेज़ या ट्यूटोरियल दे सकते हैं, जो डी-लर्निंग में कार्यों के बारे में अधिक गणित समझाते हैं जैसे कि आपने मुझे समझाया?
वोक्सटर

1
महान। ये ट्यूटोरियल मदद कर सकते हैं: neuralnetworksanddeeplearning.com deeplearning.net/tutorial deeplearning.stanford.edu/tutorial
robintibor
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.