मैं वर्गीकरण के लिए एक तंत्रिका नेटवर्क को प्रशिक्षित करने की कोशिश कर रहा हूं, लेकिन मेरे पास जो लेबल हैं वे शोरगुल हैं (लगभग 30% लेबल गलत हैं)।
क्रॉस-एन्ट्रापी नुकसान वास्तव में काम करता है, लेकिन मैं सोच रहा था कि क्या इस मामले में कोई विकल्प अधिक प्रभावी है? या क्रॉस-एन्ट्रापी नुकसान इष्टतम है?
मुझे यकीन नहीं है, लेकिन मैं क्रॉस-एन्ट्रापी नुकसान को कुछ "कतरन" के बारे में सोच रहा हूं, जैसे कि एक डेटा बिंदु के लिए नुकसान कुछ ऊपरी बाध्य से अधिक नहीं होगा, क्या यह काम करेगा?
धन्यवाद!
अपडेट
लुकास के उत्तर के अनुसार, मुझे भविष्यवाणी आउटपुट और सॉफ्टमैक्स फ़ंक्शन इनपुट के लिए डेरिवेटिव के लिए निम्नलिखित मिला । इसलिए मुझे लगता है कि यह अनिवार्य रूप से डेरिवेटिव में एक स्मूथिंग शब्द जोड़ रहा है ।
मूल क्रॉस-एन्ट्रापी नुकसान के लिए डेरिवेटिव:
z ३ पीमैं=0.3/एन+0.7yमैंएल=-Σटीमैंलॉग इन करें(पीमैं)∂एल
अपडेट
मैं अभी Google द्वारा एक पेपर पढ़ने के लिए हुआ है जो लुकास के उत्तर में एक ही फार्मूला लागू करता है लेकिन विभिन्न व्याख्याओं के साथ।
लेबल चिकनाई के माध्यम से धारा 7 मॉडल नियमितीकरण में
यह (क्रॉस एन्ट्रापी लॉस), हालांकि, दो समस्याएं पैदा कर सकता है। सबसे पहले, इसका परिणाम ओवर-फिटिंग हो सकता है: यदि मॉडल प्रत्येक प्रशिक्षण उदाहरण के लिए ग्राउंडट्रूट लेबल के लिए पूर्ण संभावना असाइन करना सीखता है, तो इसे सामान्यीकृत करने की गारंटी नहीं है। दूसरा, यह सबसे बड़े लॉजिट और अन्य सभी के बीच अंतर को बड़ा बनने के लिए प्रोत्साहित करता है, और यह, सीमाबद्ध ढाल , मॉडल की अनुकूलन क्षमता को कम करता है। सहज रूप से, ऐसा इसलिए होता है क्योंकि मॉडल अपनी भविष्यवाणियों के बारे में बहुत आश्वस्त हो जाता है।
लेकिन भविष्यवाणियों में स्मूथिंग शब्द जोड़ने के बजाय, उन्होंने इसे जमीनी सच्चाई से जोड़ दिया, जो मददगार साबित हुआ।
K = 1000 कक्षाओं के साथ हमारे ImageNet प्रयोगों में, हमने यू (k) = 1/1000 और = 0.1 का उपयोग किया। ILSVRC 2012 के लिए, हमने शीर्ष -1 त्रुटि और शीर्ष -5 त्रुटि दोनों के लिए लगभग 0.2% निरपेक्ष सुधार पाया है।