मैं चो 2014 पेपर के माध्यम से काम कर रहा हूं जिसने seq2seq मॉडलिंग के लिए एनकोडर-डिकोडर आर्किटेक्चर पेश किया।
कागज में, वे दिए गए आउटपुट इनपुट की संभावना (या यह नकारात्मक-लॉग-संभावना) का उपयोग करते हैं, लंबाई इनपुट और लंबाई आउटपुट के लिए नुकसान फ़ंक्शन के रूप में :एम वाई एन
हालांकि, मुझे लगता है कि मैं इसे एक हानि फ़ंक्शन के रूप में उपयोग करने के साथ कई समस्याएं देखता हूं:
- यह प्रशिक्षण के दौरान शिक्षक को मजबूर करने के लिए लगता है (यानी, अगले पुनरावृत्ति के इनपुट के रूप में एक पद के लिए डिकोडर के अनुमान का उपयोग करने के बजाय, यह ज्ञात टोकन का उपयोग करता है।
- यह लंबे दृश्यों को दंडित नहीं करेगा। चूंकि संभावना आउटपुट के से तक है, अगर डिकोडर ने पहले बाद एक लंबे अनुक्रम को सब कुछ उत्पन्न किया, तो नुकसान में कारक नहीं होगा।
- यदि मॉडल एक प्रारंभिक एंड-ऑफ-स्ट्रिंग टोकन की भविष्यवाणी करता है, तो नुकसान फ़ंक्शन अभी भी चरणों की मांग करता है - जिसका अर्थ है कि हम मॉडल के अप्रशिक्षित "कई गुना" के आधार पर आउटपुट उत्पन्न कर रहे हैं। वह टेढ़ा लगता है।
क्या इनमें से कोई भी चिंता वैध है? यदि हां, तो क्या अधिक उन्नत हानि समारोह में कोई प्रगति हुई है?