Autoencoders के लिए नुकसान समारोह


21

मैं थोड़ा सा ऑटोएन्कोडर्स प्रयोग कर रहा हूं, और टेंसरफ़्लो के साथ मैंने एक मॉडल बनाया जो एमएनआईएसटी डेटासेट के पुनर्निर्माण की कोशिश करता है।

मेरा नेटवर्क बहुत सरल है: एक्स, ई 1, ई 2, डी 1, वाई, जहां ई 1 और ई 2 एन्कोडिंग परतें हैं, डी 2 और वाई डिकोडिंग लेयर्स हैं (और वाई पुनर्निर्मित आउटपुट है)।

X में 784 इकाइयाँ हैं, e1 में 100, e2 में 50, d1 में फिर से 100 और Y 784 में फिर से है।

मैं परतों के लिए सक्रियण के रूप में सिग्मॉइड्स का उपयोग कर रहा हूं e1, e2, d1 और Y. इनपुट्स [0,1] में हैं और इसलिए आउटपुट होना चाहिए।

ठीक है, मैंने हार फंक्शन के रूप में क्रॉस एन्ट्रॉपी का उपयोग करने की कोशिश की, लेकिन आउटपुट हमेशा एक बूँद था, और मैंने देखा कि एक्स से ई 1 तक के वेट हमेशा शून्य-मूल्यवान मैट्रिक्स में परिवर्तित होंगे।

दूसरी ओर, हानि फ़ंक्शन के रूप में माध्य चुकता त्रुटियों का उपयोग करते हुए, एक सभ्य परिणाम पैदा करेगा, और मैं अब इनपुटों को फिर से बनाने में सक्षम हूं।

ऐसा क्यों हैं? मुझे लगा कि मैं मानों को संभावनाओं के रूप में व्याख्या कर सकता हूं, और इसलिए क्रॉस एन्ट्रॉपी का उपयोग कर सकता हूं, लेकिन जाहिर है कि मैं कुछ गलत कर रहा हूं।


1
आपने पहली परतों में सक्रियण कार्यों के लिए सिग्मॉइड का उपयोग करने का उल्लेख किया है। CS231n नोट्स में पूरी तरह से समझाए गए "संतृप्ति" को प्रदर्शित करते हैं । क्या आपने ReLUs की तरह एक और सक्रियण समारोह की कोशिश की है?
जेरी

मैं अभी याद नहीं कर सकता अगर मैंने अन्य की कोशिश की, लेकिन साझा करने के लिए धन्यवाद!
अंकिरौस

जवाबों:


18

मुझे लगता है कि इसका सबसे अच्छा उत्तर यह है कि क्रॉस-एन्ट्रापी लॉस फंक्शन सिर्फ इस विशेष कार्य के अनुकूल नहीं है।

इस दृष्टिकोण को लेने में, आप अनिवार्य रूप से कह रहे हैं कि सच्चा MNIST डेटा द्विआधारी है, और आपकी पिक्सेल तीव्रता संभावना का प्रतिनिधित्व करती है कि प्रत्येक पिक्सेल 'चालू' है। लेकिन हम जानते हैं कि वास्तव में ऐसा नहीं है। इस निहित धारणा की गलतता तब हमारे मुद्दों का कारण बन रही है।

-[(लक्ष्य)लॉग(भविष्यवाणी)+(1-लक्ष्य)लॉग(1-भविष्यवाणी)]

क्रॉस-एन्ट्रापी बनाम एमएसई लॉस

हम देख सकते हैं कि क्रॉस-एन्ट्रापी नुकसान असममित है। हम ऐसा क्यों चाहेंगे? क्या 0.7 की भविष्यवाणी करने की तुलना में इस 0.8 पिक्सेल के लिए 0.9 की भविष्यवाणी करना वास्तव में बदतर है? मैं कहूंगा कि यह शायद बेहतर है, अगर कुछ भी हो।

हम शायद अधिक विस्तार में जा सकते हैं और यह पता लगा सकते हैं कि यह आपके द्वारा देखे जा रहे विशिष्ट ब्लब्स की ओर क्यों जाता है। मुझे लगता है कि यह खतरा है क्योंकि पिक्सेल तीव्रता उस क्षेत्र में औसतन 0.5 से ऊपर है जहाँ आप बूँद देख रहे हैं। लेकिन सामान्य तौर पर यह अंतर्निहित मॉडलिंग मान्यताओं का मामला है जिसे आपने डेटा के लिए अनुपयुक्त बना दिया है।

उम्मीद है की वो मदद करदे!


3
यदि इनपुट 0 और 1 के बीच चल रहा हो तो क्या नुकसान उठाना उचित है?
जेमशीट इस्केंडरोव

बाइनरी क्रॉस एन्ट्रॉपी लॉस
टॉरएफ़
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.