वजन कम करने के लिए कैसे वैरिएबल ऑटो-एनकोडर में पुनर्निर्माण नुकसान बनाम केएलडी

26

लगभग सभी कोड उदाहरणों में मैंने एक वीएई के बारे में देखा है, नुकसान कार्यों को निम्नानुसार परिभाषित किया गया है (यह टेंसोफ़्लो कोड है, लेकिन मैंने थीनो, मशाल आदि के लिए समान देखा है। यह एक कंफर्ट के लिए भी है, लेकिन यह भी प्रासंगिक नहीं है , बस उन कुल्हाड़ियों को प्रभावित करता है जिन पर रकम लगी है):

# latent space loss. KL divergence between latent space distribution and unit gaussian, for each batch.
# first half of eq 10. in https://arxiv.org/abs/1312.6114
kl_loss = -0.5 * tf.reduce_sum(1 + log_sigma_sq - tf.square(mu) - tf.exp(log_sigma_sq), axis=1)

# reconstruction error, using pixel-wise L2 loss, for each batch
rec_loss = tf.reduce_sum(tf.squared_difference(y, x), axis=[1,2,3])

# or binary cross entropy (assuming 0...1 values)
y = tf.clip_by_value(y, 1e-8, 1-1e-8) # prevent nan on log(0)
rec_loss = -tf.reduce_sum(x * tf.log(y) + (1-x) * tf.log(1-y), axis=[1,2,3])

# sum the two and average over batches
loss = tf.reduce_mean(kl_loss + rec_loss)

हालाँकि kl_loss और rec_loss की सांख्यिक सीमा क्रमशः अव्यक्त स्थान के dims और इनपुट सुविधा आकार (जैसे पिक्सेल रिज़ॉल्यूशन) पर बहुत निर्भर हैं। क्या यह समझदारी होगी कि z- मंद KLD और प्रति पिक्सेल (या फ़ीचर) LSE या BCE प्राप्त करने के लिए घटाने_मैं के साथ घटाने_सम की जगह? अधिक महत्वपूर्ण बात, अंतिम नुकसान के लिए एक साथ योग करने पर हम पुनर्निर्माण के नुकसान के साथ अव्यक्त हानि का भार कैसे उठाते हैं? क्या यह सिर्फ परीक्षण और त्रुटि है? या इसके लिए कुछ सिद्धांत (या कम से कम अंगूठे का नियम) है? मुझे इस पर कोई जानकारी कहीं भी नहीं मिली (मूल पेपर सहित)।

जो समस्या मुझे हो रही है, वह यह है कि यदि मेरे इनपुट फीचर (x) आयामों और अव्यक्त स्थान (z) आयामों के बीच का संतुलन 'इष्टतम' नहीं है, तो या तो मेरा पुनर्संरचना बहुत अच्छा है, लेकिन सीखा अव्यक्त स्थान असंरचित है (यदि x आयाम हैं केएलडी पर बहुत अधिक और पुनर्निर्माण त्रुटि हावी है), या इसके विपरीत (पुनर्निर्माण अच्छा नहीं है लेकिन सीखा अव्यक्त स्थान अच्छी तरह से संरचित है यदि केएलडी हावी है)।

मैं खुद को पुनर्निर्माण हानि (इनपुट सुविधा आकार द्वारा विभाजित), और KLD (z आयामों द्वारा विभाजित) को सामान्य करने के लिए पा रहा हूं और फिर मैन्युअल रूप से KLD शब्द को एक मनमाना वजन कारक के साथ भारित कर रहा हूं (सामान्यीकरण इतना है कि मैं उसी का उपयोग कर सकता हूं या कर सकता हूं) x या z के आयामों से स्वतंत्र समान वजन )। आनुभविक रूप से मैंने पुनर्निर्माण और संरचित अव्यक्त स्थान के बीच एक अच्छा संतुलन प्रदान करने के लिए लगभग 0.1 पाया है जो मेरे लिए एक 'मीठा स्थान' जैसा लगता है। मैं इस क्षेत्र में पूर्व काम की तलाश में हूं।

अनुरोध करने पर, गणित के ऊपर अंकन (पुनर्निर्माण त्रुटि के लिए L2 हानि पर ध्यान केंद्रित)

{एल}_{एल ए टी ई n टी}^{(मैं)} = - \frac{1}{2} Σ_{j = 1}^{जम्मू} (1 + लॉग (σ_{j}^{(मैं)})^{2} - (μ_{j}^{(मैं)})^{2} - (σ_{j}^{(मैं)})^{2})

$\mathcal{L}_{latent}^{(i)} = -\frac{1}{2} \sum_{j=1}^{J}(1+\log (\sigma_j^{(i)})^2 - (\mu_j^{(i)})^2 - (\sigma_j^{(i)})^2)$

{एल}_{आर ई सी ओ n}^{(मैं)} = - Σ_{कश्मीर = 1}^{कश्मीर} (y_{कश्मीर}^{(मैं)} - {एक्स}_{कश्मीर}^{(मैं)})^{2}

$\mathcal{L}_{recon}^{(i)} = -\sum_{k=1}^{K}(y_k^{(i)}-x_k^{(i)})^2$

{एल}^{(मीटर)} = \frac{1}{एम} Σ_{मैं = 1}^{एम} ({एल}_{एल ए टी ई n टी}^{(मैं)} + {एल}_{आर ई सी ओ n}^{(मैं)})

$\mathcal{L}^{(m)} = \frac{1}{M}\sum_{i=1}^{M}(\mathcal{L}_{latent}^{(i)} + \mathcal{L}_{recon}^{(i)})$

जहाँ अव्यक्त सदिश (और इसी माध्य और भिन्नता ) की , इनपुट विशेषताओं की गतिशीलता है, मिनी-बैच आकार है, सुपरस्क्रिप्ट वें डेटा बिंदु और को दर्शाता है। वें मिनी-बैच के लिए नुकसान है । $J$ $z$ $\mu$ $\sigma^2$ $K$ $M$ $(i)$ $i$ $\mathcal{L}^{(m)}$ $m$

— ज्ञापन
स्रोत

17

इस पोस्ट पर किसी को भी जवाब देने के लिए ठोकर खाते हुए, इस ट्विटर धागे ने बहुत उपयोगी अंतर्दृष्टि जोड़ी है।

अर्थात्:

बीटा-वीएई: एक बुनियादी विविधता वाले ढांचे के साथ बुनियादी दृश्य अवधारणाओं को सीखना

$\beta_{norm}$

और संबंधित पढ़ने (जहां इसी तरह के मुद्दों पर चर्चा की जाती है)

— ज्ञापन
स्रोत

7

मैं इस मुद्दे से संबंधित एक और पेपर जोड़ना चाहूंगा (फिलहाल मेरी कम प्रतिष्ठा के कारण मैं टिप्पणी नहीं कर सकता)।

कागज के उप-भाग 3.1 में, लेखकों ने निर्दिष्ट किया कि वे VAE के एक सीधे कार्यान्वयन को प्रशिक्षित करने में विफल रहे जो समान रूप से संभावना और केएल विचलन का भार उठाते थे। उनके मामले में, केएल का नुकसान अवांछनीय रूप से शून्य तक कम हो गया था, हालांकि यह एक छोटा मूल्य होने की उम्मीद थी। इसे दूर करने के लिए, उन्होंने "केएल कॉस्ट एनीलिंग" का उपयोग करने का प्रस्ताव दिया, जिसने धीरे-धीरे केएल डायवर्जन शब्द (नीला वक्र) के वजन कारक को 0 से 1 तक बढ़ा दिया।

इस काम के आसपास समाधान भी सीढ़ी VAE में लागू किया जाता है।

पेपर:

बोमन, एसआर, विल्निस, एल।, विनयल्स, ओ।, दाई, एएम, जोजफॉविक्ज, आर। और बेंगियो, एस।, 2015। एक निरंतर स्थान से वाक्य उत्पन्न करना । arXiv प्रीप्रिंट arXiv: 1511.06349।

— चुओंग
स्रोत