यहां एक चर्चा धागा (जुलाई 2013 से) यह दर्शाता है कि इसके साथ कुछ मुद्दे हो सकते हैं, लेकिन यह किया जा सकता है।
(Ağlar Gülçehre (Yoshua Bengio की लैब से) ने कहा कि उन्होंने नॉलेज मैटर्स में निम्नलिखित तकनीक का सफलतापूर्वक उपयोग किया है : अनुकूलन के लिए पूर्व सूचना का महत्व :
हमेशा की तरह पहले DAE को प्रशिक्षित करें, लेकिन छिपी हुई परत में रेक्टिफायर्स के साथ:
a1(x) = W1 x + b1
h1 = f1(x) = rectifier(a1(x))
g1(h1) = {sigmoid}(V1 h1 + c1)
क्रॉस-एन्ट्रापी या MSE हानि को कम करें, g1 (f1 (भ्रष्ट (x))) और x की तुलना करें। डेटा के आधार पर सिग्मॉइड वैकल्पिक है।
2 डीएई ट्रेन के साथ शोर से पहले एमएसई हानि के साथ f1 संशोधक और उपयोग softplus पुनर्निर्माण इकाइयों कहा:
h2 = f2(h1) = rectifier(W2 h1 + b2)
g2(h2) = softplus(V2 h2 + c2)
कम से कम∥f1(x)−g2(f2(rectifier(corrupt(a1(x)))))∥2+λ1∥W∥1+λ2∥W∥2
बेंवरियो लैब से ज़ेवियर ग्लोरोट ने भी कहा कि उन्होंने एक ही काम किया, केवल सक्रियण मूल्यों पर " दंड" के साथ को डोमेन लिए दोनों डोमेन अनुकूलन में संभवतः " ?)" लार्ज-स्केल सेंटीमेंट क्लासिफिकेशन: ए डीप लर्निंग एप्रोच (ICML 2011) और डीप स्पार्स रेक्टिफायर न्यूरल नेटवर्क (AISTATS 2011) में।∥W∥1L1∥g2(…)∥1