L2 के नियमितीकरण के साथ RNN ने सीखना बंद कर दिया है


10

असंतुलित घटना की घटना का पता लगाने के लिए मैं द्विदिश RNN का उपयोग करता हूं। सकारात्मक वर्ग नकारात्मक वर्ग की तुलना में 100 गुना कम है। जबकि कोई नियमितीकरण उपयोग मैं ट्रेन सेट पर 100% सटीकता और सत्यापन सेट पर 30% प्राप्त कर सकता है। मैं एल 2 नियमितीकरण को चालू करता हूं और परिणाम केवल 30% सटीकता पर ट्रेन सेट के बजाय लंबी सीखने के लिए है और सत्यापन सेट पर 100% सटीकता है।

मैं सोच रहा था कि शायद मेरा डेटा बहुत छोटा है, इसलिए केवल प्रयोग के लिए मैंने टेस्ट सेट के साथ मर्ज किए गए ट्रेन सेट का उपयोग किया जिसका मैंने पहले उपयोग नहीं किया था। स्थिति वही थी जैसे मैं एल 2 नियमितीकरण का उपयोग करूंगा, जो मैंने अब नहीं किया। मुझे ट्रेन + परीक्षण और सत्यापन पर 30% सटीकता प्राप्त होती है।

उल्लेख किए गए प्रयोगों में 128hidden इकाइयों और 80 टाइमस्टेप्स का उपयोग करने पर जब मैंने छिपी हुई इकाइयों की संख्या को 256 तक बढ़ा दिया तो मैं फिर से 100% सटीकता प्राप्त करने के लिए ट्रेन + परीक्षण सेट पर ओवरफिट कर सकता हूं लेकिन अभी भी सत्यापन सेट पर केवल 30% है।

मैंने हाइपरपरमेटर्स के लिए बहुत सारे विकल्प आज़माए और लगभग कोई नतीजा नहीं निकला। हो सकता है कि भारित क्रॉस एन्ट्रॉपी समस्या का कारण बन रही है, दिए गए प्रयोगों में सकारात्मक वर्ग पर भार 5 है। बड़े वजन की कोशिश करते समय परिणाम अक्सर सटीकता के लगभग 20% खराब होते हैं।

मैंने LSTM और GRU सेल की कोशिश की, कोई फर्क नहीं पड़ा।

सबसे अच्छा परिणाम मुझे मिला। मैंने 256 छिपी इकाइयों के साथ 2 छिपी हुई परतों की कोशिश की, इसमें लगभग 3 दिनों की गणना और 8 जीबी की जीपीयू मेमोरी थी। L2 नियमित होने पर फिर से ओवरफिटिंग शुरू होने से पहले मुझे लगभग 40-50% सटीकता मिली, लेकिन इतना मजबूत नहीं था।

मैं एडम ऑप्टिमाइज़र का उपयोग करता हूं, दूसरों ने इतनी अच्छी तरह से काम नहीं किया। मेरे पास पर्याप्त सुविधा है, क्योंकि राज्य-मशीन का उपयोग करते समय मैं 90% सटीकता प्राप्त कर सकता हूं। उस राज्य मशीन में मुख्य विशेषता अन्य विशेषताओं के गुणों के आधार पर योग और थ्रेसहोल्ड है और इसकी चर लंबाई कभी-कभी 10, कभी-कभी 20 टाइमस्टैम्प होती है जो फीचर के बारे में बात करती है।

क्या कुछ सामान्य दिशानिर्देश हैं कि इस स्थिति में क्या करना है? मुझे कुछ भी नहीं मिल पा रहा था।

जवाबों:


11

बेंगियो एट अल लेख " प्रशिक्षण आवर्तक तंत्रिका नेटवर्क की कठिनाई पर " एक संकेत देता है कि एल 2 नियमितीकरण आरएनएन प्रदर्शन को क्यों मार सकता है। अनिवार्य रूप से, R1N कोशिकाओं को नियमित करने वाला L1 / L2 भी समय के माध्यम से जानकारी को सीखने और बनाए रखने की कोशिकाओं की क्षमता से समझौता करता है।

आवर्तक भार पर L1 या L2 दंड का उपयोग करने से विस्फोटकर्ताओं में विस्फोट हो सकता है। मान लिया जाये कि वजन छोटे मान के लिए शुरू कर रहे हैं, सबसे बड़ा विलक्षण मूल्य की शायद से 1. एल 1 / एल 2 अवधि छोटा होता है सुनिश्चित कर सकते हैं कि प्रशिक्षण के दौरान 1 की तुलना में छोटे रहता है, और इस शासन में ढ़ाल विस्फोट नहीं कर सकते हैं । यह दृष्टिकोण मॉडल को मूल बिंदु पर आकर्षित करने वाले एकल बिंदु तक सीमित करता है, जहां मॉडल में डाली गई कोई भी जानकारी तेजी से समाप्त हो जाती है। यह जनरेटर नेटवर्क को सीखने के लिए मॉडल को रोकता है, न ही यह दीर्घकालिक स्मृति निशान दिखा सकता है।λ1Wrecλ1

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.