असंतुलित घटना की घटना का पता लगाने के लिए मैं द्विदिश RNN का उपयोग करता हूं। सकारात्मक वर्ग नकारात्मक वर्ग की तुलना में 100 गुना कम है। जबकि कोई नियमितीकरण उपयोग मैं ट्रेन सेट पर 100% सटीकता और सत्यापन सेट पर 30% प्राप्त कर सकता है। मैं एल 2 नियमितीकरण को चालू करता हूं और परिणाम केवल 30% सटीकता पर ट्रेन सेट के बजाय लंबी सीखने के लिए है और सत्यापन सेट पर 100% सटीकता है।
मैं सोच रहा था कि शायद मेरा डेटा बहुत छोटा है, इसलिए केवल प्रयोग के लिए मैंने टेस्ट सेट के साथ मर्ज किए गए ट्रेन सेट का उपयोग किया जिसका मैंने पहले उपयोग नहीं किया था। स्थिति वही थी जैसे मैं एल 2 नियमितीकरण का उपयोग करूंगा, जो मैंने अब नहीं किया। मुझे ट्रेन + परीक्षण और सत्यापन पर 30% सटीकता प्राप्त होती है।
उल्लेख किए गए प्रयोगों में 128hidden इकाइयों और 80 टाइमस्टेप्स का उपयोग करने पर जब मैंने छिपी हुई इकाइयों की संख्या को 256 तक बढ़ा दिया तो मैं फिर से 100% सटीकता प्राप्त करने के लिए ट्रेन + परीक्षण सेट पर ओवरफिट कर सकता हूं लेकिन अभी भी सत्यापन सेट पर केवल 30% है।
मैंने हाइपरपरमेटर्स के लिए बहुत सारे विकल्प आज़माए और लगभग कोई नतीजा नहीं निकला। हो सकता है कि भारित क्रॉस एन्ट्रॉपी समस्या का कारण बन रही है, दिए गए प्रयोगों में सकारात्मक वर्ग पर भार 5 है। बड़े वजन की कोशिश करते समय परिणाम अक्सर सटीकता के लगभग 20% खराब होते हैं।
मैंने LSTM और GRU सेल की कोशिश की, कोई फर्क नहीं पड़ा।
सबसे अच्छा परिणाम मुझे मिला। मैंने 256 छिपी इकाइयों के साथ 2 छिपी हुई परतों की कोशिश की, इसमें लगभग 3 दिनों की गणना और 8 जीबी की जीपीयू मेमोरी थी। L2 नियमित होने पर फिर से ओवरफिटिंग शुरू होने से पहले मुझे लगभग 40-50% सटीकता मिली, लेकिन इतना मजबूत नहीं था।
मैं एडम ऑप्टिमाइज़र का उपयोग करता हूं, दूसरों ने इतनी अच्छी तरह से काम नहीं किया। मेरे पास पर्याप्त सुविधा है, क्योंकि राज्य-मशीन का उपयोग करते समय मैं 90% सटीकता प्राप्त कर सकता हूं। उस राज्य मशीन में मुख्य विशेषता अन्य विशेषताओं के गुणों के आधार पर योग और थ्रेसहोल्ड है और इसकी चर लंबाई कभी-कभी 10, कभी-कभी 20 टाइमस्टैम्प होती है जो फीचर के बारे में बात करती है।
क्या कुछ सामान्य दिशानिर्देश हैं कि इस स्थिति में क्या करना है? मुझे कुछ भी नहीं मिल पा रहा था।