मेरा डेटासेट वेक्टर अनुक्रमों से युक्त है। प्रत्येक वेक्टर में 50 वास्तविक-मूल्यवान आयाम हैं। एक क्रम में वैक्टर की संख्या 3-5 से 10-15 तक होती है। दूसरे शब्दों में, एक अनुक्रम की लंबाई तय नहीं है।
सीक्वेंस की कुछ उचित मात्रा (वैक्टर नहीं!) को एक वर्ग लेबल के साथ एनोटेट किया जाता है। मेरा काम एक क्लासिफायरियर सीखना है, जिसमें वैक्टर का एक क्रम दिया गया है, पूरे अनुक्रम के लिए क्लास लेबल की गणना की गई है।
मैं आंकड़ों की सही प्रकृति नहीं बता सकता लेकिन अनुक्रमों की प्रकृति अस्थायी नहीं है। फिर भी, एक वेक्टर एक वेक्टर के साथ नहीं बदला जा सकता है लेबल को बदले बिना ()। दूसरे शब्दों में, वैक्टर का क्रम महत्वपूर्ण है। वैक्टर स्वयं तुलनात्मक हैं, उदाहरण के लिए यह एक डॉट उत्पाद की गणना करने और इस समानता मूल्य का उपयोग करने के लिए समझ में आता है।
मेरा प्रश्न है: ऐसे उपकरण / एल्गोरिदम क्या हैं जो इस तरह के डेटा को वर्गीकृत करने में मदद कर सकते हैं?
अद्यतन: डेटा में ऐसी संपत्ति होती है जो एक या बहुत कम वैक्टर वर्ग लेबल को दृढ़ता से प्रभावित करती है।
संभावित समाधान: कुछ शोध के बाद ऐसा लगता है कि आवर्तक तंत्रिका नेटवर्क (आरएनएन) बिल को स्वाभाविक रूप से फिट करते हैं। ओवररचिंग विचार एक संदर्भ आकार चुनना है, शब्द वैक्टर, अधिकतम पूलिंग करते हैं और शास्त्रीय एनएन के माध्यम से फ़ीड करते हैं। एक वाक्य में प्रत्येक संभावित संदर्भ विंडो स्थिति में, एक सुविधा वेक्टर बनाया जाता है। अंतिम सुविधा वेक्टर को उदाहरण के लिए अधिकतम पूलिंग का उपयोग करके बनाया गया है। Backpropagation नेटवर्क के मापदंडों को समायोजित करने के लिए किया जाता है। मुझे पहले से ही कुछ सकारात्मक परिणाम मिले (GPU एक चाहिए)।