वेक्टर अनुक्रमों का वर्गीकरण


9

मेरा डेटासेट वेक्टर अनुक्रमों से युक्त है। प्रत्येक वेक्टर में 50 वास्तविक-मूल्यवान आयाम हैं। एक क्रम में वैक्टर की संख्या 3-5 से 10-15 तक होती है। दूसरे शब्दों में, एक अनुक्रम की लंबाई तय नहीं है।

सीक्वेंस की कुछ उचित मात्रा (वैक्टर नहीं!) को एक वर्ग लेबल के साथ एनोटेट किया जाता है। मेरा काम एक क्लासिफायरियर सीखना है, जिसमें वैक्टर का एक क्रम दिया गया है, पूरे अनुक्रम के लिए क्लास लेबल की गणना की गई है।

मैं आंकड़ों की सही प्रकृति नहीं बता सकता लेकिन अनुक्रमों की प्रकृति अस्थायी नहीं है। फिर भी, एक वेक्टरxi एक वेक्टर के साथ नहीं बदला जा सकता है xj लेबल को बदले बिना (ij)। दूसरे शब्दों में, वैक्टर का क्रम महत्वपूर्ण है। वैक्टर स्वयं तुलनात्मक हैं, उदाहरण के लिए यह एक डॉट उत्पाद की गणना करने और इस समानता मूल्य का उपयोग करने के लिए समझ में आता है।

मेरा प्रश्न है: ऐसे उपकरण / एल्गोरिदम क्या हैं जो इस तरह के डेटा को वर्गीकृत करने में मदद कर सकते हैं?

अद्यतन: डेटा में ऐसी संपत्ति होती है जो एक या बहुत कम वैक्टर वर्ग लेबल को दृढ़ता से प्रभावित करती है।

संभावित समाधान: कुछ शोध के बाद ऐसा लगता है कि आवर्तक तंत्रिका नेटवर्क (आरएनएन) बिल को स्वाभाविक रूप से फिट करते हैं। ओवररचिंग विचार एक संदर्भ आकार चुनना हैk, शब्द वैक्टर, अधिकतम पूलिंग करते हैं और शास्त्रीय एनएन के माध्यम से फ़ीड करते हैं। एक वाक्य में प्रत्येक संभावित संदर्भ विंडो स्थिति में, एक सुविधा वेक्टर बनाया जाता है। अंतिम सुविधा वेक्टर को उदाहरण के लिए अधिकतम पूलिंग का उपयोग करके बनाया गया है। Backpropagation नेटवर्क के मापदंडों को समायोजित करने के लिए किया जाता है। मुझे पहले से ही कुछ सकारात्मक परिणाम मिले (GPU एक चाहिए)।

जवाबों:


3

जैसा कि आप बहुत विस्तार से नहीं बता सकते, मैं अपने जवाब में थोड़ा सामान्य होने के लिए मजबूर हूं। मुझे उम्मीद है कि यह फिर भी मददगार होगा। सबसे पहले, मैं केवल वर्गीकरण से पहले अनुक्रम को कम करने पर विचार करूंगा (यह डॉट उत्पाद या कुछ और का उपयोग करके हो) यदि आप यह सुनिश्चित कर सकते हैं कि आपको वर्गीकरण के लिए आवश्यक जानकारी नहीं खोनी है। इसलिए यह दृष्टिकोण केवल व्यवहार्य है यदि आपके पास वर्गीकरण की प्रकृति में कुछ अंतर्दृष्टि है। एक सरल उदाहरण देने के लिए: यदि क्लास लेबल आपके अनुक्रम में केवल वैक्टर की संख्या है, तो आप डॉट उत्पाद से क्लास लेबल की भविष्यवाणी करने में बहुत सफल नहीं होंगे।

इसलिए, मैं वर्गीकरण के लिए एक इनपुट के रूप में पूरा अनुक्रम ले लूंगा, और उस अनुक्रम लंबाई पर अधिकतम लागू करूंगा जिस पर आप विचार करना चाहते हैं। आप पहले अपने प्रशिक्षण सेट में अधिकतम अनुक्रम लंबाई मीटर की खोज करके ऐसा कर सकते हैं और फिर 50 आयामी वैक्टर के प्रत्येक अनुक्रम को आयाम 50 * मी के एक वेक्टर में बदल सकते हैं, संभवतः आपके अनुक्रम के अंत में कुछ लापता मानों के साथ। अधिकतम लंबाई। आप शायद इन लापता मूल्यों से छुटकारा पाना चाहेंगे और आप बस उन्हें शून्य से बदलना चाहते हैं।

यहां दो सड़कें हैं जो आप यहां से जा सकते हैं: 1.) आप सीधे उच्च आयामों के लिए उपयुक्त वर्गीकरण विधियों को लागू करते हैं। कुछ सरल करने की कोशिश करें, जिसमें भोले की तरह बहुत ट्यूनिंग की आवश्यकता न हो। इस तरह से आप देख सकते हैं कि यह दृष्टिकोण बहुत अधिक समय खोए बिना संभव है या नहीं। 2.) आप पहले आयाम को कम करने और वर्गीकरण की प्रकृति को बेहतर ढंग से समझने की कोशिश करते हैं। आप मुख्य घटक विश्लेषण की तरह कुछ का उपयोग करना चाहते हैं या प्रत्येक वेक्टर घटक और वर्ग लेबल के बीच सहसंबंध / सहयोग का विश्लेषण कर सकते हैं। यदि आप सफल हैं, तो आप जानते हैं कि वर्गीकरण लागू करने से पहले अपने इनपुट के आयाम को ठीक से कैसे कम किया जाए।

यदि आप इनमें से किसी भी विचार का पालन करना चाहते हैं, तो कृपया ध्यान रखें कि आपके डेटा और वर्गीकरण के ठोस विवरणों में से किसी भी एक प्रस्ताव को प्रस्तुत किया जा सकता है। इसलिए कृपया ध्यान रखें कि आप जो भी विवरण जानते हैं, उसके खिलाफ जांच करें, लेकिन यह सुनिश्चित करने के लिए यहां पोस्ट न करें कि आप अपना समय बर्बाद नहीं कर रहे हैं।


0

डेटा में ऐसी संपत्ति होती है जो एक या बहुत कम वैक्टर वर्ग लेबल को दृढ़ता से प्रभावित करती है।

सबसे अच्छा (और सबसे आसान) दृष्टिकोण शायद प्रत्येक वेक्टर पर एक क्लासफ़िश को प्रशिक्षित करना होगा और फिर एक दिए गए अनुक्रम के लिए वैक्टर में भविष्यवाणियों को औसत करना होगा। महत्वपूर्ण वैक्टर उनकी भविष्यवाणियों में दृढ़ता से प्रभावशाली होंगे, जबकि महत्वहीन वैक्टर के लिए पूर्वानुमान 0.5 (या गैर-बाइनरी वर्गीकरण समस्या के लिए समान) के करीब होंगे।


ज़रुरी नहीं। खासकर यदि आपके पास महत्वपूर्ण जानकारी के बिना कई वैक्टर हैं .. यदि आप उस मार्ग पर जाते हैं, तो निश्चित रूप से LSTM का उपयोग करें :)
पीर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.