बहुभिन्नरूपी श्रृंखला को वर्गीकृत करें


9

मेरे पास लगभग 40 आयामों के साथ समय श्रृंखला (8 अंक) से बना डेटा का एक सेट है (इसलिए प्रत्येक बार श्रृंखला 8 से 40 तक है)। इसी ouput (श्रेणियों के लिए संभावित परिणाम) eitheir 0 या 1 है।

कई आयामों के साथ समय श्रृंखला के लिए एक क्लासिफायरियर डिजाइन करने के लिए सबसे अच्छा तरीका क्या होगा?

मेरी प्रारंभिक रणनीति उन समय श्रृंखला से सुविधाओं को निकालने के लिए थी: प्रत्येक आयाम के लिए माध्य, एसटीडी, अधिकतम भिन्नता। मुझे एक डाटासेट प्राप्त हुआ जिसे मैं एक रैंडमट्रीफ़ोरस्ट ट्रेन करने के लिए इस्तेमाल किया था। इसके कुल भोलेपन से अवगत होने के बाद, और खराब परिणाम प्राप्त करने के बाद, मैं अब और अधिक बेहतर मॉडल की तलाश कर रहा हूं।

मेरी लीड निम्न हैं: प्रत्येक आयाम (KNN एल्गोरिथ्म और DWT का उपयोग करके) के लिए श्रृंखला को वर्गीकृत करें, पीसीए के साथ आयाम को कम करें और मल्टीमेड्स श्रेणियों के साथ एक अंतिम क्लासिफायरियर का उपयोग करें। एमएल के लिए अपेक्षाकृत नया होने के नाते, मुझे नहीं पता कि क्या मैं पूरी तरह से गलत हूं।


आप जो कर रहे हैं वह बहुत अच्छा दृष्टिकोण है। आपके डेटासेट में कितने नमूने हैं?
कसरा मंशाई

मेरे पास लगभग 500 000 समय श्रृंखला है (यह याद करते हुए कि हर बार श्रृंखला 8 टाइमस्टैम्प * 40 आयाम है)
AugBar

क्या आपने केवल 320 विशेषताओं को कच्चे उपयोग करने की कोशिश की है? 500,000 नमूनों के लिए 320 सुविधाएँ बहुत अधिक नहीं हैं
Jan van der Vegt

@Jan van der Vegt: मैंने एक तंत्रिका नेटवर्क का उपयोग करके उस विधि की कोशिश की है, लेकिन परिणाम इतने ठोस नहीं थे - मैंने बिना किसी पूर्व-प्रसंस्करण के कच्चे डेटा का उपयोग किया। क्लासिफायरिएडर को खिलाने के लिए मुझे अपने 320-फ़ीचर्स रॉ पर पहले से कौन से ऑपरेशन लागू करने चाहिए?
अगस्त

1
तंत्रिका नेटवर्क के मामले में आपके इनपुट को सामान्य करना महत्वपूर्ण है, जो आपकी सुविधाओं की सीमा पर निर्भर करता है। लेकिन मैं सिर्फ कच्चे फीचर्स को RF में फीड करूंगा और देखूंगा कि यह कितना अच्छा काम करता है, यह देखने के लिए कम ट्यूनिंग की आवश्यकता होती है कि क्या आप इसमें से कुछ भी आसानी से प्राप्त कर सकते हैं
Jan van der Vegt

जवाबों:


5

आप सही रास्ते पर हैं। समय और आवृत्ति डोमेन दोनों में कुछ और विशेषताओं की गणना करते हुए देखें। जब तक नमूनों की संख्या >> सुविधाओं की संख्या, आपको ओवरफिट होने की संभावना नहीं है। क्या इसी तरह की समस्या पर कोई साहित्य है? यदि ऐसा है, तो वह हमेशा एक महान प्रारंभिक बिंदु प्रदान करता है।

Xgboost या LightGBM जैसे बढ़े हुए ट्री क्लासिफ़ायर का प्रयास करें। वे हाइपरपरमेटर्स को ट्यून करना आसान बनाते हैं, और डिफ़ॉल्ट मापदंडों के साथ अच्छे परिणाम प्रदान करते हैं। रैंडम फ़ॉरेस्ट और बूस्टेड ट्री क्लासिफ़ायर दोनों ही फीचर महत्व को वापस ला सकते हैं, इसलिए आप देख सकते हैं कि समस्या के लिए कौन सी सुविधाएँ प्रासंगिक हैं। आप किसी भी सहसंयोजक की जांच करने के लिए सुविधाओं को हटाने का भी प्रयास कर सकते हैं।

सबसे महत्वपूर्ण, हालांकि, यदि आपके परिणाम अप्रत्याशित रूप से खराब हैं, तो सुनिश्चित करें कि आपकी समस्या ठीक से परिभाषित है। मैन्युअल रूप से अपने परिणामों के माध्यम से जाँच करें कि आपकी पाइपलाइन में कोई कीड़े नहीं हैं।


6

यदि आप पायथन में हैं, तो आपके पैकेज से सैकड़ों या हजारों सुविधाएँ स्वचालित रूप से निकाली जा सकती हैं, उन्हें अपने लेबल से संबद्ध करें, आपके लिए सबसे महत्वपूर्ण और ट्रेन मॉडल चुनें।

https://github.com/blue-yonder/tsfresh

https://github.com/rtavenar/tslearn


2

आप नीचे दिए गए अनुसार अपने डेटासेट में और सुविधाएँ जोड़ सकते हैं।

  1. यदि आपका डेटा अत्यधिक गैर-रेखीय प्रक्रिया से है, तो आप पैकेज पैकेज की कोशिश कर सकते हैं।

  2. अधिकतम, न्यूनतम, मीन, तिरछा, कुर्तोसिस, और यदि संभव हो तो कुछ रोलिंग आँकड़े।

मैं कुछ इसी तरह काम कर रहा हूं, और मैंने एक संबंधित प्रश्न पूछा ।


1

मैं Jan van der Vegt से सहमत हूं, मानकीकरण (जैसे, [-1, 1]) या सामान्यीकरण N (0, 1) सक्रियण फ़ंक्शन के साथ संयुक्त तंत्रिका नेटवर्क के साथ बहुत महत्वपूर्ण हो सकता है। मैं एएनएन के बाहरी और बाहरी लोगों के लिए पिकैड वरोनोचोटिकुल के शोध प्रबंध की जांच करूंगा: "कृत्रिम तंत्रिका नेटवर्क का उपयोग करके बाढ़ का पूर्वानुमान"। इसमें बहुत ही दिलचस्प कैवेट हैं। वैसे भी, मैं बिना पहले प्रयास करने के लिए उपयोग कर रहा हूं, लेकिन जब परिणाम असंतोषजनक होते हैं, तो मैं दोनों के साथ परीक्षण करने के लिए उपयोग करता हूं। निश्चित नहीं कि इससे मदद मिलेगी लेकिन मैं आर पैकेज टीएसक्लस्ट और संबंधित डॉक्स की जांच करूंगा । लेखक बहुत विनम्र हैं और वे ऐसा करने के लिए विशिष्ट मॉडल खोजने में आपकी मदद करेंगे। वे समय श्रृंखला विश्लेषण के विशेषज्ञ हैं! सौभाग्य!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.