समय श्रृंखला वर्गीकरण के लिए सुविधाएँ


43

मैं चर लंबाई की समय श्रृंखला के आधार पर (मल्टीस्कूल) वर्गीकरण की समस्या पर विचार करता हूं , जो कि एक फ़ंक्शन को खोजने के चयनित का एक सेट द्वारा समय सेरी के एक वैश्विक प्रतिनिधित्व के माध्यम से सुविधाओं तय आकार के के स्वतंत्र , और फिर इस सुविधा सेट पर मानक वर्गीकरण विधियों का उपयोग करें। मुझे पूर्वानुमान लगाने में कोई दिलचस्पी नहीं है , अर्थात भविष्यवाणी करनाf ( X T ) = y [ 1 .. K ]Tवी मैं डी टी φ ( एक्स टी ) = वी 1 , ... , वी डीआर , x टी + 1

f(XT)=y[1..K]for XT=(x1,,xT)with xtRd ,
viDT
ϕ(XT)=v1,,vDR ,
xT+1। उदाहरण के लिए, हम उस व्यक्ति के लिंग का अनुमान लगाने के लिए जिस तरह से चलते हैं, उसका विश्लेषण कर सकते हैं।

ऐसी कौन सी मानक सुविधाएँ हैं जिन्हें मैं ध्यान में रख सकता हूँ? उदाहरण के लिए, हम स्पष्ट रूप से सीरी (या उच्चतर क्रम के क्षणों) के माध्य और विचरण का उपयोग कर सकते हैं और आवृत्ति डोमेन में भी देख सकते हैं, जैसे सीरी के डिस्क्रीट फूरियर ट्रांसफॉर्म के कुछ अंतराल में निहित ऊर्जा (या असतत वेवलेट ट्रांसफॉर्मर )।

जवाबों:


45

सरल सांख्यिकीय विशेषताएं

  • प्रत्येक आयाम में साधनd
  • मानक विचलन की आयामd
  • तिरछापन , कुकुदता और उच्चतर के आदेश क्षणों आयामd
  • अधिकतम और न्यूनतम मूल्य

समय सीरी विश्लेषण संबंधी विशेषताएं

  • पार सहसंबंध प्रत्येक आयाम और के बीच ऑटो सहसंबंधडीd×d1 d
  • एक अनुमानित ARIMA मॉडल के ऑटोरेग्रेसिव (AR), एकीकृत (I) और मूविंग एवरेज (MA) भाग का आदेश
  • एआर भाग के पैरामीटर
  • एमए भाग के पैरामीटर

फ़्रिक्वेंसी डोमेन संबंधित सुविधाएँ

डीएफटी और डीडब्ल्यूटी पर ऊर्जा संरक्षण सुविधाओं के अध्ययन के लिए मोर्चेन 03 देखें

  • की आवृत्तियों चोटियों में आयाम में DFTs के लिए detrended आयामdk d
  • kइन डीएफटी के -antantiles

1
एमिल, यह प्रश्न मेरे द्वारा किए गए एक के समान है ( आंकड़े . stackexchange.com/questions/51475/… )। क्या आप DFT सुविधाओं के लिए कोई R कोड पोस्ट कर पाएंगे?
B_Miner

क्या चर लंबाई समय श्रृंखला के लिए आकार-प्रकार पर आधारित कोई विधि है?
सिमोन

8

एमिल, मुझे लगता है कि आपके उत्तर में सूचीबद्ध विशेषताएं बहुत अच्छे शुरुआती बिंदु हैं, हालांकि हमेशा की तरह, मुझे लगता है कि आपकी समस्या के बारे में कुछ डोमेन विशेषज्ञता (या कम से कम एक अच्छा लंबा विचार) भी उतना ही महत्वपूर्ण है।

आप अपने सिग्नल के डेरिवेटिव (या इंटीग्रल) से गणना की गई विशेषताओं सहित विचार करना चाह सकते हैं। उदाहरण के लिए, मैं कहूंगा कि तेजी से त्वरण / मंदी दुर्घटना-प्रवण ड्राइविंग का एक बहुत अच्छा भविष्यवक्ता है। यह जानकारी स्पष्ट रूप से अभी भी स्थिति संकेत में मौजूद है, लेकिन यह लगभग स्पष्ट नहीं है।

तुम भी एक तरंगिका या वेवलेट पैकेट प्रतिनिधित्व के साथ फूरियर गुणांक की जगह पर विचार करना चाह सकते हैं। वेवलेट्स का प्रमुख लाभ यह है कि वे आपको आवृत्ति और समय दोनों में एक विशेषता को स्थानीय बनाने की अनुमति देते हैं, जबकि पारंपरिक फूरियर गुणांक केवल समय तक ही सीमित होते हैं। यह विशेष रूप से उपयोगी हो सकता है यदि आपके डेटा में ऐसे घटक होते हैं जो अनियमित रूप से चालू / बंद होते हैं या इसमें स्क्वायर वेव जैसी दालें होती हैं जो फूरियर विधियों के लिए समस्याग्रस्त हो सकती हैं।


6

जैसा कि अन्य उत्तर सुझाए गए हैं, बड़ी संख्या में समय श्रृंखला विशेषताएँ हैं जिन्हें संभावित विशेषताओं के रूप में उपयोग किया जा सकता है। इस तरह के साधन, समय श्रृंखला से संबंधित विशेषताएं जैसे एआर मॉडल के गुणांक या अत्यधिक परिष्कृत विशेषताएं जैसे कि संवर्धित डिकी फुलर परिकल्पना परीक्षण के परीक्षण सांख्यिकीय हैं।

संभावित समय श्रृंखला सुविधाओं पर व्यापक अवलोकन

अजगर पैकेज tsfresh उन सुविधाओं के निष्कर्षण को स्वचालित करता है। इसके प्रलेखन में विभिन्न गणना की गई विशेषताओं का वर्णन है। आप पृष्ठ की गणना सुविधाओं के साथ कर सकते हैं ।

अस्वीकरण: मैं tsfresh के लेखकों में से एक हूं।


5

मैं आपको सुझाव देता हूं कि हाथ से इंजीनियर सुविधाओं को निकालने के लिए क्लासिक दृष्टिकोण का उपयोग करने के बजाय, ऑटोएन्कोडर्स का उपयोग करें । ऑटोकेनोडर्स गहन शिक्षण वास्तुकला की सुविधा निष्कर्षण में एक महत्वपूर्ण भूमिका निभाता है।

f(XT)XTX^TXT

पहचान समारोह सीखने के लिए प्रयास करने के लिए एक विशेष रूप से तुच्छ कार्य लगता है; लेकिन नेटवर्क पर बाधाओं को रखकर, जैसे कि छिपी हुई इकाइयों की संख्या को सीमित करके, हम डेटा के बारे में दिलचस्प संरचना की खोज कर सकते हैं।

फ़ीचर एक्सट्रैक्टर

इस तरह, आपका वांछित एक गहरे ऑटोएन्कोडर में मध्यतम परत के आउटपुट मान के बराबर होगा, यदि आप बीच में छिपी हुई इकाइयों की संख्या को मध्य में सीमित करते हैं ।ϕ(XT)=v1,,vDRD

इसके अतिरिक्त, आप अपनी समस्या का सबसे अच्छा समाधान खोजने के लिए ऑटोकेनडर के कई स्वादों का उपयोग कर सकते हैं ।


4

लिंक्ड पेपर कुछ हद तक ज्ञानवर्धक होगा, क्योंकि यह किसी अन्य संदर्भ में कमोबेश एक ही मुद्दे में रुचि रखता है।

पेपर सार (इंटरनेट पुरालेख में)

पेपर पीडीएफ


1

आपकी समय श्रृंखला की लंबाई के आधार पर, सामान्य दृष्टिकोण डेटा को खंडों में बदलना है, जैसे 10 सेकंड।

हालांकि, अक्सर समय-श्रृंखला को खंडों में तोड़ने से पहले कुछ पूर्वप्रक्रिया करना आवश्यक होता है जैसे कि फ़िल्टरिंग और विरूपण साक्ष्य अस्वीकृति। फिर आप कई प्रकार की विशेषताओं की गणना कर सकते हैं, जैसे कि फ़्रीक्वेंसी पर आधारित (यानी प्रत्येक काल के लिए एक FFT), समय (उदाहरण के लिए, उस युग में समय-श्रृंखला का प्रसरण आदि) या आकृति विज्ञान, (यानी संकेत का आकार) / प्रत्येक युग में समय-श्रृंखला)।

आमतौर पर टाइम-सीरीज़ / सिग्नल के सेगमेंट (एपोच) को वर्गीकृत करने के लिए उपयोग की जाने वाली सुविधाएँ डोमेन-विशिष्ट हैं, लेकिन वेवलेट / फूरियर विश्लेषण केवल उपकरण हैं जो आपको स्वयं में विशेषताओं के बजाय फ़्रीक्वेंसी / टाइम-फ़्रीक्वेंसी डोमेन में अपने सिग्नल की जांच करने की अनुमति देते हैं।

एक वर्गीकरण समस्या में प्रत्येक युग में एक कक्षा लेबल होगा जैसे 'खुश' या 'उदास', आप तब प्रत्येक वर्ग के लिए गणना की गई 6 सुविधाओं का उपयोग करके 'खुश' और 'उदास' युगों के बीच अंतर करने के लिए एक वर्गीकरण का प्रशिक्षण देंगे।

इस घटना में कि हर बार श्रृंखला वर्गीकरण के लिए एक मामले का प्रतिनिधित्व करती है, आपको समय श्रृंखला के सभी नमूनों में प्रत्येक विशेषता की गणना करने की आवश्यकता है। एफएफटी केवल यहां प्रासंगिक है यदि संकेत रैखिक समय अपरिवर्तनीय (एलटीआई) है, अर्थात यदि संकेत को पूरे समय श्रृंखला पर स्थिर माना जा सकता है, यदि संकेत ब्याज की अवधि में स्थिर नहीं है, तो एक तरंग विश्लेषण हो सकता है अधिक उपयुक्त। इस दृष्टिकोण का मतलब होगा कि हर बार श्रृंखला एक विशेषता वेक्टर का उत्पादन करेगी और वर्गीकरण के लिए एक मामले का गठन करेगी।


मैंने हमेशा महसूस किया है कि ब्रेकिंग टाइम सीरीज़, स्वाभाविक रूप से निरंतर प्रक्रिया, असतत अवधियों (या युगों) में, जानकारी के नुकसान में परिणत होती है। जब तक श्रृंखला में प्राकृतिक युग नहीं है, कोई युग कैसे चुनता है? इसी तरह के युग पाए जा सकते हैं जो किसी भी वांछित परिणाम के अनुकूल हों।
Cam.Davidson.Pilon

1
यह सुनिश्चित नहीं है कि हर परिणाम के लिए एक युगांतर पाया जा सकता है लेकिन किसी भी व्यावहारिक समस्या के लिए एक गैर-स्थिर संकेत के साथ आपको किसी को अस्थायी रूप से भिन्नताओं को ध्यान में रखने की आवश्यकता है (यदि एक संकेत / समय-श्रृंखला पर्याप्त रूप से विश्लेषणात्मक रूप से वर्णित है या रैखिक समय अपरिवर्तनीय है यह आवश्यक नहीं है)। युग की लंबाई फिर से डोमेन विशिष्ट है, लेकिन आमतौर पर इसे काफी कम चुना जाता है कि संकेत ब्याज की समय अवधि (युग) के तहत स्थिर है।
बीजीरीन

बीग्रीन, क्या आप बता सकते हैं कि वर्गीकरण में प्रयुक्त सुविधाओं के चयन के लिए सीरी को युगों में विभाजित करने का क्या लाभ है? मैं इस विभाजन को बाद में अभिकलन (यानी FFT) के लिए सहायक के रूप में देखता हूं, लेकिन स्वयं सुविधाओं के चयन से संबंधित कुछ के रूप में नहीं। हो सकता है कि यह आपके द्वारा उल्लिखित "आकारिकी" से संबंधित हो।
एमिल

युगों में विभाजन का सुविधा चयन से कोई लेना-देना नहीं है। यदि आपके पास एक लंबा संकेत है (उदाहरण के लिए 10 घंटे की रिकॉर्डिंग के नमूने @ 100 हर्ट्ज) तो यह जांचने के लिए कि समय के साथ सिग्नल कैसे बदलता है, आपको इसे युगों में तोड़ने की आवश्यकता है। एक वर्गीकरण समस्या में प्रत्येक युग में एक क्लास लेबल होगा, जैसे 'खुश' या 'उदास', आप तब प्रत्येक वर्ग के लिए गणना की गई 6 विशेषताओं का उपयोग करके 'खुश' और 'उदास' युगों के बीच अंतर करने के लिए एक वर्गीकरण का प्रशिक्षण देंगे।
बिग्रीन

ठीक है :) यह निश्चित रूप से मेरे मूल प्रश्न से असंबंधित है। मैं उस मामले पर विचार करता हूं जहां कक्षा पूरे सीरी को लेबल करती है। मैं एक स्पष्ट उदाहरण जोड़ने के लिए अपने प्रश्न को संपादित करने जा रहा हूं।
एमिल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.