समय श्रृंखला के लिए तार्किक प्रतिगमन


21

मैं पिछले डेटा को देखते हुए डेटा के निर्भर चर (यानी पंक्ति) के मूल्य का अनुमान लगाने के लिए स्ट्रीमिंग डेटा (बहुआयामी समय श्रृंखला) के संदर्भ में एक बाइनरी लॉजिस्टिक रिग्रेशन मॉडल का उपयोग करना चाहूंगा। जहां तक ​​मुझे पता है, लॉजिस्टिक रिग्रेशन को पारंपरिक रूप से पोस्टमॉर्टम विश्लेषण के लिए उपयोग किया जाता है, जहां प्रत्येक आश्रित चर पहले से ही निर्धारित किया गया है (या तो निरीक्षण द्वारा, या अध्ययन की प्रकृति से)।

हालांकि, समय श्रृंखला के मामले में क्या होता है, जहां हम ऐतिहासिक डेटा के संदर्भ में आश्रित चर के बारे में (मक्खी पर) भविष्यवाणी करना चाहते हैं (उदाहरण के लिए अंतिम सेकंड के समय विंडो में ) और, निश्चित रूप से, पिछला आश्रित चर के अनुमान?टी

और यदि आप समय के साथ उपरोक्त प्रणाली को देखते हैं, तो काम करने के लिए प्रतिगमन के लिए इसका निर्माण कैसे किया जाना चाहिए? क्या हमें इसे पहले लेबल करके प्रशिक्षित करना है, मान लें कि, हमारे डेटा की पहली 50 पंक्तियाँ (यानी निर्भर चर को 0 या 1 पर सेट करना) और फिर वेक्टर की मौजूदा अनुमान का उपयोग नई संभावना का अनुमान लगाने के लिए केवल आने वाले डेटा के लिए आश्रित चर 0 या 1 (यानी नई पंक्ति जो सिस्टम में जोड़ी गई थी)?β

अपनी समस्या को और अधिक स्पष्ट करने के लिए, मैं एक ऐसी प्रणाली बनाने की कोशिश कर रहा हूँ, जो एक उपयोक्ता पंक्ति को पंक्तिबद्ध करती है और एक द्विआधारी परिणाम (आश्रित चर) की भविष्यवाणी करने की कोशिश करती है, जिसे पिछले सभी आश्रित या व्याख्यात्मक का ज्ञान (अवलोकन या अनुमान) दिया जाता है। चर जो एक निश्चित समय विंडो में आ गए हैं। मेरा सिस्टम Rerl में है और R को इंट्रेंस के लिए उपयोग करता है।


5
क्या आप अपने डेटा पर सहसंबंध संरचना मान सकते हैं? आपका मामला लॉगिट लिंक के साथ GLMM का एक विशेष मामला है, लेकिन समय श्रृंखला डेटा में सहसंबंध संरचना को उचित जवाब पाने के लिए सही ढंग से मॉडलिंग की जानी चाहिए।
सनकूलसु

1
जब आप कहते हैं कि समय श्रृंखला, का किसी प्रकार का संबंध होगा । या इसे स्वतंत्र माना जा सकता है? yटीyटी-1
सनकूल्सू

2
क्या आप मेरे द्वारा ठोस समाधान देने के लिए अपने डेटा का संक्षिप्त विवरण दे सकते हैं? आप इस समस्या को कुछ इस तरह हल कर सकते हैं ।ethz.ch
pipermail

2
मेरे पास निम्न फ़ॉर्म की एक नेटवर्क ट्रैफ़िक समय श्रृंखला है: प्रोटोकॉल, SrcIP SrcPort, DestIP, DestPort, TimeSec, Timeusec, PackLength, 200.80.199.105,3523,207.216.216.244.144,9658,11223344,941818,62 UDP, 142.144.155.120। , 1751,244.72.151.2,1935, 11223344,941843,60 मैं यह अनुमान लगाना चाहता हूं कि क्या एक पैकेट (या पैकेट का समूह) एक स्व-प्रशिक्षित मॉडल बनाने के लिए लेबल किए गए डेटासेट से ज्ञान का उपयोग करके दुर्भावनापूर्ण है। मैं जिस औसत के बारे में बात कर रहा था, वह एकत्रीकरण का स्तर देने के लिए और उच्च मात्रा यातायात के लिए सिस्टम को और अधिक व्यावहारिक बनाने के लिए उपरोक्त मीट्रिक पर लागू होता है।
रजिस्ट्रार

2
यह वास्तव में एक समर्थन वेक्टर मशीन के लिए एक नौकरी की तरह लगता है। क्या मैं कुछ भूल रहा हूँ? यदि आप अपने डेटा के ऑटोकरेलेशन या टाइम-सीरीज़ संरचना के बारे में वास्तव में चिंतित हैं, तो आप ARIMA और / या बहुस्तरीय अनुदैर्ध्य मॉडल आज़मा सकते हैं। अनुदैर्ध्य मॉडल पर, मैं विलेट और गायक के एप्लाइड अनुदैर्ध्य डेटा विश्लेषण की सिफारिश करता हूं , जिसके लिए यूसीएलए एटीएस साइट में आर कोड उदाहरण हैं।
अश्व

जवाबों:


6

विचार करने के दो तरीके हैं:

  1. केवल अंतिम एन इनपुट नमूनों का उपयोग करें। मान लें कि आपका इनपुट सिग्नल D का आयाम है, तो आपके पास प्रति ग्राउंड ट्रूथ लेबल N * D के नमूने हैं। इस तरह आप लॉजिस्टिक रिग्रेशन सहित अपनी पसंद के किसी भी क्लासिफायर का उपयोग कर प्रशिक्षित कर सकते हैं। इस तरह, प्रत्येक आउटपुट को अन्य सभी आउटपुट से स्वतंत्र माना जाता है।

  2. अंतिम एन इनपुट नमूनों और आपके द्वारा उत्पन्न अंतिम एन आउटपुट का उपयोग करें। समस्या फिर विटर्बी डिकोडिंग के समान है । आप इनपुट नमूनों के आधार पर एक गैर-बाइनरी स्कोर उत्पन्न कर सकते हैं, और एक विटर्बी डिकोडर का उपयोग करके कई नमूनों के स्कोर को जोड़ सकते हैं। यह विधि 1 से बेहतर है। यदि आप अब आउटपुट के बीच अस्थायी संबंध के बारे में कुछ करते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.