समय श्रृंखला की सांख्यिकीय समानता


15

मान लें कि किसी के पास एक समय श्रृंखला है जिसमें से कोई भी कई माप ले सकता है जैसे कि अवधि, अधिकतम, न्यूनतम, औसत आदि और फिर इनका उपयोग करके एक ही गुण के साथ एक मॉडल साइन वेव बना सकते हैं, क्या कोई सांख्यिकीय दृष्टिकोण है जो उपयोग कर सकता है वास्तविक डेटा कितनी बारीकी से मान लिया गया है? श्रृंखला में डेटा बिंदुओं की संख्या 10 से 50 अंकों के बीच होगी।

मेरे बारे में एक बहुत ही सादगीपूर्ण पहला विचार था साइन की लहर के दिशात्मक आंदोलन के लिए एक मूल्य का वर्णन करना, अर्थात +1 +1 +1 +1 -1 -1 -1 -1 -1 -1 +1 +1 +1 +1, वास्तविक डेटा के समान ही करें, और फिर किसी तरह दिशात्मक आंदोलन की समानता की मात्रा निर्धारित करें।

संपादित करें: मैं अपने डेटा के साथ वास्तव में क्या करना चाहता हूं, इस पर अधिक विचार दिया गया है, और अपने मूल प्रश्न के जवाबों के प्रकाश में, प्रतिस्पर्धा की धारणाओं के बीच चयन करने के लिए मुझे एक निर्णय लेने के लिए एल्गोरिदम की आवश्यकता है: अर्थात् मेरा डेटा मूल रूप से रैखिक है (या ट्रेंडिंग) शोर के साथ जो संभवतः चक्रीय तत्व हो सकते हैं; मेरा डेटा मूल रूप से चक्रीय है जिसमें बोलने की कोई दिशात्मक प्रवृत्ति नहीं है; डेटा अनिवार्य रूप से सिर्फ शोर है; या यह इनमें से किसी भी राज्य के बीच संक्रमण है।

मेरे विचार अब बायेसियन विश्लेषण और यूक्लिडियन / एलएमएस मीट्रिक के कुछ रूप को संयोजित करने के लिए हैं। इस दृष्टिकोण में कदम होगा

डेटा माप से मान साइन लहर बनाएँ

डेटा के लिए एक LMS स्ट्रेट लाइन को फ़िट करें

उपरोक्त में से प्रत्येक के लिए मूल डेटा से प्रस्थान के लिए एक यूक्लिडियन या एलएमएस मीट्रिक व्युत्पन्न करें

इस मीट्रिक के आधार पर प्रत्येक के लिए एक बायेसियन बनाएं अर्थात संयुक्त प्रस्थान का 60% एक, 40% से दूसरे को संलग्न करें, इसलिए 40% का पक्ष लें

डेटा के साथ एक विंडो एक डेटा बिंदु को स्लाइड करें और इस थोड़े बदले हुए डेटा सेट के लिए नए% मैट्रिक्स प्राप्त करने के लिए ऊपर दोहराएं - यह नया सबूत है - बायेसियन विश्लेषण करें एक पीछे बनाने के लिए और उन संभावनाओं को बदलें जो प्रत्येक धारणा का पक्ष लेते हैं।

इस स्लाइडिंग विंडो (विंडो की लंबाई 10-50 डेटा पॉइंट) के साथ पूरे डेटा सेट (3000+ डेटा पॉइंट) के साथ दोहराएं। आशा / इरादा डेटा सेट में किसी भी बिंदु पर प्रमुख / इष्ट धारणा की पहचान करना है और यह समय के साथ कैसे बदलता है

इस संभावित कार्यप्रणाली पर किसी भी टिप्पणी का स्वागत किया जाएगा, विशेषकर इस बात पर कि मैं वास्तव में बायेसियन विश्लेषण भाग को कैसे लागू कर सकता हूं।

जवाबों:


7

यूक्लिडियन दूरी मशीन सीखने में एक सामान्य मीट्रिक है। निम्नलिखित स्लाइड्स संदर्भ के साथ इस क्षेत्र का अच्छा अवलोकन प्रदान करती हैं:

समय श्रृंखला वर्गीकरण के लिए केओघ के बेंचमार्क पृष्ठ पर संदर्भ भी देखें:


5

यदि आपके पास एक विशिष्ट मॉडल है जिसकी आप तुलना करना चाहते हैं: मैं एक विशिष्ट डेटासेट के खिलाफ संभावित पैरामीटर मान को कम करने और स्कोर करने के लिए मीट्रिक के रूप में कम से कम वर्गों की सिफारिश करूंगा। आपको मूल रूप से अपने पैरामीटर अनुमानों में प्लग करना होगा, पूर्वानुमानित मूल्यों को उत्पन्न करने के लिए उन का उपयोग करना होगा, और सच्चे मूल्यों से औसत चुकता विचलन की गणना करना होगा।

हालाँकि, आप अपने सवाल को थोड़ा मोड़ने पर विचार कर सकते हैं: "कौन सा मॉडल मेरे डेटा को सबसे उपयुक्त करेगा?" किस मामले में मैं सुझाव दूंगा कि आम तौर पर वितरित त्रुटि शब्द की धारणा ~ कुछ एक तर्क दे सकता है कि कम से कम वर्गों की धारणा के समान है। फिर, मॉडल की अपनी पसंद के आधार पर, आप इस बारे में एक धारणा बना सकते हैं कि आपको कैसे लगता है कि अन्य मॉडल पैरामीटर वितरित किए गए हैं (एक बायेसियन पूर्व असाइन करना) और आर से नमूना के लिए एमसीएमसी पैकेज जैसे मापदंडों के वितरण से कुछ का उपयोग करें। तब आप किसी मॉडल के सबसे अच्छे होने का अंदाजा लगाने के लिए पीछे के साधनों और भिन्नताओं को देख सकते थे।


यदि मेरे डेटा में फिट होने के लिए मेरे पास दो संभावित मॉडल हैं, तो मेरे मूल प्रश्न में वर्णित साइन वेव और एक एलएमएस स्ट्रेट लाइन फिट है, क्या मैं बस साइन वेव के वास्तविक डेटा मानों के औसत अवशिष्ट विचलन की तुलना अवशिष्ट के साथ कर सकता हूं एलएमएस फिट लाइन और फिर इस आधार पर कम समग्र मान के साथ मॉडल चुनें कि यह मॉडल डेटा के लिए अधिक सटीक फिट प्रदर्शित करता है? यदि हां, तो क्या यह भी संभव है कि डेटा को हिस्सों में विभाजित किया जाए और प्रत्येक छमाही के साथ अलग-अलग करें, एक ही साइन वेव / एलएमएस का उपयोग करके यह देखें कि प्रत्येक मॉडल में सुधार कैसे हो सकता है / समय के साथ खराब हो रहा है?
babelproofreader

मुझे यकीन नहीं है। मेरा सुझाव कम से कम एक वर्ग वर्ग मीट्रिक का उपयोग करना था, लेकिन मैं रैखिक प्रतिगमन को चलाने के लिए नहीं कह रहा था। आप आवधिक प्रतिगमन की जाँच कर सकते हैं ।
एम। टिबबिट्स

आपके अन्य प्रश्न के अनुसार, क्या आप डेटा को आधे में काट सकते हैं, तो मैं ऐसा करने में बहुत सतर्क रहूंगा - क्योंकि आप जिस न्यूनतम आवृत्ति पर विचार कर सकते हैं उसे दोगुना कर देंगे। मुझे लगता है कि आपको फूरियर गुणांक को देखने की आवश्यकता हो सकती है ( एफएफटी या डीसीटी लें और उन पर फिर से कब्जा करें? -? यकीन नहीं होता )। या शायद आवधिक प्रतिगमन जैसा कि ऊपर उल्लेख किया गया है।
एम। टिबबिट्स

3

गुणात्मक रूप से सिर्फ दिशात्मक आंदोलन का प्रतिनिधित्व करने का आपका "सरल पहले सोचा" समय श्रृंखला की तुलना करने के लिए केओएच के एसएएक्स एल्गोरिथ्म की भावना के समान है। मेरा सुझाव है कि आप इस पर एक नज़र डालें: एनामॉ की और जेसिका लिन: एसएएक्स

आपके संपादन से, ऐसा लगता है कि आप अब समस्या से अलग तरीके से निपटने के बारे में सोच रहे हैं, लेकिन आप पा सकते हैं कि SAX पहेली का एक टुकड़ा प्रदान करता है।


0

जबकि मैं पार्टी के लिए थोड़ा लेट हूं, अगर आप कुछ भी साइनसोइडल के बारे में सोच रहे हैं, तो वेवलेट ट्रांसफॉर्म आपकी जेब में भी होने के लिए एक अच्छा साधन है। सिद्धांत रूप में, आप किसी अनुक्रम को विभिन्न "भागों" (उदाहरण के लिए, विभिन्न आकृतियों / आवृत्तियों की तरंगों, गैर-लहर घटकों जैसे रुझान, आदि) में विघटित करने के लिए तरंग परिवर्तन का उपयोग कर सकते हैं। एक टन का उपयोग किया जाता है कि लहर परिवर्तन का एक विशिष्ट रूप फूरियर रूपांतरण है, लेकिन इस क्षेत्र में बहुत काम है। मैं एक मौजूदा पैकेज की सिफारिश करने में सक्षम होना पसंद करूंगा, लेकिन मैंने काफी समय में सिग्नल विश्लेषण का काम नहीं किया है। हालांकि, इस नस पर कार्यक्षमता का समर्थन करने वाले कुछ मैटलैब पैकेज मुझे याद हैं।

यदि आप केवल चक्रीय डेटा में रुझान खोजने की कोशिश कर रहे हैं, तो जाने के लिए एक और दिशा कुछ है मान-केंडल ट्रेंड टेस्ट। यह मौसम या पानी की गुणवत्ता में परिवर्तन का पता लगाने जैसी चीजों के लिए बहुत अधिक उपयोग किया जाता है, जिसमें मजबूत मौसमी प्रभाव होते हैं। इसमें कुछ और उन्नत तरीकों की घंटियाँ और सीटी नहीं हैं, लेकिन चूंकि यह एक अनुभवी सांख्यिकीय परीक्षण है, इसलिए इसकी व्याख्या और रिपोर्ट करना काफी आसान है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.