क्लस्टर समय श्रृंखला कैसे करें?


22

मेरे पास क्लस्टर विश्लेषण के बारे में एक प्रश्न है। 3000 कंपनियां हैं, जिन्हें 5 वर्षों में अपनी शक्ति के उपयोग के अनुसार क्लस्टर किया जाना है। प्रत्येक कंपनी में 5 साल के दौरान हर घंटे के लिए मान हैं। मैं यह पता लगाना चाहूंगा कि क्या कुछ कंपनियों की समयावधि में उपयोग शक्ति में समान पैटर्न है। परिणाम बिजली के उपयोग की दैनिक भविष्यवाणी के लिए उपयोग किया जाना चाहिए। यदि आपके पास कुछ विचार हैं कि एसपीएसएस में समय श्रृंखला को कैसे जोड़ा जाए, तो कृपया मेरे साथ साझा करें।


1
मेरा सुझाव है कि आप पृष्ठ के दाईं ओर संबंधित लिंक देखें। बहुत समान प्रकृति के कुछ प्रश्न हैं, देखें क्या वक्र आकृति के आधार पर टाइम-सीरीज़ क्लस्टरिंग करना संभव है? और मॉडलिंग अनुदैर्ध्य डेटा जहां समय का प्रभाव केवल दो उदाहरणों के लिए व्यक्तियों के बीच कार्यात्मक रूप में भिन्न होता है
एंडी डब्ल्यू

एसएएस में प्रोक समानता समय श्रृंखला को क्लस्टर कर सकती है।
फोरकास्टर

जवाबों:


11

ए) डेटा प्रीप्रोसेसिंग पर बहुत समय बिताते हैं । प्रीप्रोसेसिंग आपकी नौकरी का 90% हिस्सा है।

बी) समय श्रृंखला के लिए एक उपयुक्त समानता उपाय चुनें। उदाहरण के लिए, थ्रेसहोल्ड क्रॉसिंग दूरी यहां एक अच्छा विकल्प हो सकता है। जब तक आपके पास अलग-अलग समय क्षेत्र न हो, आप शायद गतिशील समय की दूरी की इच्छा नहीं करेंगे। थ्रेसहोल्ड क्रॉसिंग टेम्पोरल पैटर्न का पता लगाने के लिए अधिक उपयुक्त हो सकता है, जबकि वास्तविक परिमाण पर ध्यान नहीं देना (जो संभवतः कंपनी से कंपनी के लिए बहुत अलग होगा)।

सी) पदानुक्रमिक क्लस्टरिंग या DBSCAN जैसे तरीकों का उपयोग करके परिणामी असमानता मैट्रिक्स को क्लस्टर करें जो मनमानी दूरी के कार्यों के साथ काम कर सकते हैं।


क्या आप बता सकते हैं कि टाइम सीरीज़ के लिए डायनेमिक टाइम वॉरिंग डिस्टेंस कोई अच्छा विकल्प क्यों नहीं है?
हार्दिक गुप्ता

यह एक सामान्य कथन नहीं था। यह अच्छा है या नहीं यह इस बात पर निर्भर करता है कि आप समय की अनुमति देना चाहते हैं या नहीं।
ऐनी-मूस -रिटेट मोनिका

7

आप दैनिक, साप्ताहिक और वार्षिक आवधिकता के साथ प्रति घंटा समय श्रृंखला की भविष्यवाणी करना चाहते हैंदैनिक डेटा और छुट्टियों / रजिस्टरों को शामिल करने वाले प्रति घंटा डेटा की चर्चा के लिए। आपके पास 5 साल का डेटा है जबकि अन्य चर्चा में 883 दैनिक मूल्य शामिल हैं। मैं जो सुझाव दूंगा वह यह है कि आप प्रति घंटे के पूर्वानुमान जैसे कि प्रतिदिन के रजिस्टरों को शामिल कर सकते हैं; सप्ताह के अंत और एक अतिरिक्त भविष्यवक्ता के रूप में दैनिक योग का उपयोग करते हुए छुट्टियां। इस तरह आपके पास 3,000 कंपनियों में से प्रत्येक के लिए 24 मॉडल होंगे। अब आप घंटे के हिसाब से क्या करना चाहते हैं, एक सामान्य ARIMAX संरचना का उपयोग करके अनुमान लगाते हैं कि प्रति रजिस्टरों में से प्रत्येक के आसपास प्रतिक्रिया के पैटर्न के लिए लेखांकन दिन-प्रति-सप्ताह, दिन-प्रति-सप्ताह में बदलता है। मापदंडों को अलग करते हुए पैरामीटर और साप्ताहिक संकेतक। तब आप सभी 3000 कंपनियों का उपयोग करके विश्व स्तर पर मापदंडों का अनुमान लगा सकते हैं। एक चाउ टेस्ट करें http://en.wikipedia.org/wiki/Chow_testमापदंडों की कमी के कारण और अस्वीकृति पर कंपनियों को समरूप समूहों में बांट दिया। मैंने इसे एकल आयाम क्लस्टर विश्लेषण के रूप में संदर्भित किया है। चूंकि SPSS में टाइम सीरीज़ में बहुत सीमित क्षमताएं हैं जो आप सॉफ़्टवेयर के लिए कहीं और देखना चाहते हैं।


1
आर के बारे में उपयोग करने के लिए "वेनिला" एक अजीब शब्द लगता है; अधिक सामान्य आर शब्दावली में अनुवाद पर स्पष्ट नहीं। सीआरएएन से बेस आर और अतिरिक्त योगदान पैकेजों के बीच कोई अंतर वास्तव में अनुभवी उपयोगकर्ताओं, या यहां तक ​​कि नौसिखियों को नहीं काटता है, क्योंकि वे समान रूप से स्वतंत्र और समान रूप से सुलभ हैं। मेरी धारणा यह है कि एसपीएसएस तक पहुंच रखने वाला कोई व्यक्ति आसानी से कह सकता है कि प्रोग्रामिंग के बिना वर्तमान में एसपीएसएस में कुछ संभव नहीं है; आर के बारे में समान कहने के लिए सभी समय श्रृंखला पैकेज के साथ परिचितता की आवश्यकता होती है।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.