समय श्रृंखला और विसंगति का पता लगाना


15

मैं समय श्रृंखला में एक विसंगति का पता लगाने के लिए एक एल्गोरिथ्म सेटअप करना चाहता हूं, और मैं इसके लिए क्लस्टरिंग का उपयोग करने की योजना बना रहा हूं।

  • मुझे क्लस्टरिंग के लिए डिस्टेंस मैट्रिक्स का उपयोग क्यों करना चाहिए और कच्चे समय श्रृंखला डेटा के लिए नहीं?

  • विसंगति का पता लगाने के लिए, मैं घनत्व-आधारित क्लस्टरिंग, एक एल्गोरिथ्म को DBscan के रूप में उपयोग करूंगा, तो क्या इस मामले में काम करेगा? क्या स्ट्रीमिंग डेटा के लिए एक ऑनलाइन संस्करण है?

  • ऐसा होने से पहले मैं विसंगति का पता लगाना चाहूंगा, तो क्या ट्रेंड डिटेक्शन एल्गोरिदम (ARIMA) का उपयोग करना एक अच्छा विकल्प होगा?


यह सही ढंग से DBSCAN लिखा है। यह एक संक्षिप्त नाम है। मुझे यकीन नहीं है कि आप क्या करने की कोशिश कर रहे हैं। एक समय श्रृंखला, या समग्र विसंगति समय श्रृंखला के भीतर विसंगतियों का पता लगाएं।
है क्विट - अनोनी-मूस

हां DBSCAN, सटीक! मैं क्या करने की कोशिश कर रहा हूँ, एक समय श्रृंखला डेटासेट में एक ऑनलाइन डिटेक्शन विसंगति है! इसलिए! कोई निवेदन ? धन्यवाद का संबंध है
napsterockoeur

बढ़ते समय में या अतिरिक्त श्रृंखला में ऑनलाइन के रूप में जोड़ा जा रहा है? फिर, ये बहुत अलग हैं, और आपको बहुत स्पष्ट होने की आवश्यकता है जिस पर आपका मतलब है।
है क्विट - Anony-Mousse

मेरा मतलब है ऑनलाइन (स्ट्रीम), एक सेंसर से आने वाली बढ़ती श्रृंखला .. प्रत्येक एक घंटे में डेटा (वेक्टर) का एक सेट प्राप्त होता है ..
napsterockoeur

जवाबों:


12

आपके पहले सवाल के बारे में, मैं आपको सलाह दूंगा कि आप इस प्रसिद्ध लेख को पढ़ें (टाइम सीरीज़ सब-रिजल्ट्स का क्लस्टरिंग अर्थहीन है) एक टाइम सीरीज़ पर क्लस्टरिंग करने से पहले। यह स्पष्ट रूप से लिखा गया है और कई नुकसानों को दिखाता है जिनसे आप बचना चाहते हैं।


6

विसंगति का पता लगाने या "इंटरवेंशन डिटेक्शन" को जीसीटीआईओ और अन्य द्वारा चैंपियन बनाया गया है। विज्ञान को बार-बार पैटर्न के लिए खोज करना है। विसंगतियों का पता लगाने के लिए उन मूल्यों की पहचान करना है जो दोहराया पैटर्न का पालन नहीं करते हैं। हम न्यूटन से सीखते हैं "जो कोई भी जानता है कि प्रकृति के तरीके अधिक आसानी से उसके विचलन को नोटिस करेंगे और दूसरी ओर, जो कोई भी जानता है कि उसके विचलन उसके तरीकों का अधिक सटीक वर्णन करेंगे"। वर्तमान नियमों के विफल होने पर एक व्यक्ति नियमों का पालन करता है। समय श्रृंखला पर विचार करें 1,9,1,9,1,9,5,9। विसंगति की पहचान करने के लिए एक पैटर्न की आवश्यकता होती है। "5" उतना ही एक विसंगति है जितना "14" होगा। पैटर्न की पहचान करने के लिए बस ARIMA का उपयोग करें और इस मामले में "विसंगति" स्पष्ट हो जाता है। अलग-अलग सॉफ्टवेयर / एप्रोच आज़माएँ और देखें कि कौन सा एक ऑर्डर के ARIMA मॉडल का सुझाव देता है 1,0, 0 -1 के गुणांक के साथ। "स्वचालित अरिमा" या "स्वचालित हस्तक्षेप का पता लगाने" के लिए Google / खोज प्रक्रियाओं का उपयोग करें। आप मुफ्त के सामान से निराश हो सकते हैं क्योंकि इसके लायक हो सकता है कि आप इसके लिए भुगतान करें। यदि आप एक भारी समय श्रृंखला की पृष्ठभूमि और बर्बाद करने के लिए कुछ वर्षों के लिए है, तो इसे लिखना दिलचस्प हो सकता है। दूरी के तरीकों की दूरी के लिए गंभीर सीमाएँ हैंhttp://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf


बहुत बहुत धन्यवाद सर आयरिशस्टैट, मैं यू के साथ पूरी तरह से ठीक हूं, कि दूरी आधारित विधियों में एक बड़ी सीमाएं हैं और मुझे अन्य तरीकों का भी अनुमान है, यही कारण है कि मैं घनत्व आधार विधि का परीक्षण कर रहा हूं, मैंने बहुत सारे लेख बोलते देखा के बारे में कई बार श्रृंखला विसंगति का पता लगाने के रूप में, नासा अनुसंधान, विश्वविद्यालयों के रूप में .. लेकिन विशेष प्रगति के लिए छोटे डेटा प्रगति, और हाल ही में मैंने पाया, आउटलेर का पता लगाने के लिए एक अच्छा मुफ्त सॉफ्टवेयर: वीकेए का एमओए! क्या आपने पहले इसका परीक्षण किया था? यह एक ओपन सोर्स सॉफ्टवेयर है, मैं इसे अपने छोटे डिटेक्शन विसंगति एल्गोरिथ्म के विकास और एकीकरण के लिए उपयोग करने की कोशिश कर रहा हूं,
napsterockoeur

ओह: FYI करें: मैं स्ट्रीमिंग डेटा का इलाज कर रहा हूं
napsterockoeur
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.