टाइम सीरीज़ एनोमली डिटेक्शन के लिए एल्गोरिदम


24

मैं वर्तमान में R: https://github.com/twitter/AnomalyDetection में Twitter के AnomalyDetection का उपयोग कर रहा हूं । यह एल्गोरिथ्म सीज़न के साथ डेटा के लिए समय श्रृंखला विसंगति का पता लगाता है।

प्रश्न: क्या इसके समान कोई अन्य एल्गोरिदम हैं (मौसमी के लिए नियंत्रण कोई फर्क नहीं पड़ता)?

मैं अपने डेटा पर अधिक से अधिक समय श्रृंखला एल्गोरिदम स्कोर करने की कोशिश कर रहा हूं ताकि मैं सबसे अच्छा एक / पहनावा चुन सकूं।

जवाबों:


16

Twitter एल्गोरिथ्म पर आधारित है

रोस्नर, बी।, (मई 1983), "एक सामान्य ईएसडी के लिए प्रतिशत अंक कई-बाह्य प्रक्रिया", टेक्नोमेट्रिक्स, 25 (2), पीपी 165-172।

मुझे यकीन है कि 1983 के बाद से कई तकनीकें और प्रगति हुई हैं! मैंने अपने आंतरिक डेटा पर परीक्षण किया है, और ट्विटर की विसंगति का पता लगाने से स्पष्ट बाहरी लोगों की पहचान नहीं होती है। मैं समय श्रृंखला में आउटलेर के परीक्षण के लिए अन्य तरीकों का उपयोग करूंगा। सबसे अच्छा जो मैं भर में आया हूं वह है त्से की बाहरी पहचान प्रक्रिया जो एसएएस / एसपीएसएस / ऑटोबॉक्स और एससीए सॉफ्टवेयर में लागू है। जो सभी वाणिज्यिक प्रणाली हैं। वहाँ भी tsoutliers पैकेज है जो महान है लेकिन arimaकुशलता से काम करने के लिए मॉडल के विनिर्देश की आवश्यकता है । auto.arimaऑप्टिमाइज़ेशन और मॉडल के चयन के संबंध में मुझे इसकी डिफ़ॉल्ट के साथ समस्याएँ थीं ।

Tsay का लेख समय श्रृंखला में एकतरफा पता लगाने में एक मौलिक काम है। पूर्वानुमान अनुसंधान में अग्रणी पत्रिका इंटरनेशनल जर्नल ऑफ फोरकास्टिंग ने उल्लेख किया कि त्से का लेख ऊपर उद्धृत लेख में सबसे अधिक उद्धृत काम और सबसे प्रभावशाली पत्रों में से एक है (नीचे भी देखें)। पूर्वानुमान सॉफ्टवेयर (विशेष रूप से ओपन सोर्स सॉफ्टवेयर में) इस महत्वपूर्ण कार्य और अन्य बाह्य विकृति एल्गोरिदम का प्रसार एक दुर्लभ वस्तु है।

यहाँ छवि विवरण दर्ज करें


14

2017 के रूप में आर में एनोमली डिटेक्शन के विकल्प यहां दिए गए हैं।

ट्विटर का AnomalyDetection पैकेज

  • मौसमी हाइब्रिड ESD (SH-ESD) का उपयोग करके काम करता है;
  • विसंगतियों का पता लगाने के लिए सामान्यीकृत ईएसडी परीक्षण पर बनाता है ;
  • स्थानीय और वैश्विक दोनों विसंगतियों का पता लगा सकते हैं;
  • नियत समय श्रृंखला अपघटन और मजबूत सांख्यिकीय मैट्रिक्स (जैसे ईएसडी के साथ मंझला)
  • लंबे समय तक श्रृंखला के लिए टुकड़े टुकड़े सन्निकटन;
  • इसके अलावा समय टिकटें उपलब्ध नहीं हैं के लिए विधि है;
  • विसंगतियों की दिशा निर्दिष्ट कर सकते हैं, ब्याज की खिड़की, टुकड़े टुकड़े सन्निकटन टॉगल, और दृश्य समर्थन है।

विसंगति पैकेज (ट्विटर से अलग)

  • महालनोबिस दूरी, कारक विश्लेषण, हॉर्न के समानांतर विश्लेषण, ब्लॉक निरीक्षण, सिद्धांत घटकों विश्लेषण सहित विभिन्न दृष्टिकोण;
  • परिणामों से निपटने के लिए विधि है।

tsoutliers पैकेज

  • चेन और लियू प्रक्रिया ( https://www.jstor.org/stable/2290724?seq=1#page_scan_tab_contents ) के बाद समय श्रृंखला में आउटलेयर का पता लगाता है ;
  • आउटलेर्स को मॉडल मापदंडों के 'कम-दूषित' अनुमानों के आधार पर प्राप्त किया जाता है, कई रेखीय प्रतिगमन का उपयोग करके बाहरी परिणाम का अनुमान लगाया जाता है, और मॉडल मापदंडों और प्रभावों का संयुक्त रूप से अनुमान लगाता है।
  • कंसिस्टेंट इनोवेटिव आउटलेर, एडिटिव आउटलेर, लेवल शिफ्ट, अस्थायी बदलाव और सीजनल लेवल शिफ्ट।

विषम-एसीएम

  • प्रत्येक समय श्रृंखला पर सुविधाओं के एक वेक्टर की गणना करके काम करता है (उदाहरण के लिए अंतराल सहसंबंध, मौसमी की ताकत, वर्णक्रमीय एंट्रोपी) फिर सुविधाओं पर मजबूत प्रमुख घटक अपघटन लागू करना, और अंत में पहले दो प्रमुख घटकों के लिए विभिन्न द्विध्रुवीय बाह्य विकृति का पता लगाने के तरीकों को लागू करना;
  • सबसे असामान्य श्रृंखला को सक्षम करता है, उनकी विशेषता वैक्टर के आधार पर, पहचाने जाने के लिए;
  • पैकेज में याहू से वास्तविक और सिंथेटिक डेटासेट दोनों शामिल हैं।

इंद्रधनुष पैकेज

  • बैगप्लॉट्स और बॉक्सप्लाट्स का उपयोग करता है;
  • सबसे कम गहराई या घनत्व वाले बाहरी लोगों की पहचान करता है।

kmodR पैकेज

  • 2013 में चावला और जियोनी द्वारा प्रस्तावित k- साधनों के कार्यान्वयन का उपयोग करता है ( http://epubs.siam.org/doi/pdf/10.1137/1.9781611972832.21 );
  • मानक के-साधनों की तुलना में (संभावित) तंग क्लस्टर बनाने के लिए उपयोगी और साथ ही साथ बहुआयामी अंतरिक्ष में सस्ते में आउटलेर्स ढूंढना।

washeR विधि

रोबस्ट स्टैटिस्टिक मेथड्स के लिए CRAN टास्क दृश्य

  • आउटलेर्स का पता लगाने के लिए मजबूत सांख्यिकीय तरीकों का उपयोग करने के लिए विभिन्न प्रकार के दृष्टिकोण।

EDIT 2018

anomalize: सुव्यवस्थित विसंगति का पता लगाना


कोई भी सुझाव जो मैं समय श्रृंखला डेटा के लिए उपयोग कर सकता हूं, लेकिन बिना मौसम के? क्या मैं उस मामले में ट्विटर पैकेज का उपयोग कर सकता हूं?
मीक्यूबर

ट्विटर पैकेज स्थानीय और वैश्विक दोनों तरह की विसंगतियों को संभालता है। जैसा कि वे अपने डॉक्स में कहते हैं, "वैश्विक विसंगतियाँ आमतौर पर अपेक्षित मौसमीता से ऊपर या नीचे होती हैं और इसलिए यह मौसमी और अंतर्निहित प्रवृत्ति के अधीन नहीं होती हैं।" तो हाँ, आप बिना किसी मौसम के साथ समय श्रृंखला में विसंगतियों का संभावित रूप से पता लगाने के लिए ट्विटर पैकेज का उपयोग कर सकते हैं। blog.twitter.com/engineering/en_us/a/2015/…
साइबरनेटिक

8

मुझे कुछ ऐसे स्रोत मिले हैं जो आपकी मदद कर सकते हैं, लेकिन वे आपके डेटा पर एक आर स्क्रिप्ट चलाने के रूप में आसान / सुविधाजनक नहीं होंगे: - नुमेंटा में एक खुला- खट्टा उनका NuPIC प्लेटफॉर्म है जिसका उपयोग विसंगतियों का पता लगाने सहित कई चीजों के लिए किया जाता है । - नेटफ्लिक्स का एटलस प्रोजेक्ट जल्द ही एक ओपन-सोर्स आउट्लोअर / एनोमली डिटेक्शन टूल जारी करेगा। - Prelert में एक विसंगति का पता लगाने वाला इंजन होता है जो सर्वर-साइड एप्लिकेशन के रूप में आता है। उनका परीक्षण सीमित उपयोग प्रदान करता है जो आपकी आवश्यकताओं को पूरा कर सकता है।

वैकल्पिक रूप से मेरी कंपनी इंसिग्नम में बीटा में एक उत्पाद है जो समय श्रृंखला डेटा को निगला करता है और विसंगतियों का पूरी तरह से स्वचालित तरीके से पता लगाता है और विसंगतियों का पता चलने पर आप ईमेल के माध्यम से अलर्ट प्राप्त करते हैं। ट्विटर या लिंक्डइन पर पहुंचें और मुझे आपको और बताने में खुशी होगी।


3

ऑटोबॉक्स (मेरी कंपनी) बाहरी पहचान प्रदान करती है। ट्विटर के एल्गोरिथ्म को बड़े आउटलेर्स मिलते हैं, लेकिन ऑटोबॉक्स की तुलना में छोटे लोगों को याद किया जाता है ।

इसे चलाने में एक लंबा समय लगता है, लेकिन परिणाम छोटे आउटलेर्स को खोजने के लिए बेहतर होते हैं और मौसमी में परिवर्तन भी होते हैं जो आउटलेर भी होते हैं। नीचे 14,398 मूल टिप्पणियों के पहले 8,560 अवलोकनों का उपयोग करके 79 आउटलेयर खोजने वाला मॉडल है। मानक संस्करण अधिकतम 10,000 टिप्पणियों पर है, लेकिन इसे और अधिक के लिए संशोधित किया जा सकता है, लेकिन जब भी आप आउटलेर्स को पहचानना और प्रतिक्रिया करना चाहते हैं, तो उस डेटा का अधिक वास्तविक कारण नहीं है।

मौसम के बदलावों का पता लगाने पर हम अपने काम के साथ-साथ आउटलेर्स, लेवल शिफ्ट्स, और वेरिएशन चेंज और पैरामीटर बदलाव पर चाउ के काम से प्रभावित थे।

यदि आप 30 दिन का परीक्षण डाउनलोड करते हैं और ट्विटर उदाहरण डेटा में लोड करते हैं और आवृत्ति को 60 निर्दिष्ट करते हैं और इंस्टॉलेशन फ़ोल्डर में 3 ट्रिगर फ़ाइलों को सहेजते हैं (noparcon.afs, novarcon.afs, notrend.afs) और एक फाइल बनाएं जिसका नाम स्टेपअप है। 100 के साथ एफएस।

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.