आउट-टाइम डिटेक्शन इन टाइम-सीरीज़: झूठी सकारात्मकता को कैसे कम करें?


11

मैं समय-श्रृंखला में बाहरी पहचान का पता लगाने की कोशिश कर रहा हूं और मैंने यहां रोब हंडमैन द्वारा प्रस्तावित समाधान के एक संशोधन का उपयोग किया है

कहते हैं, मैं विभिन्न देशों की वेबसाइट पर दैनिक यात्राओं को मापता हूं। कुछ देशों के लिए जहां दैनिक दौरे कुछ हद तक या हजारों हैं, मेरी विधि यथोचित रूप से काम करती है।

हालांकि, ऐसे मामलों में जहां कोई देश प्रति दिन केवल 1 या 2 विज़िट की ओर जाता है, एल्गोरिथ्म की सीमा बहुत संकीर्ण है (उदाहरण 1 therefore 0.001) और इसलिए 2 विज़िट को एक बाहरी माना जाता है। मैं ऐसे मामलों का स्वतः कैसे पता लगा सकता हूं और मैं उन्हें बाहरी लोगों की पहचान करने के लिए कैसे इलाज कर सकता हूं? मैं, प्रति दिन 100 विज़िट का मैन्युअल थ्रेशोल्ड सेट करना नहीं चाहूंगा।

धन्यवाद!


2
एक प्राकृतिक, सरल तरीका जो आपकी समस्या को हल कर सकता है - जो कि (कम से कम एक भाग में) अत्यधिक परिवर्तनशील विचरण के लिए है - एक विचरण-स्थिरीकरण परिवर्तन, जैसे कि एक Anscombe या Freeman-Tukey परिवर्तन , को डेटा में लागू करना है। आउटलेर की तलाश में।
whuber

जवाबों:


3

छोटे, असतत मायने रखता है के लिए बहुत उम्मीद नहीं है। 1 से 2 मुलाकातों में जाना 100% वृद्धि है, और 0 से 1 मुलाक़ात का जाना अनंत वृद्धि है। निम्न स्तरों पर आप शून्य-फुलाए गए मॉडल के साथ काम कर सकते हैं , और यह नीचे बहुत शोर हो सकता है।

मेरे अनुभव में, बड़े और छोटे काउंट के मिश्रण के साथ डेटा की गणना करें, इस तरह से आपके छोटे काउंट्स के साथ दो समस्याएं होती हैं: 1) वे बहुत अधिक करने के लिए मोटे हैं, 2) वे विभिन्न प्रक्रियाओं द्वारा उत्पन्न होते हैं। (सोचो छोटे, ग्रामीण डाकघर बनाम बड़े शहर डाकघर)। तो आपको कम से कम अपने मॉडलिंग को दो में विभाजित करने की आवश्यकता है: वह करें जो आप सफलतापूर्वक बड़े काउंट के लिए कर रहे हैं, और कुछ अलग - मोटे और अधिक अनुमानित - छोटे काउंट के साथ करें। लेकिन छोटे काउंट की ज्यादा उम्मीद न करें।

अच्छी खबर यह है कि परिभाषा के अनुसार, बड़ी गणना में आपके अधिक लेनदेन शामिल हैं, इसलिए आपका बेहतर मॉडल अधिक डेटा को कवर करता है, भले ही यह आपकी अधिकांश साइटों को कवर न करे।

(मैं कहता हूं कि "मॉडलिंग" सामान्य होने के लिए, लेकिन निश्चित रूप से बाह्य पहचान एक विशेष मॉडल मान रही है और ऐसे बिंदु ढूंढ रही है जो उस मॉडल की मान्यताओं के साथ अत्यधिक संभावना नहीं हैं।)


1

आपके समय श्रृंखला के प्रत्येक मूल्य एक संभावना वितरण से एक नमूना है। आपको पहले यह पता लगाने की आवश्यकता है कि संभाव्यता वितरण क्या है और फिर परिभाषित करें कि उस वितरण के भीतर दुर्लभ शब्द का क्या अर्थ है।

तो अनुभवजन्य सीएफडी की गणना करें, और 95% आत्मविश्वास अंतराल की गणना करें। जब भी उस क्षेत्र के बाहर कुछ घटित होता है, तो परिभाषा से आप जानते हैं कि यह एक दुर्लभ घटना होनी चाहिए।


0

आत्मविश्वास के एक विशेष स्तर पर एक आउटलाइयर का पता लगाना एक बात है और दूसरा स्पेसिफिकेशन रखने के लिए दूसरा ऐसा है जो आउटलाइयर की स्वीकृति को प्रतिबंधित करेगा। मुझे एक बार निम्नलिखित प्रश्न पूछा गया था "क्या AUTOBOX विश्वास के पूर्व-निर्दिष्ट स्तर पर xx इकाइयों की औसत पारी का पता लगा सकता है"। अनिवार्य रूप से जो आवश्यक था वह एक दोहरी परीक्षा थी। AUTOBOX सॉफ्टवेयर का एक टुकड़ा है जो मैंने विकसित करने में मदद की है जो आपको लागत प्रभावी लग सकती है क्योंकि किसी भी मुफ्त सॉफ्टवेयर ने इस दोहरे परीक्षण को लागू नहीं किया है।

धन्यवाद निक: मैं एक "बाहरी" या सामान्य रूप से अनुभवजन्य निर्धारक प्रभाव के एक विशेष उदाहरण के रूप में एक स्तर बदलाव का उपयोग कर रहा था। "आउटलेयर" के अन्य रूप हैं दलहन, मौसमी दलहन और स्थानीय समय के रुझान और विशेष संयोजन जैसे कि एक नए स्तर पर एक क्षणिक परिवर्तन। मुख्य बिंदु यह था कि दो परिकल्पनाएं हो सकती हैं जो सांख्यिकीय महत्व और वास्तविक-विश्व महत्व को दर्शाती हैं। ग्राहक जो मूल रूप से मेरे ध्यान में इस समस्या को लाया था, दोनों में दिलचस्पी थी।


एक बाहरी रूप से एक मतलब बदलाव की जरूरत नहीं है .... वास्तव में, अलग-अलग साधनों के साथ शासनों के बीच बदलाव या रैंप परिवर्तन की आवश्यकता नहीं है। आप यह अच्छी तरह से जानते हैं, लेकिन मुझे लगता है कि इसका मतलब यह है कि यह दूसरों के लिए आपके उत्तर को समझने में सबसे ज्यादा मददगार होगा।
निक कॉक्स

तुम दोनों को धन्यवाद। मुझे वास्तविक विश्व महत्व में दिलचस्पी है। बाहरी रूप से पहचान करने के बाद, मेरा कहना है कि यह अंतिम महत्व पाने के लिए कुल यात्राओं की तुलना में यात्राओं का अनुपात है। हालाँकि यह अनुपात 2 यात्राओं के मामलों में वास्तव में छोटा है, क्योंकि अपेक्षित मान 1 is 0.001 हैं, अपेक्षित सीमा से वास्तविक बिंदु की 'दूरी' बहुत अधिक है (उदाहरण 2 / 0.002 जहां 0.002 'iqr' है) । तो, ते मुद्दा अंत में उच्च महत्व प्राप्त करता है। कोई विचार?
Stergios

मैं झंडा लगाता हूँ कि यहाँ "बाह्य" का विस्तारित उपयोग किसी भी अतिवादी चीज़ की उदार भावना से बहुत व्यापक है जो कई साहित्य में आम है। अनुभवी पाठकों को पता चल जाएगा कि @IrishStat उनकी फ़ोरटे, टाइम सीरीज़ विश्लेषण से चिपक गया है।
निक कॉक्स

0

आपको वह समस्या हो रही है क्योंकि आपका डेटा सामान्य वितरण से बहुत दूर है। यदि वितरण अत्यधिक विषम है, तो धक्कों, कूबड़ या बहुत लंबी / छोटी पूंछ के साथ आप समस्याओं का सामना करेंगे। एक अच्छा विचार अपने तरीके का उपयोग करने से पहले बॉक्स कॉक्स या यिओ-जॉनसन जैसे परिवर्तन को लागू करना है। अपने उदाहरण में यदि आप F (x) = log (1 + x) का उपयोग करते हैं तो आप विभिन्न परिमाण की समस्या से बचते हैं और आप वापस उपयोग करके परिवर्तित कर सकते हैं: exp (z) -1

ऐसी कई प्रक्रियाएँ हैं जिनका उपयोग आप बॉक्स-कॉक्स परिवर्तन के लिए स्वचालित रूप से एक अच्छा लैम्ब्डा खोजने में कर सकते हैं। मैं व्यक्तिगत रूप से आरआईडी में एआईडी पैकेज से बॉक्सकॉन्स्क फ़ंक्शन के सभी तरीकों के मध्य का उपयोग करता हूं। यदि आपका डेटा सख्ती से सकारात्मक नहीं है, तो आपको इसका उपयोग करने से पहले 1 या अन्य सकारात्मक संख्या जोड़ने की आवश्यकता होगी।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.