मैं विसंगति के अंकों की एक समय श्रृंखला के साथ काम कर रहा हूं (पृष्ठभूमि कंप्यूटर नेटवर्क में विसंगति का पता लगाने वाला है)। हर मिनट, मुझे एक विसंगति स्कोर मिलता हैजो मुझे बताता है कि नेटवर्क की वर्तमान स्थिति कितनी "अप्रत्याशित" या असामान्य है। उच्च स्कोर, वर्तमान स्थिति जितनी अधिक असामान्य होगी। 5 के करीब स्कोर सैद्धांतिक रूप से संभव है लेकिन लगभग कभी नहीं होते हैं।
अब मैं एक एल्गोरिथ्म या एक सूत्र के साथ आना चाहता हूं जो स्वचालित रूप से इस विसंगति समय श्रृंखला के लिए एक सीमा निर्धारित करता है । जैसे ही एक विसंगति स्कोर इस सीमा से अधिक हो जाता है, एक अलार्म चालू हो जाता है।
नीचे दी गई आवृत्ति वितरण 1 दिन से अधिक की विसंगति समय श्रृंखला के लिए एक उदाहरण है। हालांकि, यह मान लेना सुरक्षित नहीं है कि हर विसंगति समय श्रृंखला की तरह लग रही है। इस विशेष उदाहरण में, .99-क्वांटाइल जैसी विसंगति का अर्थ समझ में आता है क्योंकि बहुत ही सही पर कुछ अंकों को विसंगतियों के रूप में माना जा सकता है।
और समय श्रृंखला के समान आवृत्ति वितरण (यह केवल 0 से 1 तक होता है क्योंकि समय श्रृंखला में कोई उच्च विसंगति स्कोर नहीं हैं):
दुर्भाग्य से, आवृत्ति वितरण में आकार हो सकते हैं, जहां .99-मात्रात्मक उपयोगी नहीं है । एक उदाहरण नीचे है। सही पूंछ बहुत कम है, इसलिए यदि .99-मात्रा का उपयोग थ्रेशोल्ड के रूप में किया जाता है, तो इससे कई गलत सकारात्मक परिणाम हो सकते हैं। इस आवृत्ति वितरण में विसंगतियाँ नहीं लगती हैं इसलिए दहलीज को वितरण के बाहर लगभग 0.25 पर रखना चाहिए।
संक्षेप में, इन दो उदाहरणों के बीच का अंतर यह है कि पहला व्यक्ति विसंगतियों को प्रदर्शित करता है जबकि दूसरा नहीं करता है।
मेरे भोले दृष्टिकोण से, एल्गोरिथ्म को इन दो मामलों पर विचार करना चाहिए:
- यदि आवृत्ति वितरण में एक बड़ी दाएं पूंछ होती है (अर्थात कुछ असामान्य स्कोर), तो .99-मात्रा एक अच्छी सीमा हो सकती है।
- यदि आवृत्ति वितरण में बहुत छोटी दाएं पूंछ होती है (अर्थात कोई असामान्य स्कोर नहीं), तो थ्रेशोल्ड वितरण के बाहर स्थित होना चाहिए।
/ संपादित करें: कोई जमीनी सच्चाई भी नहीं है, अर्थात लेबल किए गए डेटा सेट उपलब्ध हैं। तो एल्गोरिथ्म विसंगति स्कोर की प्रकृति के खिलाफ "अंधा" है।
अब मुझे यकीन नहीं है कि इन टिप्पणियों को एक एल्गोरिथ्म या सूत्र के रूप में कैसे व्यक्त किया जा सकता है। क्या किसी के पास कोई सुझाव है कि इस समस्या को कैसे हल किया जा सकता है? मुझे उम्मीद है कि मेरी सांख्यिकीय पृष्ठभूमि बहुत सीमित होने के कारण मेरी व्याख्या पर्याप्त है।
आपकी सहायताके लिए धन्यवाद!