स्केलेबल आउटरीयर / एनोमली डिटेक्शन

10

मैं Hadoop, Hive, Elastic Search (दूसरों के बीच) का उपयोग करके एक बड़े डेटा इन्फ्रास्ट्रक्चर को सेटअप करने की कोशिश कर रहा हूं, और मैं कुछ डेटासेट पर कुछ एल्गोरिदम चलाना चाहूंगा। मैं चाहूंगा कि एल्गोरिदम स्वयं स्केलेबल हों, इसलिए यह वीका, आर, या यहां तक कि रोडाओप जैसे उपकरणों का उपयोग नहीं करता है। अपाचे महावत लाइब्रेरी एक अच्छा विकल्प हो रहा है, और यह सुविधाओं प्रतिगमन और क्लस्टरिंग कार्यों के लिए एल्गोरिदम ।

मैं जो ढूंढने के लिए संघर्ष कर रहा हूं वह विसंगति या बाह्य विकृति का समाधान है।

चूंकि महट में छिपे मार्कोव मॉडल और विभिन्न प्रकार की क्लस्टरिंग तकनीक (के-मीन्स सहित) हैं, मैं सोच रहा था कि क्या किसी भी समय का उपयोग करते हुए आउट-सीरीज का पता लगाने के लिए मॉडल बनाना संभव होगा। मैं आभारी रहूंगा अगर कोई इस पर अनुभवी मुझे सलाह दे सके

यदि यह संभव है, और यदि ऐसा है तो
यह कैसे करना है, प्लस
शामिल प्रयास का एक अनुमान और
इस दृष्टिकोण की सटीकता / समस्याएं।

— दोहरे-
स्रोत

1

इसका उत्तर दिया जाना बहुत अस्पष्ट है। टाइम सीरीज़ उन पर सिर्फ के-मीन्स फेंकने के लिए बहुत अलग है और उपयोगी कुछ भी निकाल सकती है। यह आपके डेटा पर बहुत अधिक निर्भर करता है।

— है क्विट - Anony-Mousse

1

बाह्य पहचान के लिए, ELKI में एल्गोरिदम पर एक नज़र डालें। यह बाह्य विकृति का सबसे पूर्ण संग्रह प्रतीत होता है।

— है क्विट - Anony-Mousse

नए इलास्टिक्स खोज संस्करणों में निर्मित समय श्रृंखला विसंगति का पता लगाया गया है (मुझे लगता है कि आपको एक्स-पैक खरीदना होगा)। मुझे यकीन नहीं है कि वे क्या एल्गोरिदम का उपयोग कर रहे हैं, लेकिन यह एक ऑफ-द-शेल्फ समाधान की जांच के लायक हो सकता है।

— टॉम

7

मैं टी-डाइजेस्ट एल्गोरिथ्म पर एक नज़र डालूंगा । यह बड़े डेटा स्ट्रीमिंग के लिए महावत में विलय कर दिया गया है और कुछ अन्य पुस्तकालयों का भी हिस्सा है । आप इस एल्गोरिथ्म के बारे में और अधिक जानकारी प्राप्त कर सकते हैं विशेष रूप से और अगले संसाधनों में सामान्य रूप से बड़े डेटा विसंगति का पता लगा सकते हैं:

— prudenko
स्रोत

टी-डाइजेस्ट पी-स्क्वायर एल्गोरिदम की तुलना कैसे करता है?

— डेविड मार्क्स

उत्तर के लिए धन्यवाद: यह चरम मात्राओं की गणना करने के लिए एक सरल मॉडल है, और मुझे लगता है कि यह मेरी जरूरतों को पूरा करेगा। हालांकि अधिक जटिल समय-श्रृंखला के लिए, जिनके पास लगभग स्थिर वितरण नहीं है, यह दृष्टिकोण विफल हो सकता है, और जब मुझे लगता है कि हमें मार्कोव श्रृंखला जैसे कुछ अनुकूली की आवश्यकता होगी।

— डबलबेटे

0

आप H2O आर या में अजगर विसंगति पहचान पद्धति से संबंधित मेरी प्रतिक्रिया का उल्लेख कर सकते stackexchange , के बाद से वह भी स्केलेबल है।

— 0xF
स्रोत