स्केलेबल आउटरीयर / एनोमली डिटेक्शन


10

मैं Hadoop, Hive, Elastic Search (दूसरों के बीच) का उपयोग करके एक बड़े डेटा इन्फ्रास्ट्रक्चर को सेटअप करने की कोशिश कर रहा हूं, और मैं कुछ डेटासेट पर कुछ एल्गोरिदम चलाना चाहूंगा। मैं चाहूंगा कि एल्गोरिदम स्वयं स्केलेबल हों, इसलिए यह वीका, आर, या यहां तक ​​कि रोडाओप जैसे उपकरणों का उपयोग नहीं करता है। अपाचे महावत लाइब्रेरी एक अच्छा विकल्प हो रहा है, और यह सुविधाओं प्रतिगमन और क्लस्टरिंग कार्यों के लिए एल्गोरिदम

मैं जो ढूंढने के लिए संघर्ष कर रहा हूं वह विसंगति या बाह्य विकृति का समाधान है।

चूंकि महट में छिपे मार्कोव मॉडल और विभिन्न प्रकार की क्लस्टरिंग तकनीक (के-मीन्स सहित) हैं, मैं सोच रहा था कि क्या किसी भी समय का उपयोग करते हुए आउट-सीरीज का पता लगाने के लिए मॉडल बनाना संभव होगा। मैं आभारी रहूंगा अगर कोई इस पर अनुभवी मुझे सलाह दे सके

  1. यदि यह संभव है, और यदि ऐसा है तो
  2. यह कैसे करना है, प्लस
  3. शामिल प्रयास का एक अनुमान और
  4. इस दृष्टिकोण की सटीकता / समस्याएं।

1
इसका उत्तर दिया जाना बहुत अस्पष्ट है। टाइम सीरीज़ उन पर सिर्फ के-मीन्स फेंकने के लिए बहुत अलग है और उपयोगी कुछ भी निकाल सकती है। यह आपके डेटा पर बहुत अधिक निर्भर करता है।
है क्विट - Anony-Mousse

1
बाह्य पहचान के लिए, ELKI में एल्गोरिदम पर एक नज़र डालें। यह बाह्य विकृति का सबसे पूर्ण संग्रह प्रतीत होता है।
है क्विट - Anony-Mousse

नए इलास्टिक्स खोज संस्करणों में निर्मित समय श्रृंखला विसंगति का पता लगाया गया है (मुझे लगता है कि आपको एक्स-पैक खरीदना होगा)। मुझे यकीन नहीं है कि वे क्या एल्गोरिदम का उपयोग कर रहे हैं, लेकिन यह एक ऑफ-द-शेल्फ समाधान की जांच के लायक हो सकता है।
टॉम

जवाबों:


7

मैं टी-डाइजेस्ट एल्गोरिथ्म पर एक नज़र डालूंगा । यह बड़े डेटा स्ट्रीमिंग के लिए महावत में विलय कर दिया गया है और कुछ अन्य पुस्तकालयों का भी हिस्सा है । आप इस एल्गोरिथ्म के बारे में और अधिक जानकारी प्राप्त कर सकते हैं विशेष रूप से और अगले संसाधनों में सामान्य रूप से बड़े डेटा विसंगति का पता लगा सकते हैं:

  1. व्यावहारिक मशीन लर्निंग विसंगति का पता लगाने वाली पुस्तक।
  2. वेबिनार: विसंगति का पता जब आप नहीं जानते कि आपको क्या चाहिए
  3. एलेस्टिक्स खोज में विसंगति
  4. बीमनिंग बिलियन फ्रॉड एनोमली डिटेक्शन का उपयोग करके धोखाधड़ी: एक सिग्नल प्रोसेसिंग एर्गुलो के साथ हॉर्टनवर्क्स डेटा प्लेटफॉर्म पर एर्गिल डेटा का उपयोग करते हुए।

टी-डाइजेस्ट पी-स्क्वायर एल्गोरिदम की तुलना कैसे करता है?
डेविड मार्क्स

उत्तर के लिए धन्यवाद: यह चरम मात्राओं की गणना करने के लिए एक सरल मॉडल है, और मुझे लगता है कि यह मेरी जरूरतों को पूरा करेगा। हालांकि अधिक जटिल समय-श्रृंखला के लिए, जिनके पास लगभग स्थिर वितरण नहीं है, यह दृष्टिकोण विफल हो सकता है, और जब मुझे लगता है कि हमें मार्कोव श्रृंखला जैसे कुछ अनुकूली की आवश्यकता होगी।
डबलबेटे

0

आप H2O आर या में अजगर विसंगति पहचान पद्धति से संबंधित मेरी प्रतिक्रिया का उल्लेख कर सकते stackexchange , के बाद से वह भी स्केलेबल है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.