मैं Hadoop, Hive, Elastic Search (दूसरों के बीच) का उपयोग करके एक बड़े डेटा इन्फ्रास्ट्रक्चर को सेटअप करने की कोशिश कर रहा हूं, और मैं कुछ डेटासेट पर कुछ एल्गोरिदम चलाना चाहूंगा। मैं चाहूंगा कि एल्गोरिदम स्वयं स्केलेबल हों, इसलिए यह वीका, आर, या यहां तक कि रोडाओप जैसे उपकरणों का उपयोग नहीं करता है। अपाचे महावत लाइब्रेरी एक अच्छा विकल्प हो रहा है, और यह सुविधाओं प्रतिगमन और क्लस्टरिंग कार्यों के लिए एल्गोरिदम ।
मैं जो ढूंढने के लिए संघर्ष कर रहा हूं वह विसंगति या बाह्य विकृति का समाधान है।
चूंकि महट में छिपे मार्कोव मॉडल और विभिन्न प्रकार की क्लस्टरिंग तकनीक (के-मीन्स सहित) हैं, मैं सोच रहा था कि क्या किसी भी समय का उपयोग करते हुए आउट-सीरीज का पता लगाने के लिए मॉडल बनाना संभव होगा। मैं आभारी रहूंगा अगर कोई इस पर अनुभवी मुझे सलाह दे सके
- यदि यह संभव है, और यदि ऐसा है तो
- यह कैसे करना है, प्लस
- शामिल प्रयास का एक अनुमान और
- इस दृष्टिकोण की सटीकता / समस्याएं।