विसंगति का पता लगाने के लिए स्वचालित रूप से सुविधाओं का चयन करने का सबसे अच्छा तरीका क्या है?
मैं आमतौर पर एनोमली डिटेक्शन को एक एल्गोरिथ्म के रूप में मानता हूं, जहां मानव विशेषज्ञों द्वारा सुविधाओं का चयन किया जाता है: आउटपुट रेंज क्या मायने रखती है (जैसा कि "असामान्य इनपुट - असामान्य आउटपुट"), यहां तक कि कई विशेषताओं के साथ आप संयोजन करके बहुत छोटे उपसमूह के साथ आ सकते हैं सुविधाएं।
हालांकि, यह मानते हुए कि सामान्य स्थिति में एक फीचर सूची बहुत बड़ी हो सकती है, शायद एक स्वचालित शिक्षा कभी-कभी बेहतर होती है। जहाँ तक मैं देख सकता हूँ, कुछ प्रयास हैं:
- "एनोमली डिटेक्शन के लिए स्वचालित सुविधा चयन" ( पीडीएफ ) जो सपोर्ट वेक्टर डेटा विवरण को सामान्य करता है
- "रफ़ सेट थ्योरी का उपयोग करते हुए एक तेज़ होस्ट-आधारित घुसपैठ जांच प्रणाली" (कोई पीडीएफ उपलब्ध नहीं है?) जो, मुझे लगता है, रफ सेट थ्योरी का उपयोग करता है
- "शत्रुतापूर्ण नेटवर्क ट्रैफ़िक के विसंगति का पता लगाने के लिए सीखने के नियम" ( पीडीएफ , वीडियो ) जो सांख्यिकीय दृष्टिकोण का उपयोग करता है
तो अब मुझे आश्चर्य है कि क्या कोई बता सकता है - विसंगति का पता लगाना और वास्तव में बड़ा (सैकड़ों?) फ़ीचर सेट:
- क्या उन विशाल फीचर सेटों का कोई मतलब नहीं है? क्या हमें केवल सेट अप की सुविधा को कम नहीं करना चाहिए, कुछ दर्जन और?
- यदि विशाल फीचर सेट का कोई मतलब नहीं है, तो ऊपर दिए गए दृष्टिकोणों में से कौन सा बेहतर पूर्वानुमान देगा, और क्यों? क्या कुछ ऐसा सूचीबद्ध नहीं है जो बहुत बेहतर है?
- क्लस्टरिंग / रैंकिंग / आदि के माध्यम से इनकी तुलना, कहना, आयामीता में कमी या फीचर निर्माण के लिए बेहतर परिणाम क्यों देना चाहिए?