विसंगति का पता लगाने के लिए स्वचालित सुविधा चयन


11

विसंगति का पता लगाने के लिए स्वचालित रूप से सुविधाओं का चयन करने का सबसे अच्छा तरीका क्या है?

मैं आमतौर पर एनोमली डिटेक्शन को एक एल्गोरिथ्म के रूप में मानता हूं, जहां मानव विशेषज्ञों द्वारा सुविधाओं का चयन किया जाता है: आउटपुट रेंज क्या मायने रखती है (जैसा कि "असामान्य इनपुट - असामान्य आउटपुट"), यहां तक ​​कि कई विशेषताओं के साथ आप संयोजन करके बहुत छोटे उपसमूह के साथ आ सकते हैं सुविधाएं।

हालांकि, यह मानते हुए कि सामान्य स्थिति में एक फीचर सूची बहुत बड़ी हो सकती है, शायद एक स्वचालित शिक्षा कभी-कभी बेहतर होती है। जहाँ तक मैं देख सकता हूँ, कुछ प्रयास हैं:

  • "एनोमली डिटेक्शन के लिए स्वचालित सुविधा चयन" ( पीडीएफ ) जो सपोर्ट वेक्टर डेटा विवरण को सामान्य करता है
  • "रफ़ सेट थ्योरी का उपयोग करते हुए एक तेज़ होस्ट-आधारित घुसपैठ जांच प्रणाली" (कोई पीडीएफ उपलब्ध नहीं है?) जो, मुझे लगता है, रफ सेट थ्योरी का उपयोग करता है
  • "शत्रुतापूर्ण नेटवर्क ट्रैफ़िक के विसंगति का पता लगाने के लिए सीखने के नियम" ( पीडीएफ , वीडियो ) जो सांख्यिकीय दृष्टिकोण का उपयोग करता है

तो अब मुझे आश्चर्य है कि क्या कोई बता सकता है - विसंगति का पता लगाना और वास्तव में बड़ा (सैकड़ों?) फ़ीचर सेट:

  1. क्या उन विशाल फीचर सेटों का कोई मतलब नहीं है? क्या हमें केवल सेट अप की सुविधा को कम नहीं करना चाहिए, कुछ दर्जन और?
  2. यदि विशाल फीचर सेट का कोई मतलब नहीं है, तो ऊपर दिए गए दृष्टिकोणों में से कौन सा बेहतर पूर्वानुमान देगा, और क्यों? क्या कुछ ऐसा सूचीबद्ध नहीं है जो बहुत बेहतर है?
  3. क्‍लस्‍टरिंग / रैंकिंग / आदि के माध्‍यम से इनकी तुलना, कहना, आयामीता में कमी या फीचर निर्माण के लिए बेहतर परिणाम क्‍यों देना चाहिए?

आपके लिंक ने मेरे लिए कोई खास सवाल नहीं उठाया। क्या आप समस्या का संक्षिप्त विवरण दे सकते हैं? उद्देश्य क्या है? क्या यह एक पर्यवेक्षित या अनुपयोगी सीखने की समस्या है?
एडमो

प्रश्न ML.SE से था जो अब बंद है - जाहिर है कि सभी सवालों में प्रवेश नहीं मिला था। मैंने समस्या को स्पष्ट रूप से बताने के लिए अब पाठ को संपादित किया!
andreister

जवाबों:


1

एक व्यावहारिक दृष्टिकोण (कम से कम पर्यवेक्षित सीखने के मामले में) नियमित रूप से (एल 1 और / या एल 2) के साथ सभी संभवतः प्रासंगिक सुविधाओं को शामिल करना और सामान्यीकृत (सामान्यीकृत) रैखिक मॉडल (लॉजिस्टिक प्रतिगमन, रैखिक svm आदि) का उपयोग करना है। खुले स्रोत उपकरण हैं (उदाहरण के लिए Vowpal Wabbit) जो इस प्रकार के मॉडल के लिए उदाहरणों / फ़ीचर संयोजनों के खरबों से निपट सकते हैं, इसलिए स्केलेबिलिटी एक मुद्दा नहीं है (इसके अलावा, कोई हमेशा उप-नमूना का उपयोग कर सकता है)। नियमितीकरण सुविधा चयन से निपटने में मदद करता है।


लेकिन अनचाही सेटिंग्स में सुविधाओं का चयन कैसे करें (महत्वपूर्ण सुविधाओं के साथ आने के लिए, रैखिक मॉडल आदि का उपयोग करने की आवश्यकता के बिना)? एक तरह से मैं सोच सकता हूं कि पीसीए का उपयोग कुछ भिन्नता को बनाए रखने और डेटा के आकार को कम करने के लिए कर रहा है। लेकिन फिर, विसंगति का पता लगाने की समस्या में डेटा कम करना खतरनाक लगता है क्योंकि आप लापता वास्तविक आउटलेयर को समाप्त कर सकते हैं जिसे आप भविष्यवाणी करना चाहते थे। इसलिए भ्रम।
ExAres
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.