एक नियमित रूप से बढ़ते सुविधा सेट को संभालना


10

मैं एक फ्रॉड डिटेक्शन सिस्टम पर काम कर रहा हूं। इस क्षेत्र में, नए फ्रॉड नियमित रूप से दिखाई देते हैं, ताकि नए फीचर्स को मौजूदा आधार पर मॉडल में जोड़ा जाए।

मुझे आश्चर्य है कि इसे (विकास प्रक्रिया के नजरिए से) संभालने का सबसे अच्छा तरीका क्या है? बस फीचर वेक्टर में एक नई सुविधा जोड़ने और क्लासिफायर को फिर से प्रशिक्षित करने के लिए एक भोली दृष्टिकोण लगता है, क्योंकि पुरानी सुविधाओं को फिर से सीखने के लिए बहुत अधिक समय खर्च किया जाएगा।

मैं प्रत्येक फीचर (या संबंधित सुविधाओं के एक जोड़े) के लिए एक क्लासिफायरियर के प्रशिक्षण के तरीके पर सोच रहा हूं, और फिर उन क्लासिफायर के परिणामों को एक समग्र क्लासिफायरियर के साथ जोड़ रहा हूं। क्या इस दृष्टिकोण की कोई कमियां हैं? मैं समग्र वर्गीकरण के लिए एक एल्गोरिथ्म कैसे चुन सकता हूं?

जवाबों:


4

एक आदर्श दुनिया में, आप अपने सभी ऐतिहासिक डेटा को बनाए रखते हैं, और वास्तव में एक नया मॉडल चलाते हैं जिसमें ऐतिहासिक डेटा से रेट्रोएक्टली निकाले जाते हैं। मेरा तर्क है कि इस पर खर्च किया गया कंप्यूटिंग संसाधन वास्तव में काफी उपयोगी है। क्या यह वास्तव में एक समस्या है?

हां, यह एक व्यापक रूप से स्वीकार की गई तकनीक है, जो क्लासिफायर के कलाकारों की टुकड़ी का निर्माण करती है और उनके परिणामों को जोड़ती है। आप नई सुविधाओं पर समानांतर में एक नया मॉडल बना सकते हैं और इसकी भविष्यवाणी में औसत कर सकते हैं। इसमें मान जोड़ना चाहिए, लेकिन, आप इस तरह से नई और पुरानी विशेषताओं के बीच बातचीत को कभी नहीं पकड़ पाएंगे, क्योंकि वे एक क्लासिफायर में कभी एक साथ दिखाई नहीं देंगे।


2

यहाँ एक विचार है कि बस नीले रंग से बाहर निकलता है - क्या होगा यदि आप रैंडम सबस्पेस सैम्पलिंग का उपयोग करते हैं (वास्तव में सीन ओवेन ने पहले ही सुझाव दिया था) हर बार एक नया फीचर दिखाई देने पर नए क्लासिफायर का एक गुच्छा प्रशिक्षित करने के लिए ( जिसमें रैंडम फीचर सब्मिट का उपयोग करना शामिल है) सुविधाओं का नया सेट)। आप नमूने के सबसेट पर उन मॉडलों को प्रशिक्षित कर सकते हैं और साथ ही साथ कुछ प्रशिक्षण समय भी बचा सकते हैं।

इस तरह से आपके पास नए क्लासीफायर हो सकते हैं जो संभवतः नई और पुरानी दोनों विशेषताओं को ले सकते हैं, और साथ ही साथ अपने पुराने क्लासिफायर को भी रखते हैं। आप भी, शायद प्रत्येक वर्ग के प्रदर्शन को मापने के लिए एक क्रॉस सत्यापन तकनीक का उपयोग कर, एक फूला हुआ मॉडल से बचने के लिए थोड़ी देर के बाद सबसे खराब प्रदर्शन करने वाले को मार सकते हैं।


0

आप जो भी वर्णन करते हैं वह मशीन लर्निंग में अवधारणा बहाव की श्रेणी में आता है । आपको इस सारांश पत्र में दिलचस्प और कार्रवाई करने योग्य विचार मिल सकते हैं और आपको इन स्लाइडों में संभावित दृष्टिकोणों का एक वर्गीकरण मिलेगा ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.