केवल एक वर्ग के लिए वर्गीकरण


10

एक साधारण वर्गीकरण में, हमारे पास दो वर्ग हैं: कक्षा -० और कक्षा -१। कुछ आंकड़ों में मेरे पास केवल कक्षा -1 के लिए मान हैं, इसलिए कक्षा -0 के लिए कोई नहीं है। अब मैं क्लास -1 के लिए डेटा मॉडल करने के लिए एक मॉडल बनाने के बारे में सोच रहा हूं। इसलिए, जब नया डेटा आता है, तो यह मॉडल नए डेटा पर लागू होता है और यह कहते हुए एक संभावना पाता है कि नया डेटा इस मॉडल के लिए कितना उपयुक्त है। फिर एक सीमा के साथ तुलना करते हुए, मैं अनुपयुक्त डेटा को फ़िल्टर कर सकता हूं।

मेरे प्रश्न हैं:

  • क्या ऐसी समस्याओं के साथ काम करने का यह एक अच्छा तरीका है?
  • क्या इस मामले के लिए रैंडमफोरेस्ट क्लासिफायर का इस्तेमाल किया जा सकता है? क्या मुझे कक्षा -० के लिए कृत्रिम डेटा जोड़ने की आवश्यकता है जो मुझे उम्मीद है कि क्लासिफायर का संबंध शोर के रूप में है?
  • इस समस्या के लिए कोई अन्य विचार मदद कर सकता है?

जवाबों:


9

यह कुछ दृष्टिकोणों का उपयोग करके संभव है और निश्चित रूप से एक वैध दृष्टिकोण है। मुझे यकीन नहीं है कि अगर यादृच्छिक जंगल ऐसा कर सकते हैं, हालांकि।

कृत्रिम डेटा उत्पन्न करने का अर्थ है कि अतिरिक्त धारणाएँ बनाना, अगर आपको नहीं करना है तो ऐसा न करें।

एक तकनीक जिसे आप देखना चाहते हैं, वह तथाकथित एक-श्रेणी एसवीएम है। यह वही है जो आप देख रहे हैं: यह एक मॉडल बनाने की कोशिश करता है जो प्रशिक्षण बिंदुओं को स्वीकार करता है और अन्य वितरणों से बिंदुओं को अस्वीकार कर देता है।

एक वर्ग एसवीएम के संबंध में कुछ संदर्भ:

  1. श्लोकोफ़, बर्नहार्ड, एट अल। "उच्च-आयामी वितरण के समर्थन का अनुमान लगाना।" तंत्रिका संगणना 13.7 (2001): 1443-1471। इस पत्र ने दृष्टिकोण पेश किया।

  2. टैक्स, डेविड एमजे, और रॉबर्ट पीडब्लू डिन। "वेक्टर डेटा विवरण का समर्थन करें।" मशीन लर्निंग 54.1 (2004): 45-66। एक ही काम करने का एक अलग तरीका, शायद अधिक सहज।

इन दोनों दृष्टिकोणों को समतुल्य दिखाया गया है। पहले एक हाइपरप्लेन का अनुमान लगाता है जो सभी प्रशिक्षण डेटा को मूल अंतरिक्ष में अधिकतम दूरी के साथ मूल से अलग करता है। दूसरे का अनुमान है कि प्रशिक्षण के उदाहरण वाले स्थान में न्यूनतम त्रिज्या के साथ एक हाइपरस्फियर है।

एक-वर्ग एसवीएम कई एसवीएम पैकेजों में उपलब्ध है, जिनमें लिबस्विम , स्किकिट-लर्न (पायथन) और कर्नेलब (आर) शामिल हैं।


3
कर की पीएचडी थीसिस "वन-क्लास वर्गीकरण - काउंटर-उदाहरणों की अनुपस्थिति में अवधारणा-शिक्षा" भी उपलब्ध है: होमपेज.
tudelft.nl/n9d04/thesis.pdf

छोटा और सटीक! (+1) "इन दोनों दृष्टिकोणों को समतुल्य दिखाया गया है।" - क्या आप उसके लिए एक संदर्भ / उद्धरण निर्दिष्ट कर सकते हैं? क्या यह scholar.google.de/…
Boern

6

मुझे कुछ और संभावनाएं जोड़ने दें:

सामान्य विचार यह है कि वर्ग से दूरी पर सीमा निर्धारित करना आपको यह तय करने में सक्षम बनाता है कि कोई नमूना उस वर्ग में है या नहीं और इसकी परवाह किए बिना कि अन्य वर्ग हैं या नहीं।

  • महालनोबिस-दूरी => QDA
  • SIMCA (क्लास एनालॉग्स की सॉफ्ट इंडिपेंडेंट मॉडलिंग) पीसीए स्कोर स्पेस में दूरी का उपयोग करता है।
    SIMCA रसायन विज्ञान में आम है (हालांकि शायद ही कभी एक-वर्ग तरीके से स्थापित किया गया हो)।
  • (SVMs का इलाज पहले से ही @Marc Claesen के उत्तर में है)

रिचर्ड जी। ब्रेटटन: पैटर्न रिकॉग्निशन के लिए केमोमेट्रिक्स (विली, 2009) में एक-वर्ग वर्गीकरण के बारे में एक पूरा अध्याय है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.