टी-एसएनई कक्षाओं को अच्छी तरह से अलग करने के बाद क्या वर्गीकरण एल्गोरिथम का उपयोग करना चाहिए?


12

मान लें कि हमारे पास एक वर्गीकरण समस्या है और सबसे पहले हम डेटा से कुछ जानकारी प्राप्त करना चाहते हैं और हम टी-एसएनई करते हैं। टी-एसएनई का परिणाम कक्षाओं को बहुत अच्छी तरह से अलग करता है। तात्पर्य यह है कि वर्गीकरण मॉडल का निर्माण संभव है जो कक्षाओं को भी अच्छी तरह से अलग करेगा (यदि टी-एसएनई अच्छी तरह से अलग नहीं होता है तो यह बहुत अधिक नहीं होता है)।

यह जानना कि टी-एसएनई स्थानीय संरचना पर केंद्रित है और यह कक्षाओं को अच्छी तरह से अलग कर सकता है: वर्गीकरण एल्गोरिदम क्या हैं जो इस समस्या पर अच्छी तरह से काम करना चाहिए? स्किकिट एक गॉसियन आरबीएफ कर्नेल के साथ एसवीएम का सुझाव देता है, लेकिन अन्य क्या हैं?


3
(+1) K- निकटतम-पड़ोसी एक बहुत ही सरल और आसानी से लागू होने वाला प्राकृतिक विकल्प हो सकता है।
अमीबा

जवाबों:


7

पहले एक संक्षिप्त उत्तर, और फिर एक लंबी टिप्पणी:

उत्तर

एसएनई तकनीक मूल डेटा स्थान और निम्न-आयामी एम्बेडिंग स्पेस दोनों में एन × एन समानता मैट्रिक्स की गणना इस तरह से करती है कि समानताएं वस्तुओं के जोड़े पर एक संभाव्यता वितरण का निर्माण करती हैं। विशेष रूप से, संभाव्यताएं आमतौर पर इनपुट डेटा से या एक एम्बेडिंग से गणना की गई सामान्यीकृत गाऊसी कर्नेल द्वारा दी जाती हैं। वर्गीकरण के संदर्भ में, यह तुरंत उदाहरण-आधारित शिक्षण विधियों को ध्यान में रखता है । आपने उनमें से एक को सूचीबद्ध किया है: SVM का RBF के साथ, और @amoeba ने kNN को सूचीबद्ध किया है। रेडियल आधार फ़ंक्शन नेटवर्क भी हैं , जो मैं एक विशेषज्ञ नहीं हूं।

टिप्पणी

यह कहने के बाद कि, मैं अभी एक डेटासेट पर टी-एसएनई भूखंडों को देखने के बारे में सावधान रहना चाहूंगा। टी-एसएनई आवश्यक रूप से स्थानीय संरचना पर ध्यान केंद्रित नहीं करता है। हालाँकि, आप perplexityपैरामीटर को ट्यून करके ऐसा करने के लिए इसे समायोजित कर सकते हैं , जो आपके डेटा के स्थानीय और वैश्विक पहलुओं के बीच ध्यान को संतुलित करने के तरीके (शिथिल) को नियंत्रित करता है।

इस संदर्भ में, perplexityअपने आप में अंधेरे में एक छुरा है कि प्रत्येक अवलोकन कितने पड़ोसी हो सकता है और उपयोगकर्ता-प्रदान किया जा सकता है। मूल पत्र कहता है: "टी SNE के प्रदर्शन काफी व्यग्रता में परिवर्तन करने के लिए मजबूत है, और ठेठ मूल्यों 5 और 50 के बीच रहे हैं" हालांकि, मेरा अनुभव यह है कि टी-एसएनई से सबसे अधिक मिलने का मतलब अलग-अलग गड़बड़ियों के साथ कई भूखंडों का विश्लेषण करना हो सकता है।

दूसरे शब्दों में, ट्यूनिंग learning rateऔर perplexity, समान संख्या में प्रशिक्षण चरणों के लिए बहुत भिन्न दिखने वाले 2-डी भूखंड प्राप्त करना और एक ही डेटा का उपयोग करना संभव है।

यह डिस्टिल पेपर टी-एसएनई का उपयोग कैसे करें प्रभावी रूप से टी एसएनई विश्लेषण के सामान्य नुकसान का एक बड़ा सारांश देता है। सारांश बिंदु हैं:

  1. वे हाइपरपरमेटर्स (उदाहरण के लिए सीखने की दर, चंचलता) वास्तव में मायने रखते हैं

  2. टी-एसएनई प्लॉट में क्लस्टर आकार का मतलब कुछ भी नहीं है

  3. क्लस्टर के बीच की गड़बड़ी का मतलब कुछ भी नहीं हो सकता है

  4. यादृच्छिक शोर हमेशा यादृच्छिक नहीं दिखता है।

  5. आप कभी-कभी कुछ आकृतियाँ देख सकते हैं

  6. टोपोलॉजी के लिए, आपको एक से अधिक प्लॉट की आवश्यकता हो सकती है

विशेष रूप से अंक 2, 3 और 6 से ऊपर, मैं व्यक्तिगत टी-एसएनई भूखंडों को देखकर डेटा की विभाज्यता के बारे में अनुमान लगाने के बारे में दो बार सोचूंगा। ऐसे कई मामले हैं, जहां आप सही मापदंडों का उपयोग करके स्पष्ट क्लस्टर दिखाने वाले भूखंडों का निर्माण कर सकते हैं।


1
बर्कमिस्टर: आपने जो कुछ भी लिखा वह सब समझ में आता है। मेरी समस्या का वर्णन करना काफी आसान है: मैं वर्गीकरण मॉडल को यथासंभव बेहतर बनाना चाहता हूं। मॉडल की गुणवत्ता में सुधार करने के लिए मैं इसका उपयोग कैसे कर सकता हूं? मेरा सबसे अच्छा अनुमान यह था कि टी-एसएनई 'सुझाव' दे सकता है कि दी गई समस्या के लिए कौन सा तरीका प्रासंगिक हो सकता है।
टोमेक टारसिनेस्की

2
कृपया देखें कि संपादित करें, उदाहरण-आधारित शिक्षण विधियां किसी भी सुराग के साथ संगत होंगी जो आपको टी-एसएनई भूखंडों से मिल सकती हैं।
ज़ुबर्ब

2
(+1): उत्तर के लिए धन्यवाद, मैं ठीक इसके लिए देख रहा था। मैं दो दिनों के भीतर जवाब स्वीकार कर लूंगा।
टोमेक Tarczynski
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.