पहले एक संक्षिप्त उत्तर, और फिर एक लंबी टिप्पणी:
उत्तर
एसएनई तकनीक मूल डेटा स्थान और निम्न-आयामी एम्बेडिंग स्पेस दोनों में एन × एन समानता मैट्रिक्स की गणना इस तरह से करती है कि समानताएं वस्तुओं के जोड़े पर एक संभाव्यता वितरण का निर्माण करती हैं। विशेष रूप से, संभाव्यताएं आमतौर पर इनपुट डेटा से या एक एम्बेडिंग से गणना की गई सामान्यीकृत गाऊसी कर्नेल द्वारा दी जाती हैं। वर्गीकरण के संदर्भ में, यह तुरंत उदाहरण-आधारित शिक्षण विधियों को ध्यान में रखता है । आपने उनमें से एक को सूचीबद्ध किया है: SVM का RBF के साथ, और @amoeba ने kNN को सूचीबद्ध किया है। रेडियल आधार फ़ंक्शन नेटवर्क भी हैं , जो मैं एक विशेषज्ञ नहीं हूं।
टिप्पणी
यह कहने के बाद कि, मैं अभी एक डेटासेट पर टी-एसएनई भूखंडों को देखने के बारे में सावधान रहना चाहूंगा। टी-एसएनई आवश्यक रूप से स्थानीय संरचना पर ध्यान केंद्रित नहीं करता है। हालाँकि, आप perplexity
पैरामीटर को ट्यून करके ऐसा करने के लिए इसे समायोजित कर सकते हैं , जो आपके डेटा के स्थानीय और वैश्विक पहलुओं के बीच ध्यान को संतुलित करने के तरीके (शिथिल) को नियंत्रित करता है।
इस संदर्भ में, perplexity
अपने आप में अंधेरे में एक छुरा है कि प्रत्येक अवलोकन कितने पड़ोसी हो सकता है और उपयोगकर्ता-प्रदान किया जा सकता है। मूल पत्र कहता है: "टी SNE के प्रदर्शन काफी व्यग्रता में परिवर्तन करने के लिए मजबूत है, और ठेठ मूल्यों 5 और 50 के बीच रहे हैं" हालांकि, मेरा अनुभव यह है कि टी-एसएनई से सबसे अधिक मिलने का मतलब अलग-अलग गड़बड़ियों के साथ कई भूखंडों का विश्लेषण करना हो सकता है।
दूसरे शब्दों में, ट्यूनिंग learning rate
और perplexity
, समान संख्या में प्रशिक्षण चरणों के लिए बहुत भिन्न दिखने वाले 2-डी भूखंड प्राप्त करना और एक ही डेटा का उपयोग करना संभव है।
यह डिस्टिल पेपर टी-एसएनई का उपयोग कैसे करें प्रभावी रूप से टी एसएनई विश्लेषण के सामान्य नुकसान का एक बड़ा सारांश देता है। सारांश बिंदु हैं:
वे हाइपरपरमेटर्स (उदाहरण के लिए सीखने की दर, चंचलता) वास्तव में मायने रखते हैं
टी-एसएनई प्लॉट में क्लस्टर आकार का मतलब कुछ भी नहीं है
क्लस्टर के बीच की गड़बड़ी का मतलब कुछ भी नहीं हो सकता है
यादृच्छिक शोर हमेशा यादृच्छिक नहीं दिखता है।
आप कभी-कभी कुछ आकृतियाँ देख सकते हैं
टोपोलॉजी के लिए, आपको एक से अधिक प्लॉट की आवश्यकता हो सकती है
विशेष रूप से अंक 2, 3 और 6 से ऊपर, मैं व्यक्तिगत टी-एसएनई भूखंडों को देखकर डेटा की विभाज्यता के बारे में अनुमान लगाने के बारे में दो बार सोचूंगा। ऐसे कई मामले हैं, जहां आप सही मापदंडों का उपयोग करके स्पष्ट क्लस्टर दिखाने वाले भूखंडों का निर्माण कर सकते हैं।