मैं हिंटन के पेपर से समझता हूं कि टी-एसएनई स्थानीय समानताओं को बनाए रखने में एक अच्छा काम करता है और वैश्विक संरचना (क्लस्टर) को संरक्षित करने में एक अच्छा काम करता है।
हालाँकि मैं स्पष्ट नहीं हूँ कि एक 2D t-sne विज़ुअलाइज़ेशन में नज़दीकी दिखने वाले बिंदुओं को "अधिक-समान" डेटा-पॉइंट माना जा सकता है। मैं 25 सुविधाओं के साथ डेटा का उपयोग कर रहा हूं।
एक उदाहरण के रूप में, नीचे दी गई छवि का अवलोकन करते हुए, क्या मैं यह मान सकता हूं कि नीले डेटापॉइंट हरे रंग के समान हैं, विशेष रूप से सबसे बड़े हरे-पॉइंट क्लस्टर के लिए?। या, अलग तरीके से पूछते हुए, क्या यह मान लेना ठीक है कि नीले रंग के बिंदु निकटतम क्लस्टर में हरे रंग के समान होते हैं, दूसरे क्लस्टर में लाल की तुलना में? (लाल-इश क्लस्टर में हरे बिंदुओं की अवहेलना)
जब अन्य उदाहरणों का अवलोकन करते हैं, जैसे कि विज्ञान-किट में प्रस्तुत किए गए मैनिफोल्ड सीखते हैं तो यह मान लेना सही लगता है, लेकिन मुझे यकीन नहीं है कि यह सांख्यिकीय रूप से सही है।
संपादित करें
मैंने मूल डेटासेट से दूरी की गणना मैन्युअल रूप से (माध्य युग्मक यूक्लिडियन दूरी) की है और दृश्य वास्तव में डेटासेट के बारे में एक आनुपातिक स्थानिक दूरी का प्रतिनिधित्व करता है। हालांकि, मैं यह जानना चाहूंगा कि क्या यह टी-स्नेन के मूल गणितीय सूत्रीकरण से अपेक्षित नहीं है और केवल संयोग नहीं है।