t
t-एसईएन मूल डोमेन में डेटा के बीच की दूरी और कम आयाम डोमेन में डेटा के बीच की दूरी के वितरण के बीच कुल्बैक-लीब्लर डाइवर्जेंस के योग को कम करने की कोशिश कर रहा है (वास्तव में लक्ष्य वितरण के वितरण हैं संभावना है कि एक बिंदु अपने पड़ोसी के रूप में एक और बिंदु उठाएगा लेकिन ये दोनों बिंदुओं के बीच की दूरी के सीधे आनुपातिक हैं)। यह तर्क दिया जा सकता है कि केएल-विचलन के छोटे मूल्य बेहतर परिणाम दिखाते हैं। यह विचार व्यवहार में बहुत अच्छी तरह से काम नहीं करता है, लेकिन यह सैद्धांतिक रूप से पेरिफ्लेक्सिटी मानों की कुछ श्रेणियों के साथ-साथ एल्गोरिथ्म के कुछ रन को बाहर करने में मदद करेगा जो स्पष्ट रूप से उप-रूपी हैं। मैं समझाता हूं कि यह अनुमानक एक रामबाण दवा से दूर है और यह हालांकि हल्के कैसे उपयोगी हो सकता है: दूरी / संभावनाओं की गणना करने के लिए इस्तेमाल किए जाने वाले गॉसियन के विचरण के साथ प्रतिपक्षी पैरामीटर एकतरफा बढ़ जाता है। इसलिए जब आप संपूर्णता पैरामीटर को बढ़ाते हैं, तो आपको संपूर्ण शर्तों और बाद में केएल-विचलन मूल्यों में छोटी दूरी मिल जाएगी। फिर भी यदि आपके पास एक ही चंचलता के साथ 20 रन हैं और आप उन्हें नहीं देखना चाहते हैं (तो आप उन्हें देख सकते हैं) आप हमेशा सबसे छोटे चर वाले को चुन सकते हैं, यह उम्मीद करता है कि यह मूल दूरी को अधिक सटीक रूप से बनाए रखता है। उसी के लिए जाता है फिर भी यदि आपके पास एक ही चंचलता के साथ 20 रन हैं और आप उन्हें नहीं देखना चाहते हैं (तो आप उन्हें देख सकते हैं) आप हमेशा सबसे छोटे चर वाले को चुन सकते हैं, यह उम्मीद करता है कि यह मूल दूरी को अधिक सटीक रूप से बनाए रखता है। उसी के लिए जाता है फिर भी यदि आपके पास एक ही चंचलता के साथ 20 रन हैं और आप उन्हें नहीं देखना चाहते हैं (तो आप उन्हें देख सकते हैं) आप हमेशा सबसे छोटे चर वाले को चुन सकते हैं, यह उम्मीद करता है कि यह मूल दूरी को अधिक सटीक रूप से बनाए रखता है। उसी के लिए जाता हैθθ
kktt-SNE का उपयोग पहले सभी के बाद किया गया था, यदि परिणामी प्रतिनिधित्व उन गुणों के लिए असंवेदनशील है जिनकी हम जांच कर रहे हैं तो यह अपनी कम पुनर्निर्माण त्रुटि, दृश्य अपील, आदि के बावजूद बस अच्छा नहीं है।
मुझे यह बताने दें कि मैं जो वर्णन करता हूं वह उत्तराधिकार है । जैसा कि मेरी पोस्ट की शुरुआत में उल्लेख किया गया है, मैन्युअल रूप से परिणामों का निरीक्षण करना परिणामी आयामी कमी / क्लस्टरिंग की गुणवत्ता का आकलन करने का एक अनिवार्य तरीका है।