क्या टी-एसएनई विज़ुअलाइज़ेशन में निकट बिंदुओं को अधिक समान माना जा सकता है?


14

मैं हिंटन के पेपर से समझता हूं कि टी-एसएनई स्थानीय समानताओं को बनाए रखने में एक अच्छा काम करता है और वैश्विक संरचना (क्लस्टर) को संरक्षित करने में एक अच्छा काम करता है।

हालाँकि मैं स्पष्ट नहीं हूँ कि एक 2D t-sne विज़ुअलाइज़ेशन में नज़दीकी दिखने वाले बिंदुओं को "अधिक-समान" डेटा-पॉइंट माना जा सकता है। मैं 25 सुविधाओं के साथ डेटा का उपयोग कर रहा हूं।

एक उदाहरण के रूप में, नीचे दी गई छवि का अवलोकन करते हुए, क्या मैं यह मान सकता हूं कि नीले डेटापॉइंट हरे रंग के समान हैं, विशेष रूप से सबसे बड़े हरे-पॉइंट क्लस्टर के लिए?। या, अलग तरीके से पूछते हुए, क्या यह मान लेना ठीक है कि नीले रंग के बिंदु निकटतम क्लस्टर में हरे रंग के समान होते हैं, दूसरे क्लस्टर में लाल की तुलना में? (लाल-इश क्लस्टर में हरे बिंदुओं की अवहेलना)

यहाँ छवि विवरण दर्ज करें

जब अन्य उदाहरणों का अवलोकन करते हैं, जैसे कि विज्ञान-किट में प्रस्तुत किए गए मैनिफोल्ड सीखते हैं तो यह मान लेना सही लगता है, लेकिन मुझे यकीन नहीं है कि यह सांख्यिकीय रूप से सही है।

यहाँ छवि विवरण दर्ज करें

संपादित करें

मैंने मूल डेटासेट से दूरी की गणना मैन्युअल रूप से (माध्य युग्मक यूक्लिडियन दूरी) की है और दृश्य वास्तव में डेटासेट के बारे में एक आनुपातिक स्थानिक दूरी का प्रतिनिधित्व करता है। हालांकि, मैं यह जानना चाहूंगा कि क्या यह टी-स्नेन के मूल गणितीय सूत्रीकरण से अपेक्षित नहीं है और केवल संयोग नहीं है।


1
नीले बिंदु उनके संबंधित हरे हरे बिंदुओं के सबसे करीब हैं, इस तरह से एम्बेडिंग का प्रदर्शन किया गया था। समान रूप से समानताएं (या दूरी) बोलते हुए संरक्षित किया जाना चाहिए। 25 आयामों से केवल 2 तक जाने की संभावना है सूचना का नुकसान होता है, लेकिन 2 डी प्रतिनिधित्व निकटतम है जो स्क्रीन पर दिखाया जा सकता है।
व्लादिस्लाव्स डोवलगेक्स

जवाबों:


5

मैं टी-एसएनई को स्थानीय रूप से रैखिक एम्बेडिंग के स्मार्ट संभाव्य अनुकूलन के रूप में प्रस्तुत करूंगा। दोनों मामलों में, हम एक उच्च आयामी स्थान से एक छोटे से बिंदुओं को प्रोजेक्ट करने का प्रयास करते हैं। यह प्रक्षेपण स्थानीय दूरियों के संरक्षण का अनुकूलन (एलएलई के साथ, एक संभाव्य वितरण को पूर्वनिर्मित करते हुए और केएल-विचलन को टी-एसएनई के साथ अनुकूलन करके) किया जाता है। फिर अगर आपका सवाल है, तो क्या यह वैश्विक दूरी बनाए रखता है, जवाब नहीं है। यह आपके डेटा के "आकार" पर निर्भर करेगा (यदि वितरण चिकना है, तो दूरी किसी भी तरह से संरक्षित होनी चाहिए)।

t-SNE वास्तव में स्विस रोल (आपकी "S" 3D छवि) पर अच्छी तरह से काम नहीं करता है और आप देख सकते हैं कि, 2 डी परिणाम में, बहुत मध्यम पीले बिंदु आमतौर पर नीले वाले की तुलना में लाल वाले के करीब होते हैं (वे) पूरी तरह से 3 डी छवि में केंद्रित हैं)।

T-SNE क्या करता है इसका एक और अच्छा उदाहरण हस्तलिखित अंकों की क्लस्टरिंग है। इस लिंक पर उदाहरण देखें: https://lvdmaaten.github.io/tsne/


2
मेरा मतलब है कि आप कम जगह में दूरी का उपयोग एक समानता मानदंड के रूप में नहीं कर सकते। t-SNE वैश्विक संरचना जैसे गुच्छों को बनाए रखेगा लेकिन जरूरी नहीं कि इससे दूरी बनी रहे। यह उच्च आयामी डेटा के आकार और आपके द्वारा उपयोग की जाने वाली गड़बड़ी पर निर्भर करेगा।
रॉबिन

1
ठीक है मैं समझा। स्पष्टीकरण देने के लिए धन्यवाद। हां मैं मानता हूं कि निचली जगह की दूरियां सटीक नहीं होंगी। अब, चूंकि t-sne विज़ुअलाइज़ेशन के लिए व्यावहारिक है, क्या मैं वैचारिक रूप से निचले आयामी प्लॉट में दूरियों का उपयोग कर सकता हूं? उदाहरण के लिए मेरे प्लॉट में मैं निश्चितता के साथ कह सकता हूं कि 2 डी स्पेस में तीन समूहों के स्पष्ट अलगाव को देखते हुए, नीले बिंदु हरे रंग की तुलना में नीले रंग के करीब या अधिक समान हैं। या यह कहना भी मुश्किल होगा?
जेवियरफ्रेड

1
यह कहना बहुत कठिन है। निम्न आयामी स्थान के बिंदुओं की उत्पत्ति पर केंद्रित एक गौसियन वितरण के साथ आरंभ किया जाता है। वे फिर केएल-विचलन को अनुकूलित करने के लिए पुनरावृति से प्रतिस्थापित कर रहे हैं। तो मैं कहूंगा कि आपके मामले में नीले बिंदु हरे रंग के क्लस्टर के समान हैं, लेकिन अब यह मूल्यांकन करने का तरीका है कि वे लाल क्लस्टर की तुलना में कितने करीब हैं। टी SNE।
रॉबिन

1
एक साथ लिया गया, t-SNE बड़ी जोड़ी-वार दूरी के माध्यम से (1) मॉडलिंग डिसिमापर मॉडलिंग पर जोर देता है, और (2) छोटी जोड़ीदार दूरी के माध्यम से समान डेटा पॉइंट को मॉडलिंग करता है। विशेष रूप से, टी-एसएनई कम-आयामी नक्शे में लंबी दूरी की ताकतों का परिचय देता है जो अनुकूलन में जल्दी अलग होने वाले समान बिंदुओं के दो (समूहों) को एक साथ वापस खींच सकते हैं।
रॉबिन

1
बहुत अच्छी व्याख्या। आप के प्रयास के लिए बहुत धन्यवाद। मुझे लगता है कि आप अलग-अलग टिप्पणियों को एक साथ पूरा जवाब देते हैं।
२३:३३ में जेवियरफ्रेड
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.