t-SNE: क्यों समान डेटा मान नेत्रहीन रूप से करीब नहीं हैं?


9

मेरे पास 200 डेटा पॉइंट्स हैं जो सभी विशेषताओं पर समान मान रखते हैं ।

टी-एसएनई आयाम में कमी के बाद वे अब इतने समान नहीं दिखते, बस इस तरह से: यहाँ छवि विवरण दर्ज करें

वे विज़ुअलाइज़ेशन में एक ही बिंदु पर क्यों नहीं हैं और यहां तक ​​कि दो अलग-अलग समूहों में वितरित किए गए प्रतीत होते हैं?



क्या यह आपके द्वारा उपयोग किए जा रहे सटीक (डबल / फ्लोट) के कारण हो सकता है?
एल बर्रो

अधिकांश मान पूर्णांक हैं। और यह बहुत विरल है, ज्यादातर शून्य के साथ लगभग 500 विशेषताएं। मुझे नहीं पता कि क्या यह परिशुद्धता के कारण हो सकता है। लेकिन इन समूहों के बीच और इन डेटा बिंदुओं के बीच की दूरी अपेक्षाकृत बड़ी है।
साइंटियाईटेरिटास

कौन सा क्लस्टर? मैंने सोचा कि सभी एक ही हैं- या क्या आपका मतलब साजिश है?
एल बुरो

हां, मेरा मतलब है कि भूखंड पर क्लस्टर।
साइंटियाईटेरिटास

जवाबों:


3

आप सही हैं कि T-SNE में समान मान अलग-अलग बिंदुओं पर वितरित किए जा सकते हैं, इसका कारण यह होता है कि यदि आप उस एल्गोरिथ्म पर एक नज़र डालते हैं जो T-SNE पर चलता है।

एल्गोरिथ्म के लिए एल्गोरिथ्म लागू किए जाने के बाद अंक के बारे में आपकी पहली चिंता वास्तव में समान नहीं है। मैं आपको इसे अपने लिए सत्यापित करने के लिए एक अभ्यास के साथ छोड़ दूँगा, एक साधारण सरणी और और इसके विरुद्ध वास्तविक एल्गोरिथ्म चलाएं और स्वयं देखें कि परिणामी बिंदु वास्तव में समान नहीं हैं आप इस के खिलाफ अपने जवाब को पार कर सकते हैं।x1=[0,1]x2=[0,1]

import numpy as np from sklearn.manifold import TSNE m = TSNE(n_components=2, random_state=0) m.fit_transform(np.array([[0,1],[0,1]]))

आप यह भी निरीक्षण करेंगे कि random_stateवास्तव में मॉडल के आउटपुट को-ऑर्डिनेट को बदलना । वास्तविक समन्वय और उनके उत्पादन के बीच कोई वास्तविक संबंध नहीं है। चूंकि TSNE का पहला चरण सशर्त संभावना की गणना करता है।

आइए अब एल्गोरिथ्म का उपयोग करके इसे तर्कसंगत बनाने की कोशिश करें, ऐसा होने का कारण है, बस गणित का उपयोग करना, बिना किसी अंतर्ज्ञान के, फिलहाल। ध्यान दें, इस स्थिति में और दोनों वैक्टर हैं। । अब, यदि हम गणना करते हैं , हम देख सकते हैं कि मूल्य 1 है। केएल विचलन लागू करने के बाद, हम ऊपर बताए गए मान प्राप्त करते हैं। अब, हम इसे कुछ अंतर्ज्ञान लागू करते हैं। है, अनौपचारिक रूप से, सशर्त संभावना है कि चुनेंगेxixjpj|i=exp(||xjxi||22σ2)kiexp(||xjxi||22σ2)pij=pi|j+pj|i2Npijxixjजैसा कि वह पड़ोसी है। यह दो कारणों से परिणाम, 1 को सही ठहराता है। पहला, यह होने के नाते कि कोई दूसरा पड़ोसी नहीं है, इसलिए उसे सह-निर्देशकों की सूची में केवल दूसरे वेक्टर को चुनना होगा। इसके अलावा, अंक समान हैं और संभावना है कि वे चुने गए हैं क्योंकि अन्य पड़ोसी उच्च होने चाहिए , जैसा कि हम देखते हैं।

अब आ रहा है कि पूर्ण सह-निर्देश में कोई महत्व है। वे वास्तव में नहीं है। यादृच्छिकता उन बिंदुओं को पुनर्वितरित कर सकती है जहाँ आप उन्हें जाना चाहते हैं। हालांकि, जो अधिक दिलचस्प है, वह अंकों के बीच की दूरी का अनुपात है और ये सापेक्ष हैं और रिश्तेदार हैं जब हम इसे उच्च आयामों पर प्रोजेक्ट करते हैं जो कि बहुत दिलचस्प है।R2

इसलिए, सच्चाई यह है कि दो समूहों को देखने के बजाय, उनके बीच की दूरियों को देखें, क्योंकि यह स्वयं को निर्देशांक की तुलना में अधिक जानकारी प्रदान करता है।

आशा है कि यह आपके सवाल का जवाब दिया :)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.