t-SNE: क्यों समान डेटा मान नेत्रहीन रूप से करीब नहीं हैं?

मेरे पास 200 डेटा पॉइंट्स हैं जो सभी विशेषताओं पर समान मान रखते हैं ।

टी-एसएनई आयाम में कमी के बाद वे अब इतने समान नहीं दिखते, बस इस तरह से:

वे विज़ुअलाइज़ेशन में एक ही बिंदु पर क्यों नहीं हैं और यहां तक कि दो अलग-अलग समूहों में वितरित किए गए प्रतीत होते हैं?

visualization dimensionality-reduction tsne

— ScientiaEtVeritas
स्रोत

Distill.pub/2016/misread-tsne

— Emre

क्या यह आपके द्वारा उपयोग किए जा रहे सटीक (डबल / फ्लोट) के कारण हो सकता है?

— एल बर्रो

अधिकांश मान पूर्णांक हैं। और यह बहुत विरल है, ज्यादातर शून्य के साथ लगभग 500 विशेषताएं। मुझे नहीं पता कि क्या यह परिशुद्धता के कारण हो सकता है। लेकिन इन समूहों के बीच और इन डेटा बिंदुओं के बीच की दूरी अपेक्षाकृत बड़ी है।

— साइंटियाईटेरिटास

कौन सा क्लस्टर? मैंने सोचा कि सभी एक ही हैं- या क्या आपका मतलब साजिश है?

— एल बुरो

हां, मेरा मतलब है कि भूखंड पर क्लस्टर।

— साइंटियाईटेरिटास

आप सही हैं कि T-SNE में समान मान अलग-अलग बिंदुओं पर वितरित किए जा सकते हैं, इसका कारण यह होता है कि यदि आप उस एल्गोरिथ्म पर एक नज़र डालते हैं जो T-SNE पर चलता है।

एल्गोरिथ्म के लिए एल्गोरिथ्म लागू किए जाने के बाद अंक के बारे में आपकी पहली चिंता वास्तव में समान नहीं है। मैं आपको इसे अपने लिए सत्यापित करने के लिए एक अभ्यास के साथ छोड़ दूँगा, एक साधारण सरणी और और इसके विरुद्ध वास्तविक एल्गोरिथ्म चलाएं और स्वयं देखें कि परिणामी बिंदु वास्तव में समान नहीं हैं आप इस के खिलाफ अपने जवाब को पार कर सकते हैं। $x_1 = [0,1]$ $x_2 = [0,1]$

import numpy as np from sklearn.manifold import TSNE m = TSNE(n_components=2, random_state=0) m.fit_transform(np.array([[0,1],[0,1]]))

आप यह भी निरीक्षण करेंगे कि random_stateवास्तव में मॉडल के आउटपुट को-ऑर्डिनेट को बदलना । वास्तविक समन्वय और उनके उत्पादन के बीच कोई वास्तविक संबंध नहीं है। चूंकि TSNE का पहला चरण सशर्त संभावना की गणना करता है।

आइए अब एल्गोरिथ्म का उपयोग करके इसे तर्कसंगत बनाने की कोशिश करें, ऐसा होने का कारण है, बस गणित का उपयोग करना, बिना किसी अंतर्ज्ञान के, फिलहाल। ध्यान दें, इस स्थिति में और दोनों वैक्टर हैं। । अब, यदि हम गणना करते हैं , हम देख सकते हैं कि मूल्य 1 है। केएल विचलन लागू करने के बाद, हम ऊपर बताए गए मान प्राप्त करते हैं। अब, हम इसे कुछ अंतर्ज्ञान लागू करते हैं। है, अनौपचारिक रूप से, सशर्त संभावना है कि चुनेंगे $x_i$ $x_j$ $p_{j | i} = \frac{exp(\frac{-||x_j - x_i||^2}{2\sigma^2})}{\sum_{k \neq i}{exp(\frac{-||x_j - x_i||^2}{2\sigma^2})}}$ $p_{ij} = \frac{p_{i|j} + p_{j | i}}{2N}$ $p_{ij}$ $x_i$ $x_j$ जैसा कि वह पड़ोसी है। यह दो कारणों से परिणाम, 1 को सही ठहराता है। पहला, यह होने के नाते कि कोई दूसरा पड़ोसी नहीं है, इसलिए उसे सह-निर्देशकों की सूची में केवल दूसरे वेक्टर को चुनना होगा। इसके अलावा, अंक समान हैं और संभावना है कि वे चुने गए हैं क्योंकि अन्य पड़ोसी उच्च होने चाहिए , जैसा कि हम देखते हैं।

अब आ रहा है कि पूर्ण सह-निर्देश में कोई महत्व है। वे वास्तव में नहीं है। यादृच्छिकता उन बिंदुओं को पुनर्वितरित कर सकती है जहाँ आप उन्हें जाना चाहते हैं। हालांकि, जो अधिक दिलचस्प है, वह अंकों के बीच की दूरी का अनुपात है और ये सापेक्ष हैं और रिश्तेदार हैं जब हम इसे उच्च आयामों पर प्रोजेक्ट करते हैं जो कि बहुत दिलचस्प है। $\mathbb{R}^2$

इसलिए, सच्चाई यह है कि दो समूहों को देखने के बजाय, उनके बीच की दूरियों को देखें, क्योंकि यह स्वयं को निर्देशांक की तुलना में अधिक जानकारी प्रदान करता है।

आशा है कि यह आपके सवाल का जवाब दिया :)

— psub
स्रोत