टी-एसएनई के आउटपुट पर क्लस्टरिंग


77

मुझे एक आवेदन मिला है, जहां समूहों के भीतर उपसमूह प्रभाव की तलाश करने से पहले शोर करने वाले डेटासेट को क्लस्टर करना आसान होगा। मैंने पहली बार PCA को देखा, लेकिन इसमें 90% परिवर्तनशीलता प्राप्त करने के लिए ~ 30 घटक लगते हैं, इसलिए पीसी के एक जोड़े पर क्लस्टरिंग से बहुत सारी जानकारी दूर हो जाएगी।

मैंने तब टी-एसएनई (पहली बार) की कोशिश की, जो मुझे दो आयामों में एक विषम आकार देता है जो k- साधनों के माध्यम से क्लस्टर करने के लिए बहुत ही अनुकूल है। अधिक क्या है, क्लस्टर असाइनमेंट के साथ डेटा पर एक यादृच्छिक वन चलाना परिणाम के रूप में दिखाता है कि क्लस्टर्स के पास कच्चे डेटा को बनाने वाले चर के संदर्भ में समस्या के संदर्भ में काफी समझदार व्याख्या है।

लेकिन अगर मैं इन समूहों पर रिपोर्ट करने जा रहा हूं, तो मैं उनका वर्णन कैसे करूं? K- साधन प्रधान घटकों पर क्लस्टर उन व्यक्तियों को प्रकट करते हैं जो व्युत्पन्न चर के संदर्भ में एक-दूसरे के निकट होते हैं जो डेटासेट में X% विचरण को शामिल करते हैं। T-SNE क्लस्टर्स के बारे में क्या समकक्ष कथन किया जा सकता है?

शायद इसके प्रभाव के लिए कुछ:

टी-एसएनई एक अंतर्निहित उच्च-आयामी कई गुना में अनुमानित आकस्मिकता को प्रकट करता है, इसलिए उच्च-आयामी अंतरिक्ष के निम्न-आयामी प्रतिनिधित्व पर क्लस्टर "संभावना" को अधिकतम करते हैं कि सन्निहित व्यक्ति एक ही क्लस्टर में नहीं होंगे

क्या कोई इससे बेहतर ब्लर का प्रस्ताव कर सकता है?


1
मैंने सोचा होगा कि चाल कम जगह में चर की तुलना में मूल चर पर आधारित समूहों का वर्णन करने के लिए है।
टिम

1
सही, लेकिन एक अनुपस्थित, क्लस्टर असाइनमेंट एल्गोरिथ्म को कम करने के उद्देश्य के बारे में एक सहज ज्ञान युक्त विवरण, मैं एक क्लस्टरिंग एल्गोरिथ्म चुनने के आरोपों के लिए खुला हो सकता हूं, जो मुझे वांछित परिणाम प्राप्त करने की सुविधा प्रदान करता है।
जेनेरिक_युसर

जवाबों:


94

टी-एसएनई के साथ समस्या यह है कि यह न तो दूरी को संरक्षित करता है और न ही घनत्व को। यह केवल कुछ हद तक निकटतम पड़ोसियों को संरक्षित करता है। अंतर सूक्ष्म है, लेकिन किसी भी घनत्व- या दूरी आधारित एल्गोरिदम को प्रभावित करता है।

इस प्रभाव को देखने के लिए, बस एक बहुभिन्नरूपी गॉसियन वितरण उत्पन्न करें। यदि आप यह कल्पना करते हैं, तो आपके पास एक गेंद होगी जो घनी है और बाहर की ओर बहुत कम घनी होती है, कुछ आउटलेर के साथ जो वास्तव में बहुत दूर हो सकते हैं।

अब इस डेटा पर t-SNE चलाएं। आप आमतौर पर एक समान घनत्व का एक चक्र प्राप्त करेंगे। यदि आप कम अस्पष्टता का उपयोग करते हैं, तो इसमें कुछ विषम पैटर्न भी हो सकते हैं। लेकिन आप वास्तव में अलग नहीं बता सकते हैं।

अब चीजों को और अधिक जटिल बनाते हैं। आइए एक सामान्य वितरण में (-2,0) पर 250 अंक और (सामान्य वितरण में +2,0) पर 750 अंक का उपयोग करें।

इनपुट डेटा

यह एक आसान डेटा सेट माना जाता है, उदाहरण के लिए EM के साथ:

ईएम क्लस्टरिंग

यदि हम 40 की डिफ़ॉल्ट गड़बड़ी के साथ टी-एसएनई चलाते हैं, तो हमें एक विषम आकार का पैटर्न मिलता है:

t-SNE p = 40

बुरा नहीं है, लेकिन यह भी क्लस्टर करना आसान नहीं है, क्या यह है? आपके पास एक क्लस्टरिंग एल्गोरिथ्म खोजने में एक कठिन समय होगा जो यहां बिल्कुल वांछित के रूप में काम करता है। और यहां तक ​​कि अगर आप मनुष्यों को इस डेटा को क्लस्टर करने के लिए कहेंगे, तो भी सबसे अधिक संभावना है कि उन्हें यहां 2 से अधिक क्लस्टर मिलेंगे।

यदि हम t-SNE को बहुत छोटी गड़बड़ी से चलाते हैं जैसे कि 20, तो हमें इनमें से अधिक पैटर्न मिलते हैं जो मौजूद नहीं हैं:

t-SNE p = 20

यह DBSCAN के साथ क्लस्टर करेगा, लेकिन यह चार क्लस्टर देगा। तो खबरदार, टी-एसएनई "नकली" पैटर्न का उत्पादन कर सकता है!

इस डेटा सेट के लिए इष्टतम गड़बड़ी 80 के आसपास कहीं प्रतीत होती है; लेकिन मुझे नहीं लगता कि यह पैरामीटर हर दूसरे डेटा सेट के लिए काम करना चाहिए।

t-SNE p = 80

अब यह नेत्रहीन मनभावन है, लेकिन विश्लेषण के लिए बेहतर नहीं है । एक मानव एनोटेटर संभवतः एक कट का चयन कर सकता है और एक सभ्य परिणाम प्राप्त कर सकता है ; k- साधन हालांकि यह बहुत आसान परिदृश्य में भी विफल हो जाएगा ! आप पहले से ही देख सकते हैं कि घनत्व की जानकारी खो गई है , सभी डेटा लगभग समान घनत्व के क्षेत्र में रहते हैं। यदि हम इसके बजाय प्रतिरूप को और बढ़ाएंगे, तो एकरूपता बढ़ेगी, और अलगाव फिर से कम हो जाएगा।

निष्कर्ष में, विज़ुअलाइज़ेशन के लिए टी-एसएनई का उपयोग करें (और नेत्रहीन मनभावन कुछ पाने के लिए विभिन्न मापदंडों का प्रयास करें!), लेकिन इसके बाद क्लस्टरिंग न चलाएं , विशेष रूप से दूरी- या घनत्व आधारित एल्गोरिदम का उपयोग न करें, क्योंकि यह जानकारी जानबूझकर!) खो गया। पड़ोस-ग्राफ आधारित दृष्टिकोण ठीक हो सकता है, लेकिन फिर आपको पहले टी-एसएनई चलाने की आवश्यकता नहीं है, बस पड़ोसियों का तुरंत उपयोग करें (क्योंकि टी-एसएनई इस एनएन-ग्राफ को बड़े पैमाने पर बरकरार रखने की कोशिश करता है)।

और ज्यादा उदाहरण

ये उदाहरण के लिए तैयार किए गए प्रस्तुति कागज के (लेकिन नहीं पाया जा सकता में अभी तक कागज, के रूप में मैं इस प्रयोग बाद में किया था)

एरिच शुबर्ट, और माइकल गर्ट्ज़।
आंतरिक टी स्टोकेस्टिक पड़ोसी दृश्य और बाह्य पहचान के लिए एम्बेडिंग - आयाम के अभिशाप के खिलाफ एक उपाय?
इन: समानता खोज और अनुप्रयोग (एसआईएसएपी), म्यूनिख, जर्मनी पर 10 वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही। 2017

सबसे पहले, हमारे पास यह इनपुट डेटा है:

मछली

जैसा कि आप अनुमान लगा सकते हैं, यह बच्चों के लिए "कलर मी" इमेज से लिया गया है।

यदि हम इसे SNE ( t-SNE नहीं , बल्कि पूर्ववर्ती) के माध्यम से चलाते हैं :

SNE मछली

वाह, हमारी मछली काफी समुद्री राक्षस बन गई है! चूँकि कर्नेल का आकार स्थानीय रूप से चुना जाता है, इसलिए हम घनत्व की अधिक जानकारी खो देते हैं।

लेकिन t-SNE के आउटपुट से आप वास्तव में आश्चर्यचकित होंगे:

t-SNE मछली

मैंने वास्तव में दो कार्यान्वयन (ELKI, और स्केलेर कार्यान्वयन) की कोशिश की है, और दोनों ने ऐसा परिणाम उत्पन्न किया है। कुछ विखंडित टुकड़े, लेकिन यह कि प्रत्येक मूल डेटा के साथ कुछ संगत दिखता है।

इसे समझाने के लिए दो महत्वपूर्ण बिंदु:

  1. SGD एक पुनरावृत्ति शोधन प्रक्रिया पर निर्भर करता है, और स्थानीय ऑप्टिमा में फंस सकता है। विशेष रूप से, यह एल्गोरिदम को उस डेटा के एक हिस्से को "फ्लिप" करने के लिए कठिन बनाता है जिसे उसने प्रतिबिंबित किया है, क्योंकि इसके लिए अलग-अलग होने वाले अन्य बिंदुओं के माध्यम से चलती बिंदुओं की आवश्यकता होगी। इसलिए अगर मछली के कुछ हिस्सों को प्रतिबिंबित किया जाता है, और अन्य भागों को प्रतिबिंबित नहीं किया जाता है, तो यह इसे ठीक करने में असमर्थ हो सकता है।

  2. t-SNE अनुमानित स्थान में t- वितरण का उपयोग करता है। नियमित एसएनई द्वारा उपयोग किए जाने वाले गौसियन वितरण के विपरीत, इसका मतलब है कि अधिकांश बिंदु एक-दूसरे को दोहराएंगे , क्योंकि उनके पास इनपुट डोमेन में 0 आत्मीयता है (गाऊसी जल्दी शून्य हो जाता है), लेकिन आउटपुट डोमेन में> 0 आत्मीयता। कभी-कभी (एमएनआईएसटी के रूप में) यह अच्छे दृश्य बनाता है। विशेष रूप से, यह "बंटवारे" एक डेटा थोड़ा सेट मदद कर सकते हैं और अधिक इनपुट डोमेन की तुलना में। यह अतिरिक्त प्रतिकर्षण भी अक्सर अधिक समान रूप से क्षेत्र का उपयोग करने के लिए बिंदु का कारण बनता है, जो वांछनीय भी हो सकता है। लेकिन यहाँ इस उदाहरण में, repelling प्रभाव वास्तव में मछली के टुकड़े अलग होने का कारण बनते हैं।

हम यादृच्छिक निर्देशांक (जैसा कि आमतौर पर टी-एसएनई के साथ उपयोग किया जाता है) के बजाय प्रारंभिक निर्देशांक के रूप में मूल निर्देशांक का उपयोग करके पहला मुद्दा (इस खिलौना डेटा सेट पर) मदद कर सकते हैं । इस बार, छवि ELKI के बजाय स्केलेर है, क्योंकि स्केलेर संस्करण में पहले से ही प्रारंभिक निर्देशांक पारित करने के लिए एक पैरामीटर था:

मछली, टी-एसएनई, प्रारंभिक समन्वय के रूप में मूल निर्देशांक के साथ

जैसा कि आप देख सकते हैं, यहां तक ​​कि "सही" प्रारंभिक प्लेसमेंट के साथ, टी-एसएनई मछली को उन स्थानों की संख्या में "तोड़" देगा जो मूल रूप से जुड़े हुए थे क्योंकि आउटपुट डोमेन में छात्र-टी प्रतिकर्षण इनपुट में गौसियन आत्मीयता से अधिक मजबूत है। अंतरिक्ष।

जैसा कि आप देख सकते हैं, t-SNE (और SNE, too!) दिलचस्प विज़ुअलाइज़ेशन तकनीक हैं, लेकिन उन्हें सावधानी से संभालने की आवश्यकता है। मैं परिणाम पर k- साधन लागू नहीं करूँगा! क्योंकि परिणाम बहुत विकृत हो जाएगा, और न तो दूरी और न ही घनत्व अच्छी तरह से संरक्षित हैं। इसके बजाय, इसे विज़ुअलाइज़ेशन के लिए उपयोग करें।


1
जवाब के लिए धन्यवाद। मैं पड़ोस आधारित अनुकूली क्लस्टरिंग विधियों की कल्पना कर सकता हूं, लेकिन क्या कोई विशिष्ट अच्छी तरह से विकसित चीजें हैं जो आप सुझा सकते हैं?
जेनेरिक_युसर

1
CHAMAELEON शायद सबसे उद्धृत है, लेकिन ऐसा लगता है कि कोर कदम के लिए केवल एक बाइनरी उपलब्ध है। विचार अच्छा लग रहा है, लेकिन आप जल्दी ही उन्हीं प्रभावों का अनुभव करेंगे जो टी-एसएनई दिखाई देते हैं। जैसे कि p = 20 के साथ "झुंड" को देखने की प्रवृत्ति, हब और एंटी-हब के साथ समस्याएं, आदि
Erich Schubert

2
@ एलेक्स: पेप्लेक्सिटी का उपयोग उच्च-आयामी अंतरिक्ष में समानता की गणना करने के लिए किया जाता है कि टी-स्नेन फिर 2 डी में मैच करने की कोशिश कर रहा है। चंचलता को बदलने का अर्थ है समानताएं बदलना, इसलिए मैं यह नहीं देखता कि परिणामस्वरूप केएल डाइवर्जेंस की तुलना कैसे सार्थक हो सकती है।
अमीबा

1
@AlexR। "केवल निचले आयामी स्थान की सशर्त संभाव्यता प्रतिरूपता पर निर्भर करती है" - यह कथन गलत है। Perplexity का उपयोग eq (1) के लिए आवश्यक सिग्माओं को चुनने के लिए किया जाता है, इसलिए यह cond को प्रभावित करता है। probs। में पूर्ण अंतरिक्ष।
अमीबा


34

मैं अच्छी तरह से तर्क (+1) के लिए कुछ हद तक असहमतिपूर्ण राय प्रदान करना चाहता हूं और @ErichSchubert द्वारा अत्यधिक उत्तर दिया गया है। Erich t-SNE आउटपुट पर क्लस्टरिंग की अनुशंसा नहीं करता है , और कुछ खिलौना उदाहरण दिखाता है जहां यह भ्रामक हो सकता है। उनका सुझाव मूल डेटा के बजाय क्लस्टरिंग लागू करना है।

विज़ुअलाइज़ेशन के लिए t-SNE का उपयोग करें (और नेत्रहीन मनभावन चीज़ प्राप्त करने के लिए अलग-अलग मापदंडों की कोशिश करें!), लेकिन इसके बाद क्लस्टरिंग न चलाएं, विशेष रूप से दूरी या घनत्व आधारित एल्गोरिदम का उपयोग न करें, क्योंकि यह जानकारी जानबूझकर खो गई थी!)।

मैं उन तरीकों से अच्छी तरह से वाकिफ हूं जिनमें टी-एसएनई आउटपुट भ्रामक हो सकता है (देखें https://distill.pub/2016/misread-tsne/ ) और मैं मानता हूं कि यह कुछ स्थितियों में अजीब परिणाम पैदा कर सकता है।

लेकिन आइए हम कुछ वास्तविक उच्च-आयामी आंकड़ों पर विचार करें।

एमएनआईएसटी डेटा लें : 70000 सिंगल-डिजिट इमेज। हम जानते हैं कि डेटा में 10 वर्ग हैं। ये कक्षाएं एक मानव पर्यवेक्षक के लिए अच्छी तरह से अलग दिखाई देती हैं। हालांकि, 10 क्लस्टर में MNIST डेटा को क्लस्टर करना एक बहुत ही कठिन समस्या है। मुझे किसी भी क्लस्टरिंग एल्गोरिथ्म के बारे में पता नहीं है जो डेटा को सही ढंग से 10 क्लस्टर में क्लस्टर करेगा; इससे भी महत्वपूर्ण बात यह है कि मैं किसी भी क्लस्टरिंग हेयुरिस्टिक से अवगत नहीं हूं जो यह संकेत देगा कि डेटा में 10 (अधिक और कम नहीं) क्लस्टर हैं। मुझे यकीन है कि अधिकांश सामान्य दृष्टिकोण यह इंगित करने में सक्षम नहीं होंगे।

लेकिन इसके बजाय टी-एसएनई करते हैं। (एक एमएनआईएसटी के लिए ऑनलाइन आवेदन किए गए टी-एसएनई के कई आंकड़े मिल सकते हैं, लेकिन वे अक्सर उप-रूपी होते हैं। मेरे अनुभव में, अच्छे परिणाम प्राप्त करने के लिए कुछ समय के लिए शुरुआती अतिशयोक्ति को चलाने के लिए आवश्यक है। नीचे मैं उपयोग कर रहा हूं perplexity=50, max_iter=2000, early_exag_coeff=12, stop_lying_iter=1000)। यहाँ मुझे जो मिलता है, बाईं ओर बिना लेबल के, और जमीनी सच्चाई के अनुसार दाहिने रंग पर:

MNIST टी-एसएनई

मैं तर्क देता हूं कि अनलिस्टेड टी-एसएनई प्रतिनिधित्व 10 समूहों का सुझाव देता है। एक अच्छा घनत्व आधारित क्लस्टरिंग एल्गोरिदम जैसे HDBSCAN को सावधानीपूर्वक चयनित मापदंडों के साथ लागू करने से इन 2D डेटा को 10 समूहों में क्लस्टर करने की अनुमति मिलेगी।

मामले में किसी को संदेह होगा कि ऊपर वाला बायाँ प्लॉट वास्तव में 10 क्लस्टरों का सुझाव देता है, यहाँ मुझे "लेट एक्सग्रेसियन" ट्रिक के साथ मिलता है जहाँ मैं इसके max_iter=200साथ पुनरावृत्तियों को चलाता हूँ exaggeration=4(यह ट्रिक इस बेहतरीन पेपर में सुझाई गई है: https://arxiv.org /abs/1712.09005 ):

एमएनआईएसटी टी एसएनई देर से अतिशयोक्ति के साथ

अब यह बहुत स्पष्ट होना चाहिए कि 10 क्लस्टर हैं।

मैं हर उस व्यक्ति को प्रोत्साहित करता हूं जो सोचता है कि टी-एसएनई के बाद क्लस्टरिंग एक बुरा विचार है जो एक क्लस्टरिंग एल्गोरिदम दिखा सकता है जो तुलनात्मक रूप से अच्छा परिणाम प्राप्त करेगा।

और अब और भी वास्तविक डेटा।

MNIST मामले में हम जमीनी सच्चाई जानते हैं। अज्ञात जमीनी सच्चाई के साथ अब कुछ आंकड़ों पर विचार करें। एकल कक्ष RNA-seq डेटा में सेल परिवर्तनशीलता का वर्णन करने के लिए क्लस्टरिंग और टी-एसएनई का नियमित रूप से उपयोग किया जाता है। जैसे शेखर एट अल। 2016 में 27000 रेटिना कोशिकाओं के बीच समूहों की पहचान करने की कोशिश की गई (माउस जीनोम में लगभग 20k जीन हैं इसलिए डेटा की गतिशीलता 20k के बारे में सिद्धांत रूप में है; हालांकि एक आमतौर पर पीसीए के साथ आयाम को कम करने के साथ शुरू होता है 50 या इससे नीचे)। वे टी-एसएनई करते हैं और वे अलग-अलग क्लस्टरिंग करते हैं (एक जटिल क्लस्टरिंग पाइपलाइन जिसके बाद कुछ क्लस्टर मर्ज आदि होते हैं)। अंतिम परिणाम मनभावन लगता है:

यहाँ छवि विवरण दर्ज करें

यह इतना मनभावन लगने का कारण यह है कि t-SNE स्पष्ट रूप से अलग क्लस्टर बनाता है और क्लस्टरिंग एल्गोरिथ्म बिल्कुल उसी क्लस्टर का उत्पादन करता है। अच्छा लगा।

हालांकि, यदि आप पूरक में देखते हैं तो आप देखेंगे कि लेखकों ने कई अलग-अलग क्लस्टरिंग दृष्टिकोणों की कोशिश की। उनमें से कई टी-एसएनई भूखंड पर भयानक दिखते हैं क्योंकि उदाहरण के लिए बड़ा केंद्रीय क्लस्टर कई उप-समूहों में विभाजित हो जाता है:

यहाँ छवि विवरण दर्ज करें

तो आप क्या मानते हैं: अपने पसंदीदा क्लस्टरिंग एल्गोरिदम का उत्पादन, अपने पसंदीदा हेयरिस्टिक के साथ क्लस्टर की संख्या की पहचान करने के लिए, या आप टी-एसएनई प्लॉट पर क्या देखते हैं? ईमानदार होने के लिए, टी-एसएनई की सभी कमियों के बावजूद, मैं टी-एसएनई पर अधिक विश्वास करता हूं। या किसी भी मामले में, मैं यह नहीं देखता कि मुझे इसे कम क्यों मानना ​​चाहिए ।


2
और अंतिम उदाहरण के लिए, क्या यह अनिवार्य रूप से @ErichSchubert ऊपर नहीं देखा गया है: आप नेत्रहीन "मनभावन" परिणाम प्राप्त कर सकते हैं - जो स्पष्ट रूप से गलत हैं? 20 की खराबी के साथ के रूप में? कि tSNE अलग हिस्सों (मछली के रूप में) को पसंद करता है जो अलग नहीं थे? तो क्या आप जानते हैं कि आपके द्वारा देखे गए क्लस्टर वास्तव में अलग क्लस्टर हैं? मुझे यह "ब्लैक बॉक्स" पसंद नहीं है। हां, हम ऐसे भूखंडों पर अधिक विश्वास करते हैं , लेकिन अगर वे गलत हैं तो क्या होगा?
एनोनी-मौसे

1
खैर, tSNE NN आधारित है। इसके साथ एक समझौते की उम्मीद की जानी है। tSNE NN की कल्पना करने का एक अच्छा विकल्प है। हालांकि, यह समानता को अच्छी तरह से संरक्षित नहीं करता है, इसलिए इसे सावधानी के साथ व्याख्या किया जाना चाहिए, जैसा कि मैं समझता हूं। TSNE में एक अंतराल एक बड़ी दूरी नहीं है।
ऐनी-मूस

1
+1 जिज्ञासु कैसे UMAP t-SNE के साथ तुलना करता है।
पॉल

1
@Paul: लेखक गणना समय के संदर्भ में UMAP की श्रेष्ठता का दावा करता है, यह है। MNIST डेटासेट पर, मुझे लगता है कि UMAP टी-एसएनई की तुलना में बेहतर एम्बेडिंग उत्पन्न करता है, लेकिन अन्य डेटासेट पर निश्चित नहीं है। जहाँ तक मुझे जानकारी है, हाल ही में t-SNE का CUDA संस्करण है, जो पिछले सबसे तेज़ t-SNE की तुलना में बहुत तेज़ है, लेकिन मैं स्थापित और परीक्षण नहीं कर सका।
SiXUlm

1
@SiXUlm github.com/KlugerLab/FIt-SNE बार्न्स-हट टी- एसएनई की तुलना में बहुत तेजी से काम करता है और अक्सर यूएमएपी की तुलना में तेज होता है। इसके अलावा, कई मामलों में, कोई भी कुछ अतिरिक्त मोड़ का उपयोग करके टी-एसएनई के साथ बहुत समान एम्बेडिंग प्राप्त कर सकता है, उदाहरण के लिए एमएनआईएसटी पर टी-एसएनई छोटे अतिशयोक्ति पैदावार के साथ लगभग समान ही है, उदाहरण के लिए, एफआईटी-एसएनई भंडार में पायथन नोटबुक देखें।
अमीबा

6

मुझे लगता है कि बड़ी गड़बड़ी के साथ टी-एसएनई वैश्विक टोपोलॉजी को फिर से संगठित कर सकता है, जैसा कि https://distill.pub/2016/misread-tsne/ में बताया गया है

मछली की छवि से, मैंने टी-एसएनई के लिए 4000 अंक का नमूना लिया। एक बड़ी गड़बड़ी (2000) के साथ, मछली की छवि को लगभग पुनर्निर्माण किया गया था।

यहाँ मूल छवि है। मूल छवि

यहाँ प्रति-समरूपता = 2000 के साथ t-SNE द्वारा पुनर्निर्माण किया गया चित्र है। t-SNE का पुनर्निर्माण किया गया चित्र (perplexity = 2000)


8
यदि आप इस तरह की उच्च संभावनाएं चुनते हैं, तो यह वास्तव में अब tSNE नहीं है। हर बिंदु लगभग हर रोज़ पड़ोसी है। यह अब स्थानीय नहीं है। हां, एक 2d छवि को लगभग फिर से संगठित किया जा सकता है, क्योंकि यह 2d है। लेकिन पूरी बात करना आसान नहीं है।
ऐनी-मूस

1
मेरी राय यह है कि बड़ी चिंता के साथ tSNE वैश्विक टोपोलॉजी का पुनर्निर्माण कर सकता है। 2 डी छवि एक उदाहरण है क्योंकि इसकी आंतरिक गतिशीलता 2 है। tSNE का वास्तविक अनुप्रयोग स्थानीय या वैश्विक विशेषताओं को पकड़ने के उद्देश्य के अनुसार उचित गड़बड़ी का चयन करना चाहिए।
renxwise

1
इस उच्च का अर्थ है कि आप अत्यधिक बड़े "कर्नेल" का उपयोग करते हैं, और प्रभावी रूप से बस दूरियों का उपयोग करते हैं। इसके बाद संभावना लगभग अनुमानित और बहुत महंगी एमडीएस की है। बस एमडीएस का उपयोग करें। SNE / tSNE का उपयोग वास्तव में छोटी छोटी समस्याओं और स्थानीय पड़ोस के साथ किया जाना चाहिए ।
एरच Schubert

3
ठीक ठीक। जब गड़बड़ी काफी बड़ी है, तो tSNE वास्तव में MDS के लिए अनुमानित है, जो बताता है कि tSNE वैश्विक संरचना पर भी कब्जा कर सकता है। इस प्रकार, बयान कि tSNE केवल स्थानीय संरचनाओं को पकड़ सकता है सही नहीं हैं। MDS से भिन्न, tSNE स्थानीय और वैश्विक संरचनाओं के बीच संतुलन के चयन के माध्यम से संतुलन बना सकता है। जाहिर है, पेरीप्लेक्सिटी का चयन डेटासेट-डिपेंडेंट है।
renxwise

क्या प्रशंसनीय प्रासंगिकता को चुनने के लिए अंगूठे का कोई नियम है?
कैटबाइट्स

5

गणितीय प्रमाणों के आधार पर जो हमारे पास है, यह विधि तकनीकी रूप से दूरियों को संरक्षित कर सकती है! आप सभी इस सुविधा को अनदेखा क्यों करते हैं! t -SNE नमूनों के बीच उच्च-आयामी यूक्लिडियन दूरी को सशर्त संभावनाओं में परिवर्तित कर रहा है जो समानताओं का प्रतिनिधित्व करते हैं। मैंने 11,000 से अधिक नमूनों (जीनोमिक्स संदर्भ में) के साथ अलग-अलग आम सहमति क्लस्टरिंग एल्गोरिदम के साथ स्पेक्ट्रम की क्लस्टरिंग, एफ़िनिटी और महत्वपूर्ण रूप से जीएमएम क्लस्टरिंग (जो एक घनत्व आधारित क्लस्टरिंग एल्गोरिदम है) के साथ समानांतर में टी -एसएन की कोशिश की है । नतीजतन, मुझे दो दृष्टिकोणों ( टी) के बीच बहुत अच्छा समवर्ती परिणाम मिला-SNE बनाम सर्वसम्मति क्लस्टरिंग एल्गोरिदम)। मेरा मानना ​​है कि सर्वसम्मति से क्लस्टरिंग एल्गोरिदम के साथ टी-एसएनई को एकीकृत करना मौजूदा डेटा की स्थानीय और वैश्विक संरचनाओं का सबसे अच्छा सबूत प्रदान कर सकता है।


क्या ऐसे पैरामीटर हैं जो टी-एसएनई की दूरी को संरक्षित करने की संभावना को प्रभावित करेंगे?
कीथ ह्यूजिट

वे एल्गोरिथ्म क्लस्टरिंग सर्वसम्मति नहीं हैं। सर्वसम्मति क्लस्टरिंग एक प्रकार का एसेम्बल लर्निंग है जो अंतिम क्लस्टरिंग परिणाम प्राप्त करने के लिए मापदंडों या इनपुट डेटा में कुछ भिन्नता के साथ क्लस्टरिंग एल्गोरिथ्म को दोहराने के परिणामों को एकत्र करता है। आप वर्णक्रमीय क्लस्टरिंग या GMM या वास्तव में किसी भी क्लस्टरिंग एल्गोरिथ्म के साथ आम सहमति क्लस्टरिंग दृष्टिकोण का उपयोग कर सकते हैं, लेकिन आपकी शब्दावली में मेरी बात थोड़ी दूर है, यह सब है :)
क्रिस्टोफर जॉन

1

आप DBSCAN क्लस्टरिंग एल्गोरिदम की कोशिश कर सकते हैं। इसके अलावा, tsne की लंबाई सबसे छोटे अनुमानित क्लस्टर के समान आकार के बारे में होनी चाहिए।


0

व्यक्तिगत रूप से, मैंने इसे एक बार अनुभव किया है, लेकिन टी-एसएनई या पीसीए के साथ नहीं। मेरा मूल डेटा 15-आयामी स्थान में है। UMAP का उपयोग इसे 2 डी और 3 डी एम्बेडिंग में कम करने के लिए, मुझे 2 डी और 3 डी दोनों स्थानों पर 2 पूरी तरह से और नेत्रहीन अलग-अलग क्लस्टर मिले। इतना अच्छा कि यकीन करना मुश्किल है। लेकिन जब मैंने दृढ़ता आरेख के मूल डेटा पर "देखा", तो मैंने महसूस किया कि केवल 2 नहीं बल्कि बहुत अधिक "महत्वपूर्ण" क्लस्टर हैं।

आयाम में कमी तकनीक के उत्पादन पर क्लस्टरिंग बहुत सावधानी से की जानी चाहिए, अन्यथा कोई भी व्याख्या बहुत ही भ्रामक या गलत हो सकती है क्योंकि आयाम को कम करने से निश्चित रूप से सुविधा हानि (शायद शोर या सच्ची सुविधाएँ, लेकिन एक प्राथमिकता, हम डॉन करेंगे) t पता है जो)। मेरी राय में, आप समूहों पर भरोसा / व्याख्या कर सकते हैं, यदि:

  • अनुमानित डेटा में क्लस्टर कुछ वर्गीकरण के अनुरूप हैं / पुष्टि करते हैं, एक प्राथमिकताओं को परिभाषित करते हैं (MNIST डेटासेट के बारे में सोचें, जहां अनुमानित डेटा के क्लस्टर अंकों के वर्गीकरण के साथ बहुत अच्छी तरह से मेल खाते हैं), और / या,

  • आप अन्य डेटा का उपयोग करके मूल डेटा में इन समूहों की उपस्थिति की पुष्टि कर सकते हैं, जैसे दृढ़ता आरेख। केवल जुड़े घटकों की संख्या की गणना काफी उचित मात्रा में की जा सकती है।


आपने UMAP से अधिक "दृढ़ता आरेख" पर भरोसा क्यों किया? मुझे नहीं लगता कि दृढ़ता आरेख को "मूल डेटा को देखने" के रूप में वर्णित किया जा सकता है ...
अमीबा

तुम सही हो। दृढ़ता आरेख केवल मूल डेटा की कुछ विशेषताओं को दर्शाता है, सबसे अधिक बार, जुड़े घटकों, 1-आयामी छेद, और बहुत अधिक दुर्लभ, 2 या अधिक-आयामी छेद महंगी गणना के कारण। तो मुझे लगता है कि मैं केवल कर सकते हैं कहा जाना चाहिए था आंशिक रूप से इसी हठ चित्र को देखकर मूल डेटा पर "देखो"। लेकिन मैं भरोसा कर सकता हूं कि मैं इस दृढ़ता आरेख से क्या देखता हूं क्योंकि यह सीधे मूल डेटा से बनाया गया है।
SiXUlm 10

इसके विपरीत, UMAP या किसी अन्य आयाम में कमी तकनीकों का उपयोग करके, हम केवल मूल डेटा के अनुमानित / संशोधित संस्करण के साथ काम करते हैं। जैसा कि सबसे अधिक वोट किया गया जवाब बताया गया है, मापदंडों के विभिन्न विकल्पों के लिए क्लस्टरिंग अलग हो सकती है।
SiXUlm 10
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.