टी-एसएनई भ्रामक कब है?


37

लेखकों में से एक से उद्धरण:

टी-डिस्ट्रिब्यूटेड स्टॉचस्टिक नेबर एंबेडिंग (टी-एसएनई) आयामीता में कमी के लिए एक ( पुरस्कार विजेता ) तकनीक है जो विशेष रूप से उच्च-आयामी डेटासेट के विज़ुअलाइज़ेशन के लिए अनुकूल है।

तो यह बहुत अच्छा लगता है, लेकिन यह लेखक की बात कर रहा है।

लेखक का एक और उद्धरण (पुन: उपरोक्त प्रतियोगिता):

आपने इस प्रतियोगिता से क्या लिया है?
डेटा पर भविष्यवाणियों को प्रशिक्षित करने से पहले, हमेशा अपने डेटा की कल्पना करें! अक्सर, विज़ुअलाइज़ेशन जैसे कि मैंने जो डेटा बनाया है वह डेटा वितरण में अंतर्दृष्टि प्रदान करता है जो आपको यह निर्धारित करने में मदद कर सकता है कि किस प्रकार के भविष्यवाणी मॉडल का प्रयास करें।

सूचना 1 खो जाना चाहिए - यह एक आयामी कमी तकनीक है। हालाँकि, जब यह कल्पना करने के लिए उपयोग करने के लिए एक अच्छी तकनीक है, तो खोई गई जानकारी उजागर (/ 2 या 3 आयामों में कमी के माध्यम से दिखाई / समझ में आने योग्य) की तुलना में कम मूल्यवान है।

तो मेरा सवाल है:

  • जब tSNE नौकरी के लिए गलत उपकरण है?
  • किस प्रकार के डेटासेट इसके कारण कार्य नहीं करते हैं,
  • यह किस तरह के सवालों के जवाब की तरह दिखता है, लेकिन यह वास्तव में नहीं हो सकता है?
  • ऊपर दिए गए दूसरे उद्धरण में हमेशा अपने डेटासेट की कल्पना करने की सिफारिश की जाती है, क्या यह दृश्य हमेशा tSNE के साथ होना चाहिए?

मुझे उम्मीद है कि इस सवाल का उत्तर सबसे अच्छा हो सकता है, अर्थात उत्तर में: जब tSNE नौकरी के लिए सही उपकरण है?


मुझे सावधान किया गया है कि tSNE पर भरोसा न करने के लिए मुझे बताएं कि डेटा कितना आसान वर्गीकृत किया जाएगा (वर्गों में अलग - एक भेदभावपूर्ण मॉडल) यह भ्रामक होने का उदाहरण था, कि नीचे की दो छवियों के लिए, एक सामान्य मॉडल 2 बदतर था पहले / बाएं (सटीकता 53.6%) में दूसरे / दाएं (सटीकता 67.2%) के बराबर डेटा की कल्पना के लिए।

प्रथम दूसरा


1 मैं इस बारे में गलत हो सकता हूं कि मैं बैठ सकता हूं और बाद में एक सबूत / काउंटर उदाहरण पर कोशिश कर सकता हूं

2 ध्यान दें कि एक जेनेरिक मॉडल एक भेदभावपूर्ण मॉडल के समान नहीं है, लेकिन यह वह उदाहरण है जो मुझे दिया गया था।


1
आपके कथन के बारे में कि "जानकारी गुम हो जानी चाहिए": सेट और बीच एक विशेषण मानचित्रण मौजूद है अगर और केवल अगर उनकी कार्डिनैलिटी सहमत है, तो। और हमारे पास, उदाहरण के लिए, और ( यहां देखें )। है यही कारण है कि, सिद्धांत रूप में हम में अधिक से अधिक जानकारी के रूप में रटना कर सकते हैं में के रूप में । AB|A|=|B||N|=|Nn|=0|R|=|R|=|Rn|=1R2R
लुकास

@ लुकास: आह, इन-कोर्स। (मुझे इसका एहसास कैसे नहीं हुआ)
लिंडन व्हाइट

आप कौन सा जेनरिक मॉडल आज़मा रहे हैं?
वीचिंग लिन

@ वी-चिंगलिन मुझे यकीन नहीं है कि किस तरह के जेनरिक मॉडल का इस्तेमाल किया जा रहा था। संभवत: किसी प्रकार का डीप विश्वास नेटवर्क, डीप बोल्ट्जमैन मंचाइन या ऑटोकेनोडर। वास्तव में सवाल के दिल के लिए प्रासंगिक नहीं
लिंडन व्हाइट

2
प्रासंगिक: distill.pub/2016/misread-tsne
Lyndon White

जवाबों:


13

टी-स्नेन एक कमी तकनीक है जो अंतरिक्ष के छोटे पैमाने की संरचना (अर्थात क्या विशेष रूप से करीब है) को बनाए रखती है, जो डेटा पृथक्करण की कल्पना करने में बहुत अच्छा बनाती है। इसका मतलब है कि टी-स्नेन डेटा पृथक्करण की डिग्री को समझने में सक्षम शुरुआती विज़ुअलाइज़ेशन के लिए विशेष रूप से उपयोगी है। अन्य तकनीकों (उदाहरण के लिए पीसीए) आयामों के गायब होने के रूप में एक दूसरे के शीर्ष पर अनुमानित कम आयामी अभ्यावेदन में डेटा छोड़ते हैं, जिससे उच्च आयामी अंतरिक्ष में पृथक्करण के बारे में कोई स्पष्ट बयान देना बहुत मुश्किल हो जाता है।

उदाहरण के लिए, यदि आपको ओवरलैपिंग डेटा के साथ एक टी-स्नेन ग्राफ मिलता है, तो संभावनाएं अधिक हैं कि आपका क्लासिफायर खराब प्रदर्शन करेगा, चाहे आप कुछ भी करें। इसके विपरीत, यदि आप टी-स्नेन ग्राफ में स्पष्ट रूप से अलग किए गए डेटा को देखते हैं, तो अंतर्निहित, उच्च-आयामी डेटा में एक अच्छा क्लासिफायरियर बनाने के लिए पर्याप्त परिवर्तनशीलता है।


3
यह एक बहुत अच्छी व्याख्या है कि टी-एसएनई क्या है, धन्यवाद। लेकिन मैं अपने वास्तविक सवालों के जवाब नहीं देख रहा हूं (शुरुआती पोस्ट में डॉट बिंदु देखें।)
लिंडन व्हाइट

5
यह प्रश्न का उत्तर नहीं देता है।
अमीबा का कहना है कि

10

बॉक्स से बाहर, tSNE में कुछ हाइपरपरमेटर्स हैं, जिनमें से एक मुख्य है। याद रखें कि heuristically, perplexity tSNE के लिए समानता की धारणा को परिभाषित करता है और सभी डेटा-पॉइंट के लिए एक सार्वभौमिक perplexity का उपयोग किया जाता है। आप एक लेबल डेटासेट उत्पन्न करने की कोशिश कर सकते हैं जहाँ प्रत्येक क्लस्टर में बेतहाशा भिन्नता होती है। यह विभिन्न भिन्नताओं की एक विस्तृत श्रृंखला के साथ, गाऊसी का मिश्रण करके पूरा किया जा सकता है। मैं यह अनुमान लगा रहा हूँ कि यह बार्न्स-हट के tSNE के कार्यान्वयन में भी समस्याएँ पैदा करेगा, जो डेटा को क्वैर्ट करने और केवल निकटतम पड़ोसियों का उपयोग करने पर निर्भर करता है। tSNE में एक प्रारंभिक छूट अवधि भी होती है, जो एक दूसरे के माध्यम से गुच्छों को पारित करने का प्रयास करती है। इस अवधि के दौरान, कोई दंड या प्रतिकर्षण नहीं है। इसलिए, उदाहरण के लिए, यदि आपका डेटा नूडल्स का मैटेड क्लम्प दिखता है (प्रत्येक नूडल किसी दिए गए क्लस्टर का प्रतिनिधित्व करता है), तो आप ' फिर से एक कठिन समय के माध्यम से प्रारंभिक पास कैलिब्रेट करना है, और मुझे संदेह है कि tSNE अच्छी तरह से काम करेगा। कुछ अर्थों में मुझे लगता है कि यह संकेत है कि tSNE अच्छी तरह से काम नहीं करेगा यदि आपका डेटा एक साथ बुना हुआ है और शुरू में कम आयामी स्थान पर रहता है, तो 5 कहें।

सामान्य तौर पर "t" भाग के कारण tSNE अच्छा है , जो उच्च आयामों की तुलना में कम आयामी स्थानों में अंतरिक्ष बिंदुओं के SNE में एक उत्कृष्ट मुद्दे को हल करता है। यह पता चला है कि औसत आयामों में डेटा बिंदुओं का अंतर कम आयामों से पूरी तरह से अलग व्यवहार करता है। विशेष रूप से, tSNE गॉसमियंस का उपयोग कम आयामों में दूरियां मापने के लिए करता है, एक आयामी डिस्ट्रीब्यूशन (यानी कॉची डिस्ट्रीब्यूशन) के लिए विरोध करने की बजाय, जिसमें टेंपर टेल होती है और जो लोवर डायमेंशनल प्रतिनिधित्व में अधिक फैलता है। तो निश्चित रूप से tSNE में "t" भी एक हाइपरपैरमीटर हो सकता है, जहां इसके बजाय आप विभिन्न वितरण (उच्च कम्प्यूटेशनल लागत पर शुल्क) का चयन कर सकते हैं।t

आपको tSNE को क्लस्टरिंग की एक अनसुनी विधि के रूप में सोचना चाहिए, और इस तरह से यह सोचने का शून्य कारण है कि यह काम का एकमात्र उपकरण है। मुझे लगता है कि कुल मिलाकर यह एक शानदार उपकरण हो सकता है यदि सही तरीके से कैलिब्रेट किया गया हो। लेकिन यह बड़े डेटासेट पर काफी धीमी है और आप बेहतर में से कुछ अनुकूलित प्रपत्र का उपयोग बंद हो सकता है उदाहरण के लिए -means, या यहाँ तक कि पीसीए, कैसे विरल डेटा है पर निर्भर करता है।k

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.