क्या विज़ुअलाइज़ेशन के लिए आयामी कमी को "बंद" समस्या माना जाना चाहिए, जो टी-एसएनई द्वारा हल किया गया है?


23

मैं - एल्गोरिथ्म के बारे में बहुत कुछ पढ़ रहा हूँ आयामीता में कमी। मैं एमएनआईएसटी जैसे "क्लासिक" डेटासेट पर प्रदर्शन से बहुत प्रभावित हूं, जहां यह अंकों के स्पष्ट पृथक्करण को प्राप्त करता है ( मूल लेख देखें ):टी

t-SNE MNIST

मैंने इसका उपयोग एक तंत्रिका नेटवर्क द्वारा सीखी गई सुविधाओं की कल्पना करने के लिए भी किया है जो मैं प्रशिक्षण दे रहा हूं और मैं परिणामों से बहुत प्रसन्न हूं।

इसलिए, जैसा कि मैं इसे समझता हूं:

टी -sne के अधिकांश डेटासेट पर अच्छे परिणाम हैं, और बार्न्स-हट सन्निकटन विधि के साथ एक बहुत ही कुशल कार्यान्वयन है - । फिर, क्या हम संभावित रूप से कह सकते हैं कि "आयामी कमी" समस्या, कम से कम अच्छा 2D / 3D विज़ुअलाइज़ेशन बनाने के उद्देश्य से, अब "बंद" समस्या है?हे(nलॉगn)

मुझे पता है कि यह एक बहुत ही साहसिक कथन है। मुझे यह समझने में दिलचस्पी है कि इस पद्धति के संभावित "नुकसान" क्या हैं। यही है, क्या ऐसे कोई मामले हैं जिनमें हम जानते हैं कि यह उपयोगी नहीं है? इसके अलावा, इस क्षेत्र में "खुले" समस्याएं क्या हैं?

जवाबों:


16

निश्चित रूप से नहीं।

मैं सहमत हूं कि टी-एसएनई एक अद्भुत एल्गोरिथ्म है जो बहुत अच्छी तरह से काम करता है और उस समय एक वास्तविक सफलता थी। तथापि:

  • इसमें गंभीर कमियां हैं;
  • कुछ कमियाँ हल होनी चाहिए;
  • पहले से ही एल्गोरिदम हैं जो कुछ मामलों में बेहतर प्रदर्शन करते हैं;
  • कई टी-एसएनई के गुण अभी भी खराब समझे जाते हैं।

किसी को टी-एसएनई की कुछ कमियों के इस बहुत लोकप्रिय खाते से जोड़ा गया: https://distill.pub/2016/misread-tsne/ (+1), लेकिन यह केवल बहुत ही सरल खिलौना डेटासेट पर चर्चा करता है और मुझे लगता है कि यह अनुरूप नहीं है वास्तविक दुनिया के डेटा पर टी-एसएनई और संबंधित एल्गोरिदम के साथ काम करते समय समस्याओं का सामना करना पड़ता है। उदाहरण के लिए:

  1. t-SNE अक्सर डेटासेट की वैश्विक संरचना को संरक्षित करने में विफल रहता है;
  2. टी SNE जब से "भीड़भाड़" पीड़ित आदत से ऊपर बढ़ता है ~ 100k;एन
  3. बार्न्स-हट रनटाइम बड़े लिए बहुत धीमा है ।एन

मैं संक्षेप में नीचे तीनों पर चर्चा करूंगा।


  1. t-SNE अक्सर डेटासेट की वैश्विक संरचना को संरक्षित करने में विफल रहता है।

    एलन इंस्टीट्यूट (माउस कॉर्टिकल सेल्स) से इस एकल कोशिका RNA-seq डेटासेट पर विचार करें: http://celltypes.brain-map.org/rnaseq/mouse । इसकी ~ 23k कोशिकाएँ हैं। हम एक प्राथमिकता जानते हैं कि इस डेटासेट में बहुत सी सार्थक पदानुक्रमित संरचना है, और इसकी पुष्टि पदानुक्रमित क्लस्टरिंग द्वारा की जाती है। इसमें न्यूरॉन्स और गैर-तंत्रिका कोशिकाएं (ग्लिया, एस्ट्रोसाइट्स, आदि) हैं। न्यूरॉन्स के बीच, उत्तेजक और निरोधात्मक न्यूरॉन्स हैं - दो बहुत अलग समूह। उदाहरण के लिए, निरोधात्मक न्यूरॉन्स में, कई प्रमुख समूह हैं: पावेलब-एक्सप्रेसिंग, एसएसटी-एक्सप्रेसिंग, वीआईपी-एक्सप्रेसिंग। इनमें से किसी भी समूह में, आगे कई समूह प्रतीत होते हैं। यह पदानुक्रमित क्लस्टरिंग पेड़ में परिलक्षित होता है। लेकिन यहां ऊपर दिए गए लिंक से लिया गया t-SNE है:

    यहाँ छवि विवरण दर्ज करें

    गैर-तंत्रिका कोशिकाएं ग्रे / भूरे / काले रंग में होती हैं। उत्तेजक न्यूरॉन्स नीले / चैती / हरे रंग में होते हैं। निरोधात्मक न्यूरॉन्स नारंगी / लाल / बैंगनी में होते हैं। कोई चाहेगा कि ये प्रमुख समूह एक साथ रहें, लेकिन ऐसा नहीं होता है: एक बार टी-एसएनई एक समूह को कई समूहों में अलग कर देता है, वे अंत में मनमाने ढंग से तैनात किए जा सकते हैं। डेटासेट की पदानुक्रमित संरचना खो गई है।

    मुझे लगता है कि यह एक हल करने योग्य समस्या होनी चाहिए, लेकिन मुझे इस दिशा में कुछ हालिया काम करने के बावजूद (अपने खुद के सहित) किसी अच्छे राजसी घटनाक्रम के बारे में पता नहीं है।

  2. टी SNE से "भीड़भाड़" पीड़ित जाता है जब से ऊपर बढ़ता है ~ 100kएन

    t-SNE MNIST डेटा पर बहुत अच्छी तरह से काम करता है। लेकिन इस पर विचार करें ( इस कागज से लिया गया है ):

    यहाँ छवि विवरण दर्ज करें

    1 मिली डेटा बिंदुओं के साथ, सभी क्लस्टर एक साथ टकरा जाते हैं (इसका सटीक कारण बहुत स्पष्ट नहीं है) और काउंटर-बैलेंस का एकमात्र ज्ञात तरीका कुछ गंदे हैक के साथ है जैसा कि ऊपर दिखाया गया है। मैं अनुभव से जानता हूं कि ऐसा ही अन्य बड़े डेटासेट के साथ भी होता है।

    कोई यकीनन इसे MNIST (N = 70k) के साथ देख सकता है। जरा देखो तो:

    यहाँ छवि विवरण दर्ज करें

    दाईं ओर t-SNE है। बाईं ओर UMAP , सक्रिय विकास के तहत एक नया रोमांचक तरीका है, जो कि पुराने लार्जविस के समान है । UMAP / लार्जविस क्लस्टर को बहुत आगे तक खींचते हैं। इसका सटीक कारण IMHO अस्पष्ट है; मैं कहूंगा कि यहां अभी भी बहुत कुछ समझना बाकी है, और संभवतः बहुत कुछ सुधार करना है।

  3. बार्न्स-हट रनटाइम बड़े लिए बहुत धीमा हैएन

    वेनिला टी-एसएनई लिए अनुपयोगी है ~ 10k। हाल ही में बार्न्स-हट टी- एसएनई तक मानक समाधान, हालांकि करीब ~ 1ml के लिए यह दर्दनाक रूप से धीमा हो जाता है। यह यूएमएपी के बड़े विक्रय बिंदुओं में से एक है, लेकिन वास्तव में हाल ही में एक पत्र ने एफएफटी-त्वरित टी- एसएनई (एफआईटी-एसएनई) का सुझाव दिया है जो बार्न्स-हट टी-एसएनई की तुलना में बहुत तेज काम करता है और कम से कम यूएमएपी के रूप में तेज है। मैं हर किसी को अभी से इस कार्यान्वयन का उपयोग करने की सलाह देता हूं ।एनएन

    यहाँ छवि विवरण दर्ज करें

    तो यह अब बिल्कुल एक खुली समस्या नहीं हो सकती है, लेकिन यह बहुत हाल तक हुआ करती थी, और मुझे लगता है कि रनटाइम में और सुधार की गुंजाइश है। तो निश्चित रूप से इस दिशा में काम जारी रह सकता है।


7

टी-एसएनई को चलाने के दौरान मापदंडों को अलग-अलग करने का एक उत्कृष्ट विश्लेषण यहां कुछ बहुत ही सरल डेटासेट को प्रभावित करता है: http://distill.pub/2016/misread-tsne/ । सामान्य तौर पर, टी-एसएनई उच्च-आयामी संरचनाओं (गुच्छों की तुलना में अधिक जटिल संबंधों सहित) को पहचानने में अच्छा लगता है, हालांकि यह पैरामीटर ट्यूनिंग, विशेष रूप से प्रासंगिकता मूल्यों के अधीन है।


7

मैं अभी भी अन्य टिप्पणियों को सुनना पसंद करूंगा, लेकिन मैं अपना उत्तर अभी के लिए पोस्ट करूंगा, जैसा कि मैं देख रहा हूं। जब मैं अधिक "व्यावहारिक" उत्तर की तलाश कर रहा था, तो टी-स्नेन के लिए दो सैद्धांतिक "डिस-फायदे" हैं जो ध्यान देने योग्य हैं; पहले वाला कम समस्याग्रस्त है, और दूसरा निश्चित रूप से माना जाना चाहिए:

  1. t-sne लागत फ़ंक्शन उत्तल नहीं है, इसलिए हमें एक वैश्विक इष्टतम तक पहुंचने की गारंटी नहीं है : अन्य आयामी कमी तकनीक (Isomap, LLE) में एक उत्तल लागत फ़ंक्शन है। टी-स्नेन में यह मामला नहीं है, इसलिए कुछ अनुकूलन पैरामीटर हैं जिन्हें "अच्छे" समाधान तक पहुंचने के लिए प्रभावी ढंग से ट्यून करने की आवश्यकता है। हालांकि, हालांकि एक संभावित सैद्धांतिक नुकसान, यह ध्यान देने योग्य है कि व्यवहार में यह शायद ही एक पतन है, क्योंकि ऐसा लगता है कि टी-स्नेन एल्गोरिदम के "स्थानीय न्यूनतम" भी बेहतर प्रदर्शन करते हैं (बेहतर दृश्य बनाते हैं) तो अन्य तरीकों का वैश्विक न्यूनतम। ।

  2. आंतरिक गतिशीलता का अभिशाप : t-sne का उपयोग करते समय ध्यान रखने वाली एक महत्वपूर्ण बात यह है कि यह अनिवार्य रूप से कई गुना सीखने वाला हैकलन विधि। अनिवार्य रूप से, इसका मतलब है कि टी-स्नेन (और इस तरह के अन्य तरीके) उन स्थितियों में काम करने के लिए डिज़ाइन किए गए हैं जिनमें मूल उच्च आयामी केवल कृत्रिम रूप से उच्च है: डेटा के लिए एक आंतरिक निचला आयाम है। यानी, कम आयामी कई गुना पर डेटा "बैठता है"। मन में होने का एक अच्छा उदाहरण एक ही व्यक्ति की लगातार तस्वीरें हैं: जबकि मैं प्रत्येक छवि को पिक्सेल (उच्च-आयाम) की संख्या में प्रदर्शित कर सकता हूं, डेटा की आंतरिक गतिशीलता वास्तव में अंकों के भौतिक परिवर्तन से बंधी है (में) इस मामले में, सिर का 3 डी घुमाव)। ऐसे मामलों में t-sne अच्छा काम करता है। लेकिन ऐसे मामलों में जहां आंतरिक आयामीता अधिक होती है, या डेटा बिंदु अत्यधिक भिन्न-भिन्न गुना पर बैठते हैं, टी-स्ने से बुरी तरह से प्रदर्शन करने की उम्मीद की जाती है, क्योंकि यह सबसे बुनियादी धारणा है - कई गुना पर स्थानीय रैखिकता - का उल्लंघन किया जाता है।

व्यावहारिक उपयोगकर्ता के लिए, मुझे लगता है कि यह दो उपयोगी सुझावों को ध्यान में रखता है:

  1. विज़ुअलाइज़ेशन के तरीकों के लिए आयाम में कमी करने से पहले, हमेशा यह पता लगाने की कोशिश करें कि क्या वास्तव में डेटा से कम आंतरिक आयाम मौजूद है।

  2. यदि आप 1 (और आम तौर पर) के बारे में निश्चित नहीं हैं, तो यह उपयोगी हो सकता है, जैसा कि मूल लेख बताता है, "एक मॉडल से प्राप्त डेटा प्रतिनिधित्व पर टी-स्नेन करने के लिए जो एक संख्या में कुशलता से कई गुना भिन्न डेटा का प्रतिनिधित्व करता है। नॉनलाइनर लेयर्स जैसे कि एक ऑटो-एनकोडर "। तो ऐसे मामलों में ऑटो-एनकोडर + टी-एसएन का संयोजन एक अच्छा समाधान हो सकता है।


हाय @ galoosh33! अगर आप पहले से ही मेरे जवाब पर एक नज़र डालने का मौका था तो मैं सोच रहा हूं। क्या यह मददगार था? मुझे कोई अंदाजा नहीं है अगर आप इस सवाल को पूछने के बाद भी इस 1.5 साल में रुचि रखते हैं, तो मैं कुछ प्रतिक्रिया की सराहना करूंगा ... अपने स्वयं के स्वीकृत जवाब में आप कहते हैं कि आप अभी भी आगे के विचार सुनना पसंद करेंगे, लेकिन यह भी कुछ था समय से पहले :)
अमीबा

1
आपके महान उत्तर @amoeba के लिए धन्यवाद! मैं इस सप्ताह के अंत में इसकी समीक्षा करूंगा।
गैलोज़ 33
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.