क्या ऐसे मामले हैं जहां पीसीए टी-एसएनई से अधिक उपयुक्त है?


39

मैं यह देखना चाहता हूं कि पाठ सुधार व्यवहार के 7 उपाय (पाठ को सही करने में लगने वाला समय, कीस्ट्रोक्स की संख्या आदि) एक-दूसरे से संबंधित हैं। उपाय सहसंबद्ध हैं। मैंने पीसीए को यह देखने के लिए चलाया कि कैसे उपायों को पीसी 1 और पीसी 2 पर पेश किया जाता है, जो उपायों के बीच अलग-अलग दो-तरफ़ा सहसंबंध परीक्षणों को चलाने के ओवरलैप से बचा जाता है।

मुझसे पूछा गया कि टी-एसएनई का उपयोग क्यों नहीं किया जा रहा है, क्योंकि कुछ उपायों के बीच संबंध गैर-रैखिक हो सकता है।

मैं देख सकता हूं कि गैर-रैखिकता के लिए अनुमति देने से इसमें कैसे सुधार होगा, लेकिन मुझे आश्चर्य है कि क्या इस मामले में पीसीए का उपयोग करने का कोई अच्छा कारण है और टी-एसएनई नहीं है? मैं ग्रंथों में उनके संबंधों के अनुसार उपायों को समझने में दिलचस्पी नहीं ले रहा हूं, बल्कि उपायों के बीच के संबंध में हूं।

(मुझे लगता है कि ईएफए एक बेहतर / एक अन्य दृष्टिकोण भी हो सकता है, लेकिन यह एक अलग चर्चा है।) अन्य तरीकों की तुलना में, टी-एसएनई के बारे में यहां कुछ पोस्ट हैं, इसलिए सवाल पूछने लायक लगता है।


3
t-SNE डेटासेट के आकार के साथ अच्छी तरह से स्केल नहीं करता है, जबकि PCA करता है। यह स्किकिट-लर्न कार्यान्वयन का उपयोग करके बड़े डेटासेट पर दोनों को चलाने में अनुभव से आता है।
माई

@ माई संभवतः बड़े डेटासेट पर लागू होती है? मेरा डेटासेट छोटी सी तरफ (कुछ सौ डेटा पॉइंट) है।
user3744206

जवाबों:


65

टीt -SNE मशीन लर्निंग का एक बड़ा टुकड़ा है, लेकिन इसके बजाय पीसीए का उपयोग करने के कई कारण मिल सकते हैं। मेरे सिर के शीर्ष पर, मैं पांच का उल्लेख करूंगा। उपयोग में अधिकांश अन्य कम्प्यूटेशनल पद्धतियों के रूप में, -SNE कोई चांदी की गोली नहीं है और इसके कुछ कारण हैं जो इसे कुछ मामलों में एक उप-अपनाने योग्य विकल्प बनाते हैं। मुझे संक्षेप में कुछ बिंदुओं का उल्लेख करना चाहिए:t

  1. अंतिम समाधान की स्थिरता । पीसीए निर्धारक है; -SNE नहीं है। एक को एक अच्छा विज़ुअलाइज़ेशन मिलता है और फिर उसके सहकर्मी को एक और विज़ुअलाइज़ेशन मिलता है और फिर वे कलात्मक हो जाते हैं जो बेहतर दिखता है और यदि में का अंतर सार्थक है ... PCA में सही उत्तर है सवाल खड़ा गारंटी है। -SNE में कई मिनीमा हो सकते हैं जो विभिन्न समाधानों को जन्म दे सकते हैं। यह कई रनों की आवश्यकता के साथ-साथ परिणामों की प्रतिलिपि प्रस्तुत करने की क्षमता पर भी सवाल उठाता है।0.03 % कश्मीर एल ( पी | | क्यू ) टीt0.03%KL(P||Q)t

  2. मानचित्रण की व्याख्या । यह उपरोक्त बिंदु से संबंधित है लेकिन मान लेते हैं कि एक टीम एक विशेष यादृच्छिक बीज / रन में सहमत हो गई है। अब सवाल यह है कि यह क्या दिखाता है ... -SNE केवल स्थानीय / पड़ोसियों को सही ढंग से मैप करने की कोशिश करता है ताकि उस एम्बेडिंग से हमारी अंतर्दृष्टि बहुत सतर्क हो; वैश्विक रुझानों का सही प्रतिनिधित्व नहीं किया जाता है (और यह संभवतः विज़ुअलाइज़ेशन के लिए एक बड़ी बात हो सकती है)। दूसरी ओर, पीसीए हमारे प्रारंभिक सहसंयोजक मैट्रिक्स का केवल एक विकर्ण रोटेशन है और आइजनवेक्टर हमारे मूल डेटा द्वारा फैलाए गए अंतरिक्ष में एक नई अक्षीय प्रणाली का प्रतिनिधित्व करते हैं। हम सीधे बता सकते हैं कि एक विशेष पीसीए क्या करता है।t

  3. नए / अनदेखी डेटा के लिए आवेदन । -SNE मूल स्थान से नए (निचले) आयामी एक के लिए एक फ़ंक्शन नहीं सीख रहा है और यह एक समस्या है। उस मामले पर, -SNE एक गैर-पैरामीट्रिक लर्निंग एल्गोरिदम है, इसलिए पैरामीट्रिक एल्गोरिथ्म के साथ सन्निकटन एक बीमार समस्या है। एम्बेडिंग को निम्न आयामी स्थान पर डेटा को सीधे स्थानांतरित करके सीखा जाता है। इसका मतलब है कि एक व्यक्ति को नए डेटा में उपयोग करने के लिए एक eigenvector या समान निर्माण नहीं मिलता है । इसके विपरीत, PCA का उपयोग करके eigenvectors एक नए अक्ष प्रणाली की पेशकश करते हैं जो सीधे नए डेटा को प्रोजेक्ट करने के लिए उपयोग किया जा सकता है। [स्पष्ट रूप से एक सीखने के लिए एक गहरे नेटवर्क के प्रशिक्षण की कोशिश कर सकताटी टीttt-SNE मैपिंग (आप इस पंक्तियों के साथ कुछ सुझाव देते हुए डॉ। वैन डेर मातेन को इस वीडियो के ~ 46 'पर सुन सकते हैं ) लेकिन स्पष्ट रूप से कोई आसान समाधान मौजूद नहीं है।]

  4. अधूरा डाटा । Natively -SNE अधूरे डेटा के साथ सौदा नहीं करता है। निष्पक्षता में, पीसीए उनके साथ या तो नहीं निपटता है लेकिन अधूरे डेटा के लिए पीसीए के कई एक्सटेंशन (उदाहरण के लिए। संभाव्य पीसीए ) बाहर हैं और लगभग मानक मॉडलिंग रूटीन हैं। -SNE वर्तमान में अपूर्ण डेटा को संभाल नहीं सकता है (एक तरफ स्पष्ट रूप से एक संभाव्य पीसीए को प्रशिक्षित कर रहा है और पीसी स्कोर को इनपुट के रूप में -SNE में पास कर रहा है)।टी टीttt

  5. (बहुत) छोटे मामला नहीं है। k -SNE भीड़ की समस्या के रूप में जानी जाने वाली समस्या को प्रभावी ढंग से हल करता है, जो उच्च आयाम में कुछ इसी तरह के बिंदुओं को कम आयामों में एक दूसरे के ऊपर गिरता है (अधिक यहां )। अब जैसे-जैसे आप आयाम बढ़ाते जाते हैं, वैसे-वैसे भीड़ की समस्या कम होती जाती है। आप जिस समस्या का समाधान करने की कोशिश कर रहे हैं वह -SNE के उपयोग के माध्यम से हो जाती है। आप इस मुद्दे पर काम कर सकते हैं लेकिन यह तुच्छ नहीं है। इसलिए यदि आप कोई जरूरत कम सेट के रूप में आयामी वेक्टर और नहीं है काफी छोटा समाधान उपज के optimality सवाल में है। दूसरी ओर प्रस्ताव हमेशा पर पीसीएt k k kttkkkविचरण के संदर्भ में सबसे अच्छा रेखीय संयोजन। (ध्यान देने के लिए @amoeba के लिए धन्यवाद जब मैंने पहली बार इस बिंदु को रेखांकित करने की कोशिश की तो गड़बड़ हो गई।)

मैं कम्प्यूटेशनल आवश्यकताओं (जैसे गति या स्मृति आकार) के बारे में मुद्दों का उल्लेख नहीं करता हूं और न ही प्रासंगिक हाइपरपामेटर्स (उदाहरण के लिए। प्रतिपलता) के चयन के बारे में। मुझे लगता है कि ये एसईएन कार्यप्रणाली के आंतरिक मुद्दे हैं और किसी अन्य एल्गोरिदम से तुलना करने पर यह अप्रासंगिक हैं।t

संक्षेप में, -SNE बहुत अच्छा है लेकिन जब इसकी प्रयोज्यता की बात आती है तो सभी एल्गोरिदम की अपनी सीमाएँ होती हैं। मैं लगभग किसी भी नए डेटासेट पर -SNE का उपयोग करता हूं, मुझे एक व्याख्यात्मक डेटा विश्लेषण उपकरण के रूप में मेरे हाथ मिलते हैं। मुझे लगता है कि हालांकि इसकी कुछ सीमाएँ हैं जो इसे लगभग पीसीए के रूप में लागू नहीं करती हैं। मुझे इस बात पर ज़ोर देना चाहिए कि पीसीए सही नहीं है; उदाहरण के लिए, PCA- आधारित विज़ुअलाइज़ेशन अक्सर -SNE के लोगों से कमतर होते हैं।टी टीttt


@ यामबा: मैंने इस बिंदु को हटा दिया क्योंकि यह बहुत श्रमसाध्य हो रहा था; मैं ज्यादातर के विचार से प्रेरित था, जब उच्च आयामों ( बजाय) का उपयोग करते हुए भीड़ की समस्या कम होती है, और इस तरह muddled अंतर्दृष्टि की पेशकश की, लेकिन मैंने उस बिंदु को मिलाया जो मैं था बनाने की कोशिश कर रहा है। इसके अलावा, LLE (रोविस एंड शाऊल, 2000) से पुनर्निर्माण संभव है, यह टी-एसएनई द्वारा क्यों संभव नहीं होगा? k = 2 , 3 , 4tk=2,3,4
us --r11852 का कहना है कि

@amoeba: इसका उल्लेख करने के लिए धन्यवाद। मैंने उसी हिसाब से अपना जवाब अपडेट किया।
us --r11852 का कहना है कि

3
अपनी बात # 3 के बारे में: यहां पैरामीट्रिक टी- स्नेड lvdmaaten.github.io/publications/papers/AISTATS_2009.pdf पर 2009 का पेपर है । ऐसा लगता है कि यह वास्तव में बंद नहीं हुआ था (इसमें मूल टी-स्नेन पेपर की तुलना में 25 गुना कम उद्धरण हैं), लेकिन वास्तव में आज की तकनीक / पुस्तकालयों के साथ इसे लागू करना काफी आसान है। मेरे पास यह है और केरस में चल रहा है; मैं पिछले हफ्तों में इसकी जांच कर रहा हूं (और संभवतः इसका विस्तार कर रहा हूं)।
अमीबा का कहना है कि मोनिका

ठंडा! (+1) यदि आपको एक अर्क्सिव प्री-प्रिंट फ़्लोटिंग मिलता है तो कृपया मुझे बताएं (यहां या 10-गुना), मैं परिणामों के बारे में बहुत उत्सुक हूं। हां, मैंने उस उत्तर को लिखने के समय उस कागज को देखा है (यह वास्तव में एक प्रसिद्ध पेपर है जो मैं कहूंगा) लेकिन जैसा कि आपने कहा था कि इस पर ध्यान नहीं दिया गया। इसके अलावा बिंदु # 3 पूरी तरह से वैध है: आपको एक मैट्रिक्स मैट्रिक्स के माध्यम से कुछ पीसीए प्रदान करने के लिए DNN बनाने की आवश्यकता है।
us --r11852 का कहना है कि

12

https://stats.stackexchange.com/a/249520/7828

एक उत्कृष्ट सामान्य उत्तर है।

मैं आपकी समस्या पर थोड़ा और ध्यान देना चाहता हूं। आप स्पष्ट रूप से यह देखना चाहते हैं कि आपके नमूने आपके 7 इनपुट चर के संबंध में कैसे संबंधित हैं। यह ऐसा कुछ है जो एसएनई नहीं करता है। एसएनई और टी-एसएनई का विचार पड़ोसियों को एक दूसरे के करीब रखना है, (लगभग) पूरी तरह से वैश्विक संरचना की अनदेखी कर रहा है।

यह विज़ुअलाइज़ेशन के लिए उत्कृष्ट है, क्योंकि इसी तरह की वस्तुओं को एक दूसरे के बगल में प्लॉट किया जा सकता है (और एक दूसरे के ऊपर नहीं, सीएफ भीड़)।

यह आगे के विश्लेषण के लिए अच्छा नहीं है। वैश्विक संरचना खो गई है, कुछ वस्तुओं को उनके पड़ोसियों के पास जाने से रोका जा सकता है, और विभिन्न समूहों के बीच अलगाव को मात्रात्मक रूप से संरक्षित नहीं किया जाता है। जो बड़े पैमाने पर है इसलिए जैसे प्रक्षेपण पर क्लस्टरिंग आमतौर पर बहुत अच्छी तरह से काम नहीं करता है।

पीसीए काफी विपरीत है। यह वैश्विक गुणों (उच्च विचरण वाले आइजनवेक्टर) को संरक्षित करने की कोशिश करता है, जबकि यह पड़ोसियों के बीच कम विचलन विचलन खो सकता है।


आह, ठीक यही मैंने मान लिया। मुझे इस बात में कोई दिलचस्पी नहीं है कि अंतरिक्ष में डेटा बिंदु कैसे स्थित हैं, बल्कि इस बात पर कि कैसे उपाय स्वयं एक-दूसरे से संबंधित हैं। ये दो चीजें जुड़ी हुई हैं, लेकिन इन रिश्तों की कल्पना और व्याख्या करने के मामले में, मुझे केवल पीसीए पर संदेह है कि मुझे क्या चाहिए। उदाहरण के लिए, दोनों उपायों के बीच सकारात्मक और नकारात्मक संबंध हैं और जिन चीज़ों में मुझे वास्तव में दिलचस्पी है, वे संघों के निरपेक्ष मूल्य हैं, जो मुझे लगता है कि पीसीए का उपयोग करने पर व्याख्या / देखना आसान है।
user3744206

1
उस उपयोग के मामले के लिए यह सहसंबंध मैट्रिक्स को देखने के लिए बेहतर हो सकता है, अर्थात केवल जोड़ीदार तुलना करते हैं। तो आप भी nonlinearity संभाल कर सकते हैं, जैसे भाला सहसंबंध का उपयोग करके।
एनोनी-मूस

क्या हम क्लस्टर समस्याओं के लिए T-SNE का उपयोग कर सकते हैं? जहां तक ​​मैं समझता हूं, हम एक नए आने वाले बिंदु को प्रोजेक्ट कर सकते हैं और निचले आयामों पर क्लस्टर करने का प्रयास कर सकते हैं? क्या यह संभव है ?
कैटबाइट्स

नहीं, क्योंकि tSNE रैखिक नहीं है आप इसे नए डेटा के लिए गणना नहीं कर सकते (ऊपर देखें)। और इस बात पर चर्चा हुई कि यह अनुमानित आंकड़ों को जोड़ने के लिए भ्रामक हो सकता है।
एनोनी-मूस

1

एक लागू कोण देने के लिए, PCA और t-SNE परस्पर अनन्य नहीं हैं। जीव विज्ञान के कुछ क्षेत्रों में, हम अत्यधिक आयामी डेटा (जैसे scRNA-seq हजारों आयाम हैं) के साथ काम कर रहे हैं, जहां t-SNE बस स्केल नहीं करता है। इसलिए, हम पहले डेटा की गतिशीलता को कम करने के लिए पीसीए का उपयोग करते हैं और फिर, शीर्ष सिद्धांत घटकों को लेते हुए, हम पड़ोस ग्राफ की गणना करते हैं और फिर टी-एसएनई (या इसी तरह के गैर-रेखीय आयामीता कमी दृष्टिकोण) का उपयोग करके ग्राफ को 2-आयामों में एम्बेड करते हैं। UMAP की तरह) डेटा की कल्पना करने के लिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.