टी-एसएनई का उपयोग क्लस्टरिंग या वर्गीकरण के लिए एक आयामी कमी तकनीक के रूप में क्यों नहीं किया जाता है?


34

एक हालिया असाइनमेंट में, हमें कहा गया था कि पीसीए का उपयोग एमएनआईएसटी अंकों पर 64 (8 x 8 चित्र) से आयामों को कम करने के लिए 2. हम फिर एक गाऊसी मिक्सचर मॉडल का उपयोग करके अंकों को क्लस्टर करना था। पीसीए केवल 2 प्रमुख घटकों का उपयोग करके अलग-अलग समूहों का उत्पादन नहीं करता है और परिणामस्वरूप मॉडल उपयोगी समूहों का उत्पादन करने में सक्षम नहीं है।

हालांकि, 2 घटकों के साथ टी-एसएनई का उपयोग करते हुए, क्लस्टर बेहतर ढंग से अलग हो जाते हैं। गौसियन मिक्सचर मॉडल टी-एसएनई घटकों पर लागू होने पर अधिक विशिष्ट क्लस्टर बनाता है।

पीसीए में 2 घटकों के साथ अंतर और 2 घटकों के साथ टी-एसएनई को निम्न जोड़ी छवियों में देखा जा सकता है जहां एमएनआईएसटी डेटासेट में परिवर्तन लागू किए गए हैं।

MNIST पर पी.सी.ए.

MNIST पर t-SNE

मैंने पढ़ा है कि टी-एसएनई का उपयोग केवल उच्च आयामी डेटा के विज़ुअलाइज़ेशन के लिए किया जाता है, जैसे कि इस उत्तर में , फिर भी इसे दिए जाने वाले अलग-अलग समूहों को देखते हुए, इसका उपयोग एक आयामी कमी तकनीक के रूप में क्यों नहीं किया जाता है, जो तब वर्गीकरण मॉडल या के रूप में उपयोग किया जाता है। एक स्टैंडअलोन क्लस्टरिंग विधि?


2
क्या आपका मतलब वर्गीकरण या क्लस्टरिंग है? शीर्षक कहता है कि क्लस्टरिंग लेकिन पोस्ट का कहना है कि वर्गीकरण।
us --r11852 का कहना है कि

उसके लिए माफ़ करना। मैं जानना चाहता हूं कि इसका उपयोग क्लस्टरिंग तकनीक के रूप में या वर्गीकरण के लिए एक आयामी कमी तकनीक के रूप में क्यों नहीं किया जाता है। मैंने इसे प्रतिबिंबित करने के लिए संपादन किया है।
विस्कॉ

संयोग से पर्याप्त है, हाल ही में जारी एक पेपर दहन प्रक्रियाओं को लेबल करने के लिए टी-एसएनई और एक अनपेचुरेटेड क्लस्टरिंग एल्गोरिदम का उपयोग करता है।
tpg2114

2
आपके द्वारा लिंक किया गया उत्तर दर्शाता है कि tSNE कितना भ्रामक हो सकता है। आप उस भूखंड में क्लस्टर देखते हैं जो डेटा में मौजूद नहीं है। यदि आपके पास लेबल नहीं है तो यह हानिकारक है। और MNIST डेटा से बहुत अधिक निष्कर्ष न निकालें। यह एक बहुत अच्छी तरह से व्यवहार किया डेटा सेट है ...
Anony-Mousse

1
मैंने इस लेख को t-SNE और इसकी कमियां समझाने में मददगार पाया है । इसमें बहुत सारे इंटरैक्टिव विज़ुअलाइज़ेशन हैं जो मुख्य बिंदुओं पर जोर देने में मदद करते हैं।
1

जवाबों:


33

टीटी

टीटी -SNE पेपर) के काम किया जा रहा है, लेकिन इस कार्य को (गहरे) के अस्तित्व से अलग कर दिया गया है ऑटोसेनोडर्स । Autoencoders को classifiers (विशेष रूप से DNN) के लिए इनपुट / प्री-प्रोसेसर के रूप में उपयोग करना शुरू कर रहे हैं, क्योंकि वे प्रशिक्षण में बहुत अच्छा प्रदर्शन करते हैं और साथ ही नए डेटा के लिए स्वाभाविक रूप से सामान्यीकृत करते हैं।

टीटी -SNE आउटपुट काफी मददगार हो सकता है। इन उपयोग मामलों में समस्या यह है कि कुछ लोग क्लस्टर प्लेसमेंट में पढ़ने की कोशिश कर सकते हैं और न केवल क्लस्टर सदस्यता के लिए। जैसे-जैसे वैश्विक दूरियां खत्म होती जा रही हैं, क्लस्टर प्लेसमेंट से निष्कर्ष निकालना फर्जी अंतर्दृष्टि पैदा कर सकता है। ध्यान दें कि बस यह कह रहा है: " अरे, हमने सभी 1s क्लस्टर को एक साथ पाया " महान मूल्य प्रदान नहीं करता है यदि वे यह नहीं कह सकते हैं कि वे क्या से दूर हैं। अगर हम सिर्फ खोजने के लिए चाहते थे1


1
क्यू लगता है कि वर्गीकरण के बारे में अधिक से अधिक क्लस्टरिंग के बारे में पूछना चाहिए। कम से कम क्लस्टरिंग शीर्षक में है।
अमीबा का कहना है कि मोनिका

@amoeba: मैंने भी ऐसा ही सोचा था और गैर-दूरी आधारित क्लस्टरिंग (जैसे। FMM, DBSCAN) के माध्यम से संभावित उपयोग के बारे में लिखा था, लेकिन फिर मैंने सवाल पढ़ा: " यह एक आयामी कमी तकनीक के रूप में क्यों उपयोग नहीं किया जाता है जो कि वर्गीकरण के लिए उपयोग किया जाता है। मॉडल? "
us

हां, लेकिन शीर्षक Q अलग है। मुझे लगता है कि ओपी अंतर के बारे में भ्रमित हो सकता है इसलिए यह आपके ए में दोनों को संबोधित करने के लिए समझ में आ सकता है !
अमीबा का कहना है कि मोनिका

4
ठीक है .. ठीक है ... गुलाम-ड्राइविंग यूकेरियोट ...: P
us85r11852 कहते हैं, Monic

1
(+1) मैं इस क्लस्टरिंग / t-SNE उत्तर आँकड़े . stackexchange.com/questions/263539 पर आपके विचार सुनने में बहुत दिलचस्पी रखूँगा । CC भी @caseWestern पर - यह आपके लिए भी रुचि का हो सकता है।
अमीबा ने कहा कि मोनिका

3

टी-एसएनई दूरी को संरक्षित नहीं करता है, लेकिन यह मूल रूप से संभावना वितरण का अनुमान लगाता है। सिद्धांत रूप में, टी-एसएनई एल्गोरिदम इनपुट को 2 या 3 आयामों के मानचित्र स्थान पर मैप करता है। इनपुट स्पेस को गॉसियन डिस्ट्रीब्यूशन और मैप स्पेस को टी-डिस्ट्रीब्यूशन माना जाता है। नुकसान का उपयोग किया जाता है दो वितरणों के बीच केएल डाइवर्जेंस है जो ढाल वंश का उपयोग करके कम से कम किया जाता है।

लॉरेन्स वैन डेर मातेन के अनुसार जो t-SNE के सह-लेखक हैं

t-SNE दूरियां नहीं बल्कि संभावनाएं बनाए रखता है, इसलिए उच्च-D और निम्न-D में यूक्लिडियन दूरियों के बीच कुछ त्रुटि को मापना व्यर्थ है।

संदर्भ:

https://lvdmaaten.github.io/tsne/

https://www.oreilly.com/learning/an-illustrated-introduction-to-the-t-sne-algorithm


2

एक सामान्य कथन के रूप में: पर्याप्त रूप से शक्तिशाली (/ उपयुक्त) क्लासिफायर, या क्लस्टर-एर को देखते हुए, कोई भी किसी भी आयामी कमी को लागू नहीं करेगा ।

आयाम की कमी जानकारी खो देती है।

चूंकि इस तरह के क्लस्टर-एर या क्लासिफायर (एस्प क्लासिफायर, कम सो क्लस्टर्स), आंतरिक रूप से पहले से ही सार्थक स्थान के लिए प्रक्षेपण के कुछ रूप को उकसाते हैं। और आयाम में कमी भी एक (उम्मीद) सार्थक स्थान के लिए प्रक्षेपण है।

लेकिन आयामी कमी को एक असम्बद्ध तरीके से करना पड़ता है - यह नहीं जानता कि आप किस कार्य के लिए कम कर रहे हैं। यह वर्गीकरण के लिए विशेष रूप से सच है, जहां आपके पास एकमुश्त पर्यवेक्षण सूचना है। लेकिन यह क्लस्टरिंग पर भी लागू होता है, जहां क्लस्टरिंग के लिए जिस स्थान पर प्रोजेक्ट करना होगा, वह बेहतर परिभाषित है (इस एल्गोरिथम के लिए) की तुलना में "केवल कम आयाम हैं"। @ usεr11852 इस बारे में उत्तर देता है। जैसा कि मैंने कहा कि आयामीता को पता नहीं है कि क्या है। आप जिस कार्य के लिए कम कर रहे हैं - आप इसे अपनी पसंद के अनुसार सूचित करते हैं कि आप किस आयामीता एल्गोरिथम की कमी करते हैं।

इसलिए अक्सर क्लस्टरिंग / वर्गीकरण से पहले प्रीप्रोसेसिंग के रूप में एक आयामी कमी कदम को जोड़ने के बजाय, एक अलग क्लासिफायर / क्लस्टर-एर का उपयोग करना बेहतर होता है जो एक उपयोगी प्रक्षेपण को अनियंत्रित करता है।

इसमें एक चीज की कमी को कम किया जा सकता है, हालांकि यह (उम्मीद) सार्थक स्थान पर प्रक्षेपण बनाने में इसकी अप्रभावित प्रकृति है। यदि आपके पास थोड़ा लेबल डेटा है तो यह उपयोगी है। लेकिन अक्सर ऐसे अन्य तरीके होते हैं जो आपके क्लासिफायर से जुड़े होते हैं (जैसे कि तंत्रिका नेटवर्क के लिए, ऑटोएन्कोडर का उपयोग करना; जैसे गहरी विश्वास नेटवर्क दिखावा) जो बेहतर काम करने जा रहे हैं, क्योंकि वे उस अंतिम कार्य को ध्यान में रखकर तैयार किए गए हैं। आयामीता में कमी का अधिक सामान्य कार्य नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.