पर्यवेक्षित आयामीता में कमी


13

मेरे पास एक डेटा सेट है जिसमें 15K लेबल वाले नमूने हैं (10 समूहों में से)। मैं 2 आयामों में आयामी कमी को लागू करना चाहता हूं, जो कि लेबल के ज्ञान को ध्यान में रखेगा।

जब मैं पीसीए जैसी "मानक" अनुपयोगी आयामी कमी तकनीकों का उपयोग करता हूं, तो बिखरे हुए प्लॉट का ज्ञात लेबलों से कोई लेना-देना नहीं है।

क्या मैं एक नाम की तलाश में हूँ? मैं समाधानों के कुछ संदर्भों को पढ़ना चाहूंगा।


3
यदि आप रैखिक तरीकों की तलाश कर रहे हैं, तो रैखिक विभेदक विश्लेषण (एलडीए) वह है जो आपको उपयोग करना चाहिए।
अमीबा का कहना है कि मोनिका

@amoeba: धन्यवाद। मैंने इसका इस्तेमाल किया और इसने बहुत बेहतर प्रदर्शन किया!
रॉय

खुशी है कि यह मदद की। मैंने कुछ और संदर्भों के साथ एक संक्षिप्त उत्तर प्रदान किया।
अमीबा का कहना है कि मोनिका

1
एक संभावना सबसे पहले नौ सेंटीमीटर के अंतरिक्ष में कक्षा सेंट्रोइड्स को कम करने के लिए होगी, और फिर दो आयामों को कम करने के लिए पीसीए का उपयोग करें।
ए। डोंडा

संबंधित: आंकड़े.stackexchange.com/questions/16305 (संभवत: डुप्लिकेट, हालांकि शायद दूसरा रास्ता। मैं नीचे अपना जवाब अपडेट करने के बाद इस पर वापस आऊंगा।)
अमीबा

जवाबों:


27

सुपरवाइज्ड डाइमेंशन रिडक्शन की सबसे मानक रेखीय विधि को रैखिक विवेचक विश्लेषण (LDA) कहा जाता है । इसे निम्न-आयामी प्रक्षेपण खोजने के लिए डिज़ाइन किया गया है जो वर्ग पृथक्करण को अधिकतम करता है। आप हमारे टैग के तहत इसके बारे में बहुत सारी जानकारी पा सकते हैं , और किसी भी मशीन सीखने की पाठ्यपुस्तक में जैसे कि स्वतंत्र रूप से उपलब्ध सांख्यिकीय तत्वों का अध्ययन

यहाँ एक तस्वीर है जो मुझे यहां त्वरित Google खोज के साथ मिली ; यह एक आयामी पीसीए और LDA अनुमानों को दिखाता है जब डेटासेट में दो वर्ग होते हैं (मेरे द्वारा जोड़े गए मूल):

पीसीए बनाम एलडीए

एक अन्य दृष्टिकोण को आंशिक न्यूनतम वर्ग (पीएलएस) कहा जाता है । LDA को डमी वैरिएबल एन्कोडिंग ग्रुप लेबल के साथ उच्चतम सहसंबंध रखने वाले अनुमानों की तलाश के रूप में समझा जा सकता है (इस अर्थ में LDA को विहित सहसंबंध विश्लेषण के विशेष मामले के रूप में देखा जा सकता है, CCA)। इसके विपरीत, PLS समूह लेबल के साथ उच्चतम सहसंयोजन वाले अनुमानों की तलाश करता है। जबकि एलडीए केवल दो समूहों के मामले में 1 अक्ष प्राप्त करता है (जैसे ऊपर चित्र पर), पीएलएस को घटते कोवरियन द्वारा आदेशित कई अक्ष मिलेंगे। ध्यान दें कि जब डाटासेट में दो से अधिक समूह मौजूद होते हैं, तो पीएलएस के अलग-अलग "स्वाद" होते हैं जो कुछ अलग परिणाम देंगे।

अपडेट (2018)

मुझे इस उत्तर का विस्तार करने के लिए समय निकालना चाहिए; यह धागा लोकप्रिय लगता है लेकिन ऊपर मेरा मूल उत्तर बहुत छोटा है और पर्याप्त विस्तृत नहीं है।

इस बीच में, मैं उल्लेख होगा पड़ोस अवयव विश्लेषण एक रेखीय विधि है कि प्रक्षेपण को अधिकतम पाता है - -nearest-पड़ोसियों वर्गीकरण सटीकता। तंत्रिका नेटवर्क का उपयोग करके एक nonlinear सामान्यीकरण है, क्लास नेबरहुड संरचना को संरक्षित करके एक Nonlinear एम्बेडिंग सीखना देखें । एक अड़चन के साथ न्यूरल नेटवर्क क्लासिफायर का भी उपयोग कर सकते हैं, सुपरवाइज्ड डायमेंशन रिडक्शन में डीप बॉटलनेक क्लासिफायर देखें ।k


1
अच्छा ग्राफिक, बहुत समझाता है
टिटौ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.