पहला मुख्य घटक अलग-अलग कक्षाएं नहीं करता है, लेकिन अन्य पीसी करते हैं; वो कैसे संभव है?


11

मैंने पीसीए को 17 मात्रात्मक चर पर चलाया, ताकि चर का एक छोटा सेट प्राप्त किया जा सके, जो कि प्रमुख घटक हैं, जिसका उपयोग दो वर्गों में वर्गीकरण उदाहरणों के लिए पर्यवेक्षित मशीन सीखने में किया जाता है। PCA के बाद डेटा में विचरण के 31% के लिए PC1 खाते, 17% के लिए PC2 खाते, 10% के लिए PC3 खाते, 8% के लिए PC4 खाते, 7% के लिए PC5 खाते और 6% के लिए PC6 खाते हैं।

हालांकि, जब मैं दो वर्गों के बीच पीसी के बीच अंतर को देखता हूं, तो आश्चर्यजनक रूप से, पीसी 1 दोनों वर्गों के बीच एक अच्छा भेदभाव नहीं है। शेष पीसी अच्छे भेदभाव करने वाले होते हैं। इसके अलावा, PC1 अप्रासंगिक हो जाता है जब एक निर्णय पेड़ में उपयोग किया जाता है जिसका अर्थ है कि पेड़ की छंटाई के बाद यह पेड़ में मौजूद नहीं है। पेड़ में PC2-PC6 होते हैं।

क्या इस घटना का कोई स्पष्टीकरण है? क्या यह व्युत्पन्न चर के साथ कुछ गलत हो सकता है?


5
इसमें हाल ही के लिंक के साथ यह हाल ही के प्रश्न आंकड़े पढ़ें ।stackexchange.com/q/79968/3277 । चूंकि पीसीए कक्षाओं के अस्तित्व के बारे में नहीं जानता है, इसलिए यह गारंटी नहीं देता है कि पीसी में से कोई भी वास्तव में अच्छा भेदभाव होगा; सभी अधिक है कि PC1 एक अच्छा भेदभाव करनेवाला होगा। उदाहरण के रूप में भी दो तस्वीरें देखें यहाँ
ttnphns

2
यह भी देखें कि एक क्लासिफायरियर के खराब परिणामों के कारण पीसीए क्या हो सकता है? विशेष रूप से @vqv द्वारा उत्तर में आंकड़े।
अमीबा

जवाबों:


14

यह तब भी हो सकता है जब PCA करने से पहले वेरिएबल्स को इकाई विचरण के लिए छोटा नहीं किया जाता है। उदाहरण के लिए, इन आंकड़ों के लिए (ध्यान दें कि पैमाना केवल से तक जाता है जबकि से तक जाता है ):- 0.5 1 x - 3 3y0.51x33

यहां छवि विवरण दर्ज करें

PC1 लगभग सभी विचरण के लिए लगभग और खाता है, लेकिन इसमें कोई भेदभाव करने वाली शक्ति नहीं है, जबकि PC2 और वर्गों के बीच पूरी तरह से भेदभाव करता है।xy


नमस्कार, आपके जवाब के लिए धन्यवाद! स्केलिंग कैसे की जानी चाहिए? (एक्स मतलब) / एसडी?
फ्रीडा

हाँ, RI में प्रयोग किया जाता है prcomp(x, center=T, scale=T)जो कि (x-mean) / sd के समान है। इस उदाहरण में, आप पाएंगे कि न तो प्रिंसिपल कंपोनेंट कक्षाओं के बीच एक अच्छा भेदभाव है; यह केवल तभी काम करता है जब वे दोनों एक साथ उपयोग किए जाते हैं।
फ्लाउंडर

मैं समझता हूं कि पीसी पूरक हैं लेकिन क्या इसके पीछे कोई स्पष्टीकरण है? सच कहूं तो, दूसरों की तुलना में कमजोर पीसी 1 प्राप्त करने के लिए यह मेरे लिए पहली बार है।
फ्रीडा

@ फरीदा: ttnphns की टिप्पणी ऑन-टार्गेट है। En.wikipedia.org/wiki/Linear_discriminant_analysis तीसरा पैराग्राफ देखें । कुछ अर्थों में यह भाग्य है कि पीसीए इतनी बार उपयोगी हो जाता है।
वेन

6

मुझे लगता है कि उत्तर और उदाहरण @Founderer द्वारा प्रदान की गई यह मतलब है, लेकिन मुझे लगता है कि यह इस वर्तनी के लायक है। प्रधान घटक विश्लेषण (पीसीए) लेबल (वर्गीकरण) उदासीन है। यह सब कुछ उच्च आयामी डेटा को किसी अन्य आयामी स्थान में बदलना है। उदाहरण के लिए, यह वर्गीकरण के प्रयासों में मदद कर सकता है, डेटा सेट बनाना जो किसी विशेष विधि द्वारा आसान से अलग किया जा सकता है। हालांकि, यह पीसीए का केवल एक उप-उत्पाद (या एक साइड इफेक्ट) है।


1

जब हम प्रधान घटक का विश्लेषण करते हैं तो प्रमुख घटक अधिकतम परिवर्तनशीलता की दिशाओं के अनुरूप होते हैं, वे कक्षाओं के बीच अधिकतम भेदभाव या अलगाव की गारंटी नहीं देते हैं।

तो दूसरा घटक आपको अच्छा वर्गीकरण देता है मतलब उस दिशा में डेटा आपको कक्षाओं के बीच बेहतर भेदभाव देता है। जब आप रैखिक डिस्क्रिमिनेन्ट एनालिसिस (LDA) करते हैं तो यह आपको सबसे अच्छा ऑर्थोगोनल दिशा घटक देता है जो इंटर-क्लास दूरी को अधिकतम करता है और इंट्रा-क्लास दूरी को कम करता है।

यदि आप पीसीए के बजाय डेटा पर एलडीए करते हैं, तो शायद पहले घटकों में से एक पीसी 1 की तुलना में पीसी 6 के करीब होगा। उम्मीद है की यह मदद करेगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.