पीसीए प्रक्षेपण के कुल विचरण को अधिकतम क्यों करता है?


11

क्रिस्टोफर बिशप ने अपनी पुस्तक पैटर्न रिकॉग्निशन एंड मशीन लर्निंग इन ए प्रूफ में लिखा है , कि डेटा को पहले से चुने गए घटकों को ऑर्थोगोनल स्पेस में पेश किए जाने के बाद प्रत्येक लगातार प्रमुख घटक प्रक्षेपण के विचरण को अधिकतम करता है। दूसरे भी ऐसे ही प्रमाण दिखाते हैं।

हालांकि, यह केवल यह साबित करता है कि प्रत्येक लगातार घटक एक आयाम के लिए सबसे अच्छा प्रक्षेपण है, प्रसरण को अधिकतम करने के संदर्भ में। इसका अर्थ यह है कि, 5 आयामों को कहने के लिए एक प्रक्षेपण के विचरण को अधिकतम इस तरह के घटकों को चुनना है?


क्या आप हमें यह बता सकते हैं कि पाँच आयाम वाले डेटासेट के "विचरण" से क्या अभिप्राय होगा जो पाँच आयामों में डेटासेट के प्रक्षेपण से होता है? (इस तरह के एक मात्रा अधिकतम के अधीन हो सके इसके लिए यह एक होना चाहिए था एक नंबर।)
whuber

3
बहुत अच्छी बात है। क्रिस बिशप अपनी पुस्तक में एक प्रक्षेपण के विचरण को कम करने के लिए संदर्भित करता है और यह बहुत स्पष्ट नहीं है कि अधिक 1 आयाम के लिए इसका क्या अर्थ होगा। मैं सीखना चाहूंगा कि किस रूप में विचरण को कम से कम किया जाता है और इस तरह की प्रक्रिया इसे संयुक्त रूप से न्यूनतम क्यों करती है।
मिशल

1
@ user123675: आपकी पिछली टिप्पणी में आपका मतलब "अधिकतमकरण" है, "न्यूनतम" नहीं।
अमीबा

हाँ आप सही है। माफ़ करना!
मिशाल

जवाबों:


11

कई आयामों में विचरण द्वारा समझा जाता है ("कुल विचरण") बस प्रत्येक आयाम में भिन्नता का एक योग है। गणितीय रूप से, यह सहसंयोजक मैट्रिक्स का एक निशान है: ट्रेस केवल सभी विकर्ण तत्वों का एक योग है। इस परिभाषा में कई अच्छे गुण हैं, जैसे ट्रेस ऑर्थोगोनल रैखिक परिवर्तनों के तहत अपरिवर्तनीय है, जिसका अर्थ है कि यदि आप अपने समन्वय अक्षों को घुमाते हैं, तो कुल विचरण समान रहता है।

बिशप की पुस्तक (खंड 12.1.1) में जो साबित किया गया है, वह यह है कि सहसंयोजक मैट्रिक्स का प्रमुख आइजनवेक्टर अधिकतम विचरण की दिशा देता है। दूसरा eigenvector एक अतिरिक्त बाधा के तहत अधिकतम विचरण की दिशा देता है कि यह पहले eigenvector के लिए ऑर्थोगोनल होना चाहिए, आदि (मेरा मानना ​​है कि यह व्यायाम 12.1 का गठन करता है)। यदि लक्ष्य 2 डी उप-क्षेत्र में कुल विचरण को अधिकतम करना है, तो यह प्रक्रिया एक लालची अधिकतमकरण है: पहले एक अक्ष चुनें जो विचरण को अधिकतम करता है, फिर एक और।

आपका सवाल है: यह लालची प्रक्रिया वैश्विक अधिकतम क्यों प्राप्त करती है?

यहाँ एक अच्छा तर्क है कि @whuber ने टिप्पणियों में सुझाव दिया है। आइए हम पहले पीसीए अक्षों के साथ समन्वय प्रणाली को संरेखित करें। सहसंयोजक मैट्रिक्स विकर्ण हो जाता है: । सादगी के लिए हम उसी 2 डी मामले पर विचार करेंगे, यानी अधिकतम कुल विचरण वाला विमान क्या है? हम यह साबित करना चाहते हैं कि यह पहले दो आधार वैक्टर (कुल विचरण ) द्वारा दिया गया विमान है ।Σ=diag(λi)λ1+λ2

दो ऑर्थोगोनल वैक्टर और द्वारा फैलाए गए विमान पर विचार करें । इस विमान में कुल विचलनतो यह गुणांक वाले eigenvalues का एक रैखिक संयोजन है जो सभी सकारात्मक हैं, से अधिक नहीं (नीचे देखें), और योग । यदि ऐसा है, तो यह लगभग स्पष्ट है कि अधिकतम पर पहुंच गया है ।uv

uΣu+vΣv=λiui2+λivi2=λi(ui2+vi2).
λi12λ1+λ2

यह केवल यह दिखाना बाकी है कि गुणांक से अधिक नहीं हो सकता है । ध्यान दें कि , जहाँ है वें आधार वेक्टर। यह मात्रा और द्वारा विमान पर प्रक्षेपण की एक वर्ग लंबाई है । इसलिए इसे की चौकोर लंबाई से छोटा होना पड़ता है जो कि , QED के बराबर है ।1यू2+v2=(यू)2+(v)2यूv||2=1

पीसीए का उद्देश्य क्या है @ कार्डिनल का उत्तर भी देखें (यह उसी तर्क का अनुसरण करता है)।


1
(+1) लेकिन क्या यह सहज रूप से स्पष्ट नहीं है कि विभिन्न राशियों के वॉलेट्स का संग्रह दिया गया है (गैर-ऋणात्मक आइजनवालों को मॉडलिंग करते हुए), और एक निश्चित संख्या जिसे आप चुन सकते हैं, जो कि सबसे अमीर पर्स का चयन करके आपके कुल को अधिकतम करेगा। नकद? सबूत यह अंतर्ज्ञान सही है कि लगभग तुच्छ है: यदि आप नहीं किया है सबसे बड़ा है, तो आप छोटी से छोटी एक तुम एक बड़ी राशि के लिए ले लिया आदान-प्रदान करके अपने योग सुधार कर सकते हैं।
whuber

@amoeba: यदि लक्ष्य भिन्नताओं के योग को अधिकतम करना है और योग का विचरण नहीं है, तो दूसरे प्रक्षेपण के पहले के लिए ऑर्थोगोनल होने का कोई कारण नहीं है।
इनुओ

1
मैं माफी माँगता हूँ - मैंने सोचा था कि आपने पहले से ही विश्लेषण को पहचानने के बिंदु तक विकसित कर लिया है कि एक -dimensional उप-स्थान में कुल विचरण eigenvalues ​​का एक गैर-नकारात्मक रैखिक संयोजन है, जिसमें कोई भी गुणांक से अधिक नहीं हो सकता है और गुणांक के कुल बराबर । (यह एक सरल मैट्रिक्स गुणन की बात है - लैग्रेग मल्टीप्लायरों की आवश्यकता नहीं है।) इसके बाद हमें उल्लासपूर्ण रूप से लाएंगे। मैं मानता हूं कि ऐसा कुछ विश्लेषण किया जाना है। k1
whuber

1
@amoeba: मेरा मतलब है कि हम eigenvectors के आधार में समस्या पर विचार कर रहे हैं (यह यू और वी का आधार है यदि हम विकर्ण सहसंयोजक मैट्रिक्स द्वारा गुणा करके उनके विचरण की गणना करते हैं)। यू और वी अंत में उन्हें हो जाएगा, लेकिन इस सबूत के चरण में हमें यह नहीं मानना ​​चाहिए कि मुझे लगता है। यह तर्क नहीं होना चाहिए, कि अगर किसी भी बिंदु पर योग 1 से बड़ा था, तो 2 वैक्टर अब ऑर्थोगोनल नहीं होंगे, क्योंकि बेस ऑर्थोगोनल है और वैक्टर में से प्रत्येक 1 पर लाता है? लेकिन फिर से, हम अपने आप को ऑर्थोगोनल वैक्टर यू और वी तक सीमित क्यों करते हैं?
माइकल

1
@ हेइसेनबर्ग: आह, मैं देख रहा हूं! नहीं, निश्चित रूप से मेरा मतलब यह नहीं था! लेकिन मैं अब देख रहा हूं कि यह भ्रमित क्यों था। मैंने इस "आधार का चयन" कदम से छुटकारा पाने के लिए सबूत के इस आखिरी बिट को फिर से लिखा। कृपया मेरा संपादन देखें। धन्यवाद।
अमीबा

2

यदि आपके पास उनके बिना विचरण के क्रम में असंबद्ध यादृच्छिक चर हैं, और उनमें से को चुनने के लिए कहा गया था, ताकि उनकी राशि का प्रसरण अधिकतम हो, तो क्या आप सहमत होंगे कि पहले को चुनने का लालची दृष्टिकोण इसे पूरा करेगा?एन

डेटा अपने सहप्रसरण मैट्रिक्स के eigenvectors पर प्रस्तावित अनिवार्य है डेटा की असहसंबद्ध कॉलम और जिसका विचरण संबंधित eigenvalues बराबर होती है।एन

स्पष्ट होने के लिए अंतर्ज्ञान के लिए हमें सबसे बड़े eigenvalue के साथ सहसंयोजक मैट्रिक्स के आइजनवेक्टर की गणना के साथ विचरण अधिकतमकरण से संबंधित होना चाहिए, और सहसंबंधों को हटाने के लिए ऑर्थोगोनल प्रक्षेपण से संबंधित होना चाहिए।

दूसरा संबंध मेरे लिए स्पष्ट है क्योंकि दो (शून्य माध्य) वैक्टर के बीच सहसंबंध गुणांक उनके आंतरिक उत्पाद के लिए आनुपातिक है।

अधिकतमकरण विचरण और सहसंयोजक मैट्रिक्स के ईजन-अपघटन के बीच संबंध इस प्रकार है।

मान लें कि स्तंभों को केंद्रित करने के बाद डेटा मैट्रिक्स है। हमें अधिकतम विचरण की दिशा खोजने की आवश्यकता है। किसी भी इकाई वेक्टर , साथ प्रोजेक्ट करने के बाद विचरण होता हैडीvv

[(डीv)टीडीv]=vटी[डीटीडी]v=vटीसीv(डी)v

यदि को सबसे बड़ा eigenvalue के अनुरूप का eigenvector है तो अधिकतम होगा ।vसीv(डी)


मूल प्रश्न इसके बजाय है: उनमें से orthogonal रैखिक संयोजनों का चयन करें (जैसा कि उनमें से के विपरीत ) जैसे कि उनके भिन्न का योग अधिकतम होता है। क्या यह अभी भी स्पष्ट है कि पहले को चुनने का लालची दृष्टिकोण इसे पूरा करता है?
अमीबा

ऑर्थोगोनल रैखिक संयोजनों का पता लगाना और फिर उनमें से पहला सबसे वेरिएंट चुनना, जो प्रक्रिया का वर्णन करता है (शिथिल)। मेरा जवाब सिर्फ यह दावा करता है कि कुल भिन्नता को अधिकतम करने के लक्ष्य को प्राप्त करने के लिए लालची प्रक्रिया के लिए पर्याप्तता क्या है। एन
इनुओ

मुझे यकीन नहीं है कि मैं तर्क का पालन करता हूं। ऑर्थोगोनलिटी कैसे मायने रखती है? यदि आपके पास चर हैं और उच्चतम कुल विचरण के साथ को चुनना है , तो आपको उच्चतम विचरण के साथ चुनना चाहिए (भले ही वे सहसंबद्ध हों या न हों)। एन
अमीबा

आह, मैं भ्रम को समझता हूं। मेरे जवाब में एक टाइपो था। अब तय हो गया।
इनुओ

मुझे लगता है कि आप यहाँ कुछ करने के लिए हो सकता है, लेकिन योग की जादुई उपस्थिति की व्याख्या की जरूरत है। पीसीए या यहां तक ​​कि वर्णक्रमीय विघटन के लिए क्या प्रासंगिकता है?
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.