PCA का उद्देश्य क्या है?


42

प्रधान घटक विश्लेषण मैट्रिक्स अपघटन का उपयोग कर सकते हैं , लेकिन यह वहां पहुंचने के लिए सिर्फ एक उपकरण है।

आप मैट्रिक्स बीजगणित के उपयोग के बिना प्रमुख घटक कैसे पाएंगे?

उद्देश्य फ़ंक्शन (लक्ष्य) क्या है, और क्या बाधाएं हैं?


1
शायद मुझे कुछ याद आ रहा है तो कृपया मुझे सही करें अगर मैं गलत हूं, लेकिन यह संभव होना चाहिए (कम से कम सिद्धांत रूप में) निर्माण करने के लिए पीसीए में क्या किया जाता है एक (जटिल) रैखिक प्रोग्रामिंग समस्या के रूप में मैट्रिस का उपयोग करते हुए, लेकिन मैं नहीं करता हूं पता है कि आप सभी आवश्यक बाधाओं को कैसे बताएंगे। इसके अलावा, मुझे यकीन नहीं है कि सिर्फ पीसीए का उपयोग करने की तुलना में यह बहुत सरल होगा। आप मैट्रिस से बचने की कोशिश क्यों कर रहे हैं?
क्रिस सिमोकैट

@ क्रिस मैं नहीं देखता कि कैसे एक रैखिक प्रोग्रामिंग समस्या के लिए एक मिल सकता है। मेरी समझ में यह नहीं था कि गणना में मेट्रिसेस से बचा जाना चाहिए । सवाल यह था कि पीसीए द्वारा किस तरह की समस्या का समाधान किया जाता है, न कि इसे जिस तरह से किया जाता है (उदाहरण के लिए एसवीडी की गणना करके)। कार्डिनल द्वारा समाधान कहता है कि आप अधिकतम विचरण की क्रमिक दिशाओं का पता लगाते हैं । मैंने जो समाधान प्रस्तुत किया है, वह कहता है कि आपको कम से कम पुनर्निर्माण की त्रुटि वाले हाइपरप्लेन मिलते हैं।
NRH

@ मैं अपनी समझ को बढ़ाने के लिए, मैट्रिक्स बीजगणित के बिना, पीसीए को देखने का एक और तरीका खोजने की उम्मीद कर रहा हूं।
नील मैकगिन

1
@ क्रिस, आपके पास एक द्विघात उद्देश्य फ़ंक्शन और एक मानक समानता बाधा है। वैकल्पिक रूप से, @ NRH के उत्तर में सूत्रीकरण के तहत, आपके पास एक मैट्रिक्स रैंक बाधा है। यह एक रैखिक प्रोग्रामिंग समस्या के लिए खुद को हरा नहीं जा रहा है। @ एनआरएच कुछ अच्छा अंतर्ज्ञान देता है, और, वास्तव में, पीसीए पर दो दृष्टिकोणों के बीच बहुत करीबी संबंध है जो दिए गए हैं। शायद @NRH के सहयोग से, हम उत्तर के पूर्ण सेट को और अधिक पूर्ण बनाने के लिए उसे / उसकी पोस्ट में जोड़ सकते हैं। 2
कार्डिनल

1
@ एनआरएच, वास्तव में, मुझे ईएसएल बहुत पसंद है, लेकिन मुझे लगता है कि इस विषय का उपचार बहुत ही सतही है, क्योंकि यह पुस्तक के कई विषयों के लिए है। विशेष रूप से, वे आपके द्वारा दी गई अनुकूलन समस्या के समाधान के महत्वपूर्ण भाग को साबित नहीं करते हैं (या एक अभ्यास के रूप में भी असाइन करते हैं)।
कार्डिनल

जवाबों:


41

, पीसीए पर एक पूर्ण प्राइमर देने के लिए कोशिश कर रहा एक अनुकूलन के दृष्टिकोण से बिना, प्राथमिक उद्देश्य समारोह है रेले भागफल । मैट्रिक्स जो कि भागफल में होता है, वह नमूना मैट्रिक्स जहां प्रत्येक सुविधाओं का एक वेक्टर है और मैट्रिक्स है जैसे कि th पंक्ति ।एक्समैंपीएक्समैंएक्स T मैं

S=1ni=1nxixiT=XTX/n
xipXixiT

पीसीए अनुकूलन समस्याओं के अनुक्रम को हल करना चाहता है। इस क्रम में पहला है असंबंधित समस्या

maximizeuTSuuTu,uRp.

चूँकि, उपरोक्त असंबंधित समस्या विवश समस्या के बराबर है uTu=u22=uu

maximizeuTSusubject touTu=1.

यहाँ जहां मैट्रिक्स बीजगणित में आता है। के बाद से यह फार्म की एक eigenvalue अपघटन है एक सममित सकारात्मक semidefinite मैट्रिक्स है (निर्माण द्वारा!) जहां एक है ऑर्थोगोनल मैट्रिक्स (so ) और एक विकर्ण मैट्रिक्स है जिसमें प्रविष्टियाँ जैसे कि ।S

S=QΛQT,
QQQT=IΛλiλ1λ2λp0

इसलिए, । चूँकि समस्या में एक के मानदंड के लिए विवश है, तो इसलिए बाद से , के आधार ओर्थोगोनल जा रहा है।uTSu=uTQΛQTu=wTΛw=i=1pλiwi2uww2=QTu2=u2=1Q

लेकिन, यदि हम अड़चन के तहत मात्रा को अधिकतम करना चाहते हैं, तो , तो सबसे अच्छा हम कर सकते हैं। set , जो है, और for ।i=1pλiwi2i=1pwi2=1w=e1w1=1wi=0i>1

अब, संबंधित समर्थन करते हुए , जो हमने पहले स्थान पर खोजा था, हम उस जहां के पहले कॉलम को दर्शाता है , अर्थात, सबसे बड़ा eigenvalue of अनुरूप है । उद्देश्य फ़ंक्शन का मान तब आसानी से को भी देखा जाता है ।u

u=Qe1=q1
q1QSλ1

शेष प्रमुख घटक वैक्टर अनुकूलन की समस्याओं के अनुक्रम ( द्वारा अनुक्रमित ) को हल करके पाए जाते हैं तो, समस्या समान है, सिवाय इसके कि हम अतिरिक्त अवरोध जोड़ते हैं कि समाधान को अनुक्रम में पिछले सभी समाधानों के लिए रूढ़िवादी होना चाहिए । यह दिखाने के लिए कि समस्या का समाधान है, वास्तव में उपर्युक्त तर्क को विस्तारित करना मुश्किल नहीं है, वास्तव में, , का th eigenvector है ।i

maximizeuiTSuisubject touiTui=1uiTuj=01j<i.
iqiiS

PCA समाधान को अक्सर के एकवचन मान अपघटन के रूप में भी व्यक्त किया जाता है । क्यों देखने के लिए, चलो । फिर और so (सख्ती से बोलना, साइन अप करना) और ।XX=UDVTnS=XTX=VD2VTV=QΛ=D2/n

प्रिंसिपल कंपोनेंट मुख्य घटक वैक्टर पर प्रोजेक्ट करके पाए जाते हैं । केवल दिए गए SVD फॉर्मूलेशन से, यह देखना आसान है कि X

XQ=XV=UDVTV=UD.

विशेषताओं के मैट्रिक्स के SVD के संदर्भ में प्रमुख घटक वैक्टर और स्वयं प्रमुख घटकों दोनों के प्रतिनिधित्व की सादगी एक कारण है, जिससे SVD पीसीए के कुछ उपचारों में प्रमुखता से शामिल है।


यदि केवल पहले कुछ विलक्षण मानों / वैक्टरों की आवश्यकता है, तो नैश और श्लीन एक एल्गोरिथ्म को प्रमुख ईजेनवेल्यूज की गणना के लिए सामान्य शक्ति विधि की याद दिलाते हैं। यह ओपी के लिए ब्याज की हो सकती है।
जेएम एक सांख्यिकीविद नहीं है

@ एनआरएच, मेरे टाइपो को पकड़ने (और सही करने) के लिए धन्यवाद, इससे पहले कि मैं उन्हें देखने में कामयाब रहा!
कार्डिनल

1
हाय @ कार्डिनल, आपके उत्तर के लिए धन्यवाद। लेकिन ऐसा लगता है कि आपने यह साबित करने का चरण नहीं दिया कि अनुक्रमिक अनुकूलन वैश्विक इष्टतम की ओर क्यों जाता है। क्या आप कृपया उस पर विस्तार कर सकते हैं? धन्यवाद!
लिफू हुआंग

21

कार्डिनल द्वारा प्रस्तुत समाधान नमूना सहसंयोजक मैट्रिक्स पर केंद्रित है। एक अन्य प्रारंभिक बिंदु एक q -dimensional हाइपरप्लेन द्वारा डेटा का पुनर्निर्माण त्रुटि है । यदि p -dimensional डेटा बिंदु उद्देश्य हल करना हैx1,,xn

minμ,λ1,,λn,Vqi=1n||xiμVqλi||2

एक के लिए मैट्रिक्स orthonormal कॉलम और साथ । यह यूक्लिडियन मानदंड द्वारा मापा गया सबसे अच्छा रैंक q -reconstruction देता है, और समाधान के कॉलम पहले q प्रमुख घटक वैक्टर हैं।p×qVqλiRqVq

नियत लिए और (यह प्रतिगमन है) के लिए समाधानVqμλi

μ=x¯=1ni=1nxiλi=VqT(xix¯)

अंकन में आसानी के लिए मान हैं कि को निम्न में केन्द्रित किया गया है। फिर हमें कम से कम करना होगा xi

i=1n||xiVqVqTxi||2

orthonormal कॉलम के साथ over । ध्यान दें कि है प्रक्षेपण पर क्ष आयामी स्तंभ अंतरिक्ष। इसलिए समस्या को कम करने के बराबर है। से अधिक रैंक क्ष अनुमानों । यही है, हमें अधिकतम करने की आवश्यकता है। रैंक q अनुमानों से अधिक , जहां नमूना सहसंयोजक मैट्रिक्स है। अभीVqP=VqVqT

i=1n||xiPxi||2=i=1n||xi||2i=1n||Pxi||2
P
i=1n||Pxi||2=i=1nxiTPxi=tr(Pi=1nxixiT)=ntr(PS)
PS
tr(PS)=tr(VqTSVq)=i=1quiTSui
जहां में (orthonormal) कॉलम हैं , और @ कार्डिनल के उत्तर में प्रस्तुत तर्क बताते हैं कि अधिकतम ' लेने से प्राप्त । सबसे बड़े eigenvalues ​​के साथ लिए eigenvectors होना चाहिए ।u1,,uqqVquiqSq

पुनर्निर्माण त्रुटि, कई उपयोगी सामान्यीकरणों का सुझाव देती है, उदाहरण के लिए हाइपरप्लेन के बजाय कम-आयामी मैनिफोल्ड्स द्वारा विरल प्रमुख घटक या पुनर्निर्माण। जानकारी के लिए, सांख्यिकीय सीखने के तत्वों में धारा 14.5 देखें ।


(+1) अच्छे अंक। कुछ सुझाव: यह अच्छा होगा कि को परिभाषित किया और परिणाम का संक्षिप्त प्रमाण देना वास्तव में अच्छा होगा । या, वैकल्पिक रूप से, यह Rayleight quotients शामिल अनुकूलन समस्या से जोड़ा जा सकता है। मुझे लगता है कि इस सवाल के जवाब को बहुत पूरा कर देगा! λi
कार्डिनल

@ कार्डिनल, मेरा मानना ​​है कि मैंने पुनर्निर्माण फॉर्मूलेशन से आपके द्वारा हल की गई समस्या को पूरा करने में लापता चरणों को पूरा किया।
एनआरएच

अच्छा काम। मेरा मानना ​​है कि केवल शेष अंतर आपके अंतिम विवरण में है। यह तुरंत स्पष्ट नहीं है कि राशि का अनुकूलन मेरे उत्तर में अनुकूलन के अनुक्रम को निष्पादित करने के समान है। वास्तव में, मुझे नहीं लगता कि यह सीधे तौर पर, सामान्य रूप से अनुसरण करता है। लेकिन, इसे यहां संबोधित करने की जरूरत नहीं है।
कार्डिनल

@ कार्डिनल, यह इंडक्शन द्वारा अनुसरण करता है। आप इंडक्शन स्टार्ट प्रदान करते हैं, और इंडक्शन स्टेप में orthonormal vectors जो योग को अधिकतम करता है और इसे व्यवस्थित करता है ताकि एक इकाई वेक्टर orthogonal से । फिर अपने परिणामों के द्वारा और प्रेरण धारणा । बेशक, -आयामी अंतरिक्ष के लिए आधार एक अनूठा आधार नहीं है। आप "उत्तल संयोजन तर्क" का भी सामान्यीकरण कर सकते हैं जिसका उपयोग आप प्रत्यक्ष रूप से साबित करने के लिए करते हैं। w1,,wqwqu1,,uq1wqTSwquqTSuqi=1q1wiTSwii=1q1uiTSuiq
NRH

1
@ कार्डिनल, मैं एक घोंसले के शिकार के लिए मजबूर नहीं कर रहा हूं, केवल एक आयाम विचार का उपयोग कर रहा हूं। यदि हमारे पास एक आयामी उप-स्थान है तो आप हमेशा उस स्थान में का चयन कर सकते हैं, जैसे कि यह एक -orthogonal उप-आयाम है। फिर आप किसी भी तरह से -basis को भरें । qwq(q1)w
एनआरएच

4

एक एल्गोरिथ्म के लिए NIPALS ( विकी ) देखें जो स्पष्ट रूप से मैट्रिक्स अपघटन का उपयोग नहीं करता है। मुझे लगता है कि जब आप कहते हैं कि आप मैट्रिक्स बीजगणित से बचना चाहते हैं तो इसका मतलब है कि आप वास्तव में यहाँ मैट्रिक्स बीजगणित से बच नहीं सकते हैं :)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.