एक बुनियादी, फिर भी एक प्रकार का श्रमसाध्य, तार्किक चरणों में स्कैप्लेट्स की मदद से पीसीए बनाम फैक्टर विश्लेषण की व्याख्या । (मैं @amoeba को धन्यवाद देता हूं, जिन्होंने प्रश्न के लिए अपनी टिप्पणी में, मुझे कहीं और बनाने के स्थान पर उत्तर पोस्ट करने के लिए प्रोत्साहित किया है। इसलिए यहां एक अवकाश, देर से प्रतिक्रिया है।)
चर संक्षेप के रूप में पीसीए (सुविधा निष्कर्षण)
आशा है कि आपको पहले से ही पीसीए की समझ है। अब पुनर्जीवित करने के लिए।
V1V2a
P1=a11V1+a12V2
P2=a21V1+a22V2
वे गुणांक घूर्णन (= दिशा कोसाइन, प्रमुख दिशाएं) के कोसाइन होते हैं और इसमें शामिल होते हैं जिन्हें ईजेनवेक्टर कहा जाता है, जबकि सहसंयोजक मैट्रिक्स के आइगेनवेल्यूज़ प्रमुख घटक संस्करण हैं। पीसीए में, हम आम तौर पर कमजोर अंतिम घटकों को छोड़ देते हैं: हम इस प्रकार कम जानकारी हानि के साथ कुछ पहले निकाले गए घटकों द्वारा डेटा को संक्षेप में प्रस्तुत करते हैं।
Covariances
V1 V2
V1 1.07652 .73915
V2 .73915 .95534
----PCA----
Eigenvalues %
P1 1.75756 86.500
P2 .27430 13.500
Eigenvectors
P1 P2
V1 .73543 -.67761
V2 .67761 .73543
हमारे प्लॉट किए गए डेटा के साथ, P1 घटक मान (स्कोर) P1 = .73543*V1 + .67761*V2
और घटक P2 हम त्याग देते हैं। P1 का विचरण है 1.75756
, सहसंयोजक मैट्रिक्स का 1 eigenvalue, और इसलिए P1 कुल विचरण के बारे 86.5%
में बताता है जो समान है ।(1.07652+.95534) = (1.75756+.27430)
चर भविष्यवाणी के रूप में पीसीए ("अव्यक्त" सुविधा)
P1 V1V2
V1=a11P1+E1
V2=a12P1+E2
aE
V1^=a11P1V2^=a12P1E1=V1−V1^E2=V2−V2^
अब, पीसीए की विशेषता क्या है कि यदि हम डेटा में हर बिंदु के लिए E1 और E2 की गणना करते हैं और इन निर्देशांक को प्लॉट करते हैं - अर्थात अकेले त्रुटियों के बिखरने को बनाते हैं, तो क्लाउड "त्रुटि डेटा" को त्यागने वाले घटक P2 के साथ मेल खाएगा। और यह करता है: क्लाउड को एक ही चित्र पर बेज क्लाउड के रूप में प्लॉट किया जाता है - और आप देखते हैं कि यह वास्तव में पी 2 को बनाता है ( चित्र 1 का ) पी 2 घटक स्कोर के साथ टाइल किया गया है।
कोई आश्चर्य नहीं, आप कह सकते हैं। यह इतना स्पष्ट है: पीसीए में , छूटे हुए जूनियर घटक (ओं) को भविष्यवाणी त्रुटियों में ई में सटीक रूप से विघटित (ओं) किया गया है, जो उस मॉडल में बताते हैं (पुनर्स्थापित करता है) अव्यक्त सुविधा (ओं) 1 द्वारा मूल चर V। त्रुटियां ई एक साथ केवल बाएं आउट घटक (ओं) का गठन करती हैं। यहां वह कारक है जहां पीसीए से कारक विश्लेषण भिन्न होने लगता है।
आम एफए का विचार (अव्यक्त विशेषता)
औपचारिक रूप से, निकाले गए अव्यक्त विशेषता (ओं) द्वारा प्रकट चर का अनुमान लगाने वाला मॉडल एफए के रूप में पीसीए में समान है; [ Eq.3 ]:
V1=a1F+E1
V2=a2F+E2
जहां F डेटा से निकाले गए अव्यक्त सामान्य कारक है और Eq.2 में P1 क्या था, इसकी जगह ले सकता है । मॉडल में अंतर यह है कि एफए में, पीसीए के विपरीत, त्रुटि चर (ई 1 और ई 2) एक दूसरे के साथ असंबंधित होना आवश्यक है ।
aaaaaaa
ठीक है, वापस थ्रेड के लिए। कारक विश्लेषण में E1 और E2 असंबंधित हैं; इस प्रकार, उन्हें या तो गोल या अण्डाकार त्रुटियों का एक बादल बनाना चाहिए, लेकिन तिरछे उन्मुख नहीं। जबकि PCA में उनके बादल का गठन सीधी रेखा के साथ होता है जो तिरछे होकर P2 होता है। दोनों विचारों को तस्वीर पर दिखाया गया है:
ध्यान दें कि एफए में त्रुटियां गोल (तिरछे लम्बी नहीं) हैं। एफए में फैक्टर (अव्यक्त) कुछ अलग है, यानी यह पहला मुख्य घटक सही नहीं है जो पीसीए में "अव्यक्त" है। तस्वीर पर, कारक रेखा अजीब रूप से शंक्वाकार है - यह स्पष्ट हो जाएगा कि अंत में क्यों।
पीसीए और एफए के बीच इस अंतर का अर्थ क्या है? वेरिएबल्स सहसंबद्ध है, जो डेटा क्लाउड के तिरछे अण्डाकार आकार में देखा जाता है। P1 ने अधिकतम विचरण को स्किम्ड किया, इसलिए दीर्घवृत्त को P1 से सह-निर्देशित किया गया। नतीजतन पी 1 स्वयं के संबंध द्वारा समझाया गया; लेकिन इसने सहसंबंध की मौजूदा मात्रा को पर्याप्त रूप से स्पष्ट नहीं किया ; यह डेटा बिंदुओं में भिन्नता को स्पष्ट करता है , सहसंबंध नहीं। दरअसल, यह सहसंबंध के लिए अति-जिम्मेदार था, जिसके परिणामस्वरूप विकर्ण की उपस्थिति थी, त्रुटियों के सहसंबंधित बादल जो अति-खाते के लिए क्षतिपूर्ति करते हैं। P1 अकेले सहसंबंध / सहसंबंध की शक्ति को बड़े पैमाने पर नहीं समझा सकता है। फैक्टर एफ कर सकते हैंअकेले करो; और जब यह करने में सक्षम हो जाता है तो स्थिति ठीक वही होती है जहां त्रुटियों को असंबद्ध होने के लिए मजबूर किया जा सकता है। चूँकि त्रुटि क्लाउड कोई सहसंबंध नहीं है - सकारात्मक या नकारात्मक - कारक निकाले जाने के बाद बना हुआ है, इसलिए यह वह कारक है जिसने यह सब स्किम कर दिया है।
एक आयामी कमी के रूप में, PCA विचरण को स्पष्ट करता है लेकिन सहसंबंधों को अभेद्य रूप से समझाता है। एफए सहसंबंधों की व्याख्या करता है लेकिन पीसीए कर सकते हैं (सामान्य कारकों द्वारा) अधिक डेटा भिन्नता के रूप में खाता नहीं है। परिवर्तनशीलता के उस हिस्से के लिए एफए खाते में कारक (एस) जो कि शुद्ध सहसंबद्ध भाग है, जिसे साम्यवाद कहा जाता है ; और इसलिए कारकों को वास्तविक अभी तक अप्रमाणित बलों / सुविधाओं / लक्षणों के रूप में व्याख्या किया जा सकता है जो उन्हें सहसंबंधित करने के लिए इनपुट चर को "इन" या "पीछे" छिपाते हैं। क्योंकि वे सहसंबंध को गणितीय रूप से अच्छी तरह समझाते हैं। प्रमुख घटक (पहले कुछ) इसे गणितीय रूप से भी स्पष्ट नहीं करते हैं और इसलिए इसे "अव्यक्त विशेषता" (या ऐसा) केवल कुछ खिंचाव और अस्थायी रूप से कहा जा सकता है ।
लोडिंग का गुणन वह है जो बताता है (पुनर्स्थापित करता है) सहसंबंध, या सहसंबंध के रूप में सहसंबंध - यदि विश्लेषण सहसंबंध मैट्रिक्स के बजाय सहसंयोजक मैट्रिक्स (उदाहरण के रूप में) पर आधारित था। कारक विश्लेषण जो मैंने उपज के साथ किया था a_1=.87352, a_2=.84528
, इसलिए उत्पाद a_1*a_2 = .73837
कोवरियन के लगभग बराबर है .73915
। दूसरी ओर, पीसीए लोडिंग थे a1_1=.97497, a1_2=.89832
, इसलिए a1_1*a1_2 = .87584
overestimates .73915
काफी।
पीसीए और एफए के बीच मुख्य सैद्धांतिक अंतर को स्पष्ट करने के बाद, आइए अपने डेटा पर विचार करने के लिए वापस जाएं।
एफए: अनुमानित समाधान (कारक स्कोर)
नीचे विश्लेषण के परिणाम दिखाते हुए स्कैल्पलॉट है जिसे हम अनंतिम रूप से "उप-इष्टतम कारक विश्लेषण" कहेंगे, Fig.3 ।
A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).
PCA के Fig.2 से प्रस्थान देखें । त्रुटियों के बेज बादल गोल नहीं है, यह तिरछे अण्डाकार है, - फिर भी यह पीसीए में होने वाली पतली विकर्ण रेखा की तुलना में जाहिर है। ध्यान दें कि त्रुटि कनेक्टर (कुछ बिंदुओं के लिए दिखाए गए) अब समानांतर नहीं हैं (पीसीए में, वे पी 2 के समानांतर परिभाषा द्वारा थे)। इसके अलावा, यदि आप देखते हैं, उदाहरण के लिए, "एफ" और "ई" बिंदुओं पर, जो कारक के एफ अक्ष पर सममित रूप से दर्पण रखते हैं , तो आप अप्रत्याशित रूप से, उनके संबंधित कारक स्कोर को काफी भिन्न मान पाएंगे। दूसरे शब्दों में, कारक स्कोर केवल रेखीय रूप से परिवर्तित प्रमुख घटक स्कोर नहीं है: कारक F को P1 तरीके से अलग तरीके से पाया जाता है। और उनके कुल्हाड़ियों पूरी तरह से करता है, तो एक ही भूखंड पर एक साथ दिखाया गया मेल नहीं खाती है Fig.4 :
इसके अलावा वे थोड़े अलग हैं ऑर्टेंटर, एफ (स्कोर के साथ टाइल की गई) छोटा है, यानी यह पी 1 खातों की तुलना में छोटे संस्करण के लिए है। जैसा कि पहले उल्लेख किया गया है, कारक केवल परिवर्तनशीलता के लिए जिम्मेदार है जो V1 V2 के सहसंबंध के लिए जिम्मेदार है, अर्थात कुल विचरण का वह हिस्सा जो प्रचलित कोवेरियन 0
से तथ्यात्मक सहसंयोजक तक चर लाने के लिए पर्याप्त है .73915
।
एफए: इष्टतम समाधान (सच्चा कारक)
एक इष्टतम कारक समाधान तब होता है जब त्रुटियां गोल या गैर-विकर्ण अंडाकार बादल होती हैं: ई 1 और ई 2 पूरी तरह से असंबंधित होते हैं । कारक विश्लेषण वास्तव में देता है इस तरह के सर्वोत्कृष्ट समाधान। मैंने इसे ऊपर के लोगों की तरह एक साधारण स्कैटरप्लॉट पर नहीं दिखाया। मैंने क्यों किया? - इसके लिए सबसे दिलचस्प बात रही होगी, आखिर।
कारण यह है कि 3 डी प्लॉट को अपनाते हुए, पर्याप्त रूप से पर्याप्त रूप से स्कैटरप्लॉट पर दिखाना असंभव होगा। यह सैद्धांतिक रूप से काफी दिलचस्प बिंदु है। ई 1 और ई 2 को पूरी तरह से असंबंधित बनाने के लिए यह प्रतीत होता है कि इन सभी तीन चर, एफ, ई 1, ई 2 को वी 1, वी 2 द्वारा परिभाषित स्थान (प्लेन) में झूठ नहीं बोलना है ; और तीनों एक दूसरे से असंबद्ध होना चाहिए । मेरा मानना है कि 5 डी (और शायद कुछ नौटंकी के साथ - 4 डी में) इस तरह के स्कैप्लेट को खींचना संभव है, लेकिन हम 3 डी दुनिया में रहते हैं, अफसोस। फैक्टर एफ को ई 1 और ई 2 दोनों से असंबद्ध होना चाहिए (जबकि वे दो भी असंबद्ध हैं) क्योंकि एफ को मनाया डेटा में केवल (स्वच्छ) और सहसंबंध का पूरा स्रोत माना जाता है। कारक विश्लेषण कुल विचलन का विभाजन करता हैp
इनपुट वेरिएबल दो असंबंधित (नॉनओवरलैपिंग) भागों में: कम्युनिटी पार्ट ( m
डायमेंशनल, जहां m
कॉमन फैक्टर्स रूल) और यूनीकनेस पार्ट ( p
-डिमैटेमिक, जहां त्रुटियां हैं, जिन्हें यूनिक फैक्टर भी कहा जाता है, परस्पर असंबद्ध)।
यहाँ एक बिखराव पर हमारे डेटा का सही कारक नहीं दिखाने के लिए क्षमा करें। इसे "विषय स्थान" में वैक्टरों के माध्यम से पर्याप्त रूप से देखा जा सकता है, जैसा कि डेटा बिंदुओं को दिखाए बिना यहां किया गया है ।
ऊपर, अनुभाग में "आम एफए (अव्यक्त सुविधा) का विचार" मैंने कारक (अक्ष एफ) को कील के रूप में प्रदर्शित किया ताकि यह चेतावनी दी जा सके कि सच्चा कारक अक्ष विमान V1 V2 पर झूठ नहीं बोलता है। इसका मतलब है कि - मूल घटक P1 के विपरीत - कारक F अक्ष के रूप में उनके स्थान पर अक्ष V1 या V2 का रोटेशन नहीं है, और F चूंकि चर V1 और V2 का एक रैखिक संयोजन नहीं है । इसलिए एफ को मॉडलिंग किया जाता है (चर V1 v2 से निकाला जाता है) जैसे कि एक बाहरी, स्वतंत्र चर, उनकी व्युत्पत्ति नहीं। Eq.1 जैसे समीकरण जहाँ से PCA की शुरुआत होती है, कारक विश्लेषण में सही (इष्टतम) कारक की गणना करने के लिए अनुपयुक्त हैं , जबकि औपचारिक रूप से सममितीय समीकरण Eq.2 और Eq.3दोनों विश्लेषणों के लिए मान्य हैं। यही है, पीसीए चर में घटक उत्पन्न करते हैं और घटक वापस चर की भविष्यवाणी करते हैं; एफए फैक्टर (एस) में वैरिएबल उत्पन्न / भविष्यवाणी करते हैं, और वापस नहीं - आम फैक्टर मॉडल वैचारिक रूप से ग्रहण करता है , भले ही तकनीकी रूप से कारकों को मनाया गया चर से निकाला जाता है।
केवल सत्य कारक ही प्रकट चर का कार्य नहीं है, सच्चे कारक के मान विशिष्ट रूप से परिभाषित नहीं हैं । दूसरे शब्दों में, वे बस अज्ञात हैं। यह सब इस तथ्य के कारण है कि हम 5 डी विश्लेषणात्मक स्थान पर हैं और डेटा के हमारे घर 2 डी अंतरिक्ष में नहीं। सच्चे कारक मूल्यों को केवल अच्छे सन्निकटन (कई विधियाँ मौजूद हैं ), जिन्हें कारक स्कोर कहा जाता है , हमारे लिए हैं। फैक्टर स्कोर विमान V1 V2 में झूठ बोलते हैं, जैसे प्रमुख घटक स्कोर हैं, उन्हें V1, V2 के रैखिक कार्यों के रूप में गणना की जाती है, और यह वे थेकि मैं "एफए: अनुमानित समाधान (कारक स्कोर)" खंड में साजिश रची। प्रमुख घटक स्कोर सच्चे घटक मूल्य हैं; कारक स्कोर अनिश्चित सत्य कारक मूल्यों के लिए केवल उचित सन्निकटन हैं।
एफए: प्रक्रिया का राउंडअप
a
इस प्रकार, "एफए: अनुमानित समाधान (कारक स्कोर)" में मेरे द्वारा प्रदर्शित "कारक समाधान" वास्तव में वास्तविक लोडिंग पर यानी वास्तविक कारकों पर आधारित था। लेकिन भाग्य से स्कोर इष्टतम नहीं थे। अंकों की गणना अवलोकन किए गए चर के एक रेखीय कार्य के रूप में की जाती है, जैसे घटक स्कोर होते हैं, इसलिए इन दोनों की तुलना एक स्कैल्पप्लॉट पर की जा सकती है और मैंने इसे एफए विचार की ओर पीसीए विचार से क्रमिक पास की तरह दिखाने के लिए किया।
जब "कारकों के स्थान" में कारक स्कोर के साथ एक ही बाइप्लॉट फैक्टर लोडिंग पर साजिश रचने से सावधान रहना चाहिए, तो सचेत रहें कि लोडिंग वास्तविक कारकों से संबंधित है, जबकि स्कोर सरोगेट कारकों से संबंधित है ( इस थ्रेड में इस उत्तर के लिए मेरी टिप्पणी देखें )।
कारकों (लोडिंग) का रोटेशन अव्यक्त सुविधाओं की व्याख्या करने में मदद करता है। पीसीए में लोडिंग का रोटेशन भी किया जा सकता है यदि आप पीसीए का उपयोग करते हैं जैसे कि कारक विश्लेषण (अर्थात, पीसीए को चर पूर्ववर्ती के रूप में देखें)। पीसीए एफए के साथ परिणामों में अभिसरण करता है क्योंकि चर की संख्या बढ़ती है ( दो तरीकों के बीच व्यावहारिक और वैचारिक समानता और अंतर पर अत्यंत समृद्ध धागा देखें )। इस उत्तर के अंत में पीसीए और एफए के बीच अंतर की मेरी सूची देखें । आईरिस के डेटासेट पर पीसीए बनाम एफए की चरणबद्ध गणना यहां पाई जाती है । इस थ्रेड के बाहर विषय पर अन्य प्रतिभागियों के उत्तरों की अच्छी संख्या है; मुझे खेद है कि मैंने वर्तमान उत्तर में उनमें से कुछ का ही उपयोग किया है।
यहां पीसीए और एफए के बीच अंतर की एक बुलेट सूची भी देखें ।