दोनों मॉडल - प्रिंसिपल-कंपोनेंट और कॉमन-फैक्टर - एक जैसे सीधे रेखीय प्रतिगामी मॉडल हैं जो अव्यक्त चरों द्वारा देखे गए चरों का अनुमान लगाते हैं। आइए हम V1 V2 के चर को केंद्रित करें ... Vp और हमने 2 घटकों / कारकों FI और FII को निकालने के लिए चुना । तब मॉडल समीकरणों की प्रणाली है:
V1=a1IFI+a1IIFII+E1
V2=a2IFI+a2IIFII+E2
...
Vp=…
जहां गुणांक एक लोडिंग है, एफ एक कारक या एक घटक है, और चर ई प्रतिगमन अवशिष्ट है। यहां, एफए मॉडल पीसीए मॉडल से बिल्कुल अलग है कि एफए आवश्यकता को लागू करता है: चर E1 E2 ... एप (त्रुटि शब्द जो कि एफ के साथ असंबंधित हैं ) एक दूसरे के साथ सहसंबंधित नहीं होना चाहिए ( चित्र देखें )। ये त्रुटि चर एफए को "अद्वितीय कारक" कहते हैं; उनके रूपांतर ज्ञात हैं ("विशिष्टता") लेकिन उनके आवरण मूल्य नहीं हैं। इसलिए, कारक स्कोर एफ की गणना केवल अच्छे अनुमानों के रूप में की जाती है, वे सटीक नहीं हैं।
(फुटनोट 1 में इस सामान्य कारक विश्लेषण मॉडल की मैट्रिक्स बीजगणित प्रस्तुति है ।)1
जबकि पीसीए में विभिन्न चर की भविष्यवाणी करने से त्रुटि चर स्वतंत्र रूप से सहसंबंधित हो सकती है: उन पर कुछ भी नहीं लगाया जाता है। वे प्रतिनिधित्व करते हैं कि "सकल" हमने लेफ्ट-आउट पी -2 आयाम लिए हैं। हम ई के मूल्यों को जानते हैं और इसलिए हम घटक स्कोर एफ को सटीक मान के रूप में गणना कर सकते हैं।
पीसीए मॉडल और एफए मॉडल के बीच यही अंतर था।
यह ऊपर उल्लिखित अंतर के कारण है, कि एफए जोड़ीदार सहसंबंधों (सहसंयोजी) की व्याख्या करने में सक्षम है। पीसीए आम तौर पर यह नहीं कर सकता (जब तक कि निकाले गए घटकों की संख्या = पी ); यह केवल बहुभिन्नरूपी विचरण 2 की व्याख्या कर सकता है । तो, जब तक "कारक विश्लेषण" शब्द को सहसंबंधों को समझाने के उद्देश्य से परिभाषित किया गया है, पीसीए कारक विश्लेषण नहीं है। यदि "फैक्टर विश्लेषण" को मोटे तौर पर अव्यक्त "लक्षणों" को प्रदान करने या सुझाव देने वाली विधि के रूप में अधिक व्यापक रूप से परिभाषित किया जाता है, जिसे पीसीए देखा जा सकता है , तो कारक विश्लेषण का एक विशेष और सरल रूप है ।2
कभी - कभी - कुछ शर्तों के तहत कुछ डेटासेट में - पीसीए ई की शर्तें छोड़ देता है जो लगभग हस्तक्षेप नहीं करते हैं। तब पीसीए सहसंबंधों की व्याख्या कर सकता है और एफए की तरह बन सकता है। यह कई चर वाले डेटासेट के साथ बहुत असामान्य नहीं है। इससे कुछ पर्यवेक्षकों ने दावा किया कि पीसीए परिणाम डेटा बढ़ने के साथ एफए परिणामों के करीब हो जाते हैं। मुझे नहीं लगता कि यह एक नियम है, लेकिन प्रवृत्ति वास्तव में हो सकती है। वैसे भी, उनके सैद्धांतिक मतभेदों को देखते हुए, जानबूझकर विधि का चयन करना हमेशा अच्छा होता है। यदि आप चर को कम करना चाहते हैं तो एफए एक अधिक यथार्थवादी मॉडल है, जिसे आप वास्तविक अव्यक्त लक्षणों के रूप में मानते हैं जो चर के पीछे खड़े होते हैं और उन्हें सहसंबद्ध बनाते हैं।
लेकिन अगर आपके पास एक और उद्देश्य है - डेटा क्लाउड के बिंदुओं के बीच की दूरी को जितना संभव हो सके रखते हुए आयाम को कम करें - पीसीए एफए से बेहतर है। (हालाँकि, पुनरावृत्त बहुआयामी स्केलिंग (MDS) प्रक्रिया तब और भी बेहतर होगी। PCA नॉनटेरेटिव मेट्रिक MDS की मात्रा ।) यदि आप आगे दूरियों से ज्यादा परेशान नहीं होते हैं और केवल डेटा के समग्र गठजोड़ के संरक्षण में रुचि रखते हैं। संभव के रूप में, कुछ आयामों द्वारा - पीसीए एक इष्टतम विकल्प है।
फैक्टर विश्लेषण डाटा मॉडल: वी = एफ ए ' + ई d मैं एक जी ( यू ) , जहां वी हैविश्लेषण किया डेटा (स्तंभों केन्द्रित या मानकीकृत), एफ हैआम कारक मूल्यों (अज्ञात सच हैं, नहीं कारक स्कोर) यूनिट के साथ विचरण, एक हैआम कारक लोडिंग (पैटर्न मैट्रिक्स), की मैट्रिक्स ई हैअद्वितीय कारक मूल्यों (अज्ञात), यू हैअद्वितीय कारक लोडिंग uniquenesses (वर्ग। जड़ के बराबर की वेक्टर यू 2 )। हिस्से1V=FA′+Ediag(u)Vn cases x p variables
Fn x m
Ap x m
En x p
up
u2 कोसरलता के लिएकेवल "E" केरूप में लेबल किया जा सकता है, क्योंकि यह उत्तर खोलने वाले सूत्रों में है।Ediag(u)
मॉडल की मुख्य धारणाएँ:
- और ई चर (क्रमशः और सामान्य और विशिष्ट कारक) में शून्य साधन और इकाई संस्करण हैं;
ई आमतौर पर बहुभिन्नरूपी सामान्य माना जाता है, लेकिनसामान्य स्थिति में एफ को बहुभिन्नरूपी सामान्य होने की आवश्यकता नहीं है (यदि दोनों को बहुभिन्नरूपी सामान्य माना जाताहै,तो V तो भी हैं);FEEFV
- चर एक दूसरे के साथ असंबंधित हैं और एफ चर केसाथ असंबंधित हैं।EF
यह सामान्य से इस प्रकारकारक विश्लेषणमॉडलहै कि लोडिंग एक केमीटरआम कारण (मीटर<pचर), भी निरूपित किया एक ( मीटर ) , बारीकी से चर, के बीच मनाया सहप्रसरण (या सह-संबंध) पुन: पेश करना चाहिए Σ । ताकि अगर कारक रूढ़िवादी हैं, तो मौलिककारक प्रमेयबताता है कि2 AA(m)Σ
औरΣ≈ Σ +dमैंएकजी(यू2),Σ^=AA′Σ≈Σ^+diag(u2)
जहां Σ इसके विकर्ण पर आम प्रसरण ( "communalities") के साथ reproduced सहप्रसरण (या सह-संबंध) की मैट्रिक्स है; और अनूठे रूपांतर ("विशिष्टता") - जो भिन्न रूप हैं माइनस सांप्रदायिकता - वेक्टर यू 2 हैं । बंद विकर्ण विसंगति ( ≈ ) की वजह से एक सैद्धांतिक मॉडल पैदा डेटा है कि कारकों के, और इस तरह के रूप में यह मनाया डेटा उस पर बनाया गया था से अधिक आसान है। मनाया और पुनरुत्पादित सहसंयोजक (या सहसंबंध) के बीच विसंगति के मुख्य कारण हो सकते हैं: (1) कारकों की संख्या एम सांख्यिकीय रूप से इष्टतम नहीं है; (२) आंशिक सहसंबंध (ये हैं)Σ^u2≈p(p-1)/2
कारक जो सामान्य कारकों से संबंधित नहीं हैं) स्पष्ट हैं; (३) सांप्रदायिकता को अच्छी तरह से स्वीकार नहीं किया गया, उनके प्रारंभिक मूल्य खराब थे; (4) संबंध रैखिक नहीं हैं, रैखिक मॉडल का उपयोग करना संदिग्ध है; (5) निष्कर्षण विधि द्वारा निर्मित मॉडल "उपप्रकार" डेटा के लिए इष्टतम नहीं है (विभिन्न निष्कर्षण विधियों के बारे में देखें )। दूसरे शब्दों में, कुछ एफए डेटा मान्यताओं को पूरी तरह से पूरा नहीं किया गया है।
सादे पीसीए के रूप में , यह लोडिंग द्वारा सहसंयोजी को ठीक उसी समय पुन: पेश करता है जब m = p (सभी घटकों का उपयोग किया जाता है) और यह आमतौर पर ऐसा करने में विफल रहता है यदि m < p (केवल कुछ 1 घटक बनाए हुए हैं)। पीसीए के लिए कारक प्रमेय है:
,Σ=AA′(p)=AA′(m)+AA′(p−m)
इसलिए दोनों लोडिंग और गिराए गए ए ( पी - एम ) लोडिंग सांप्रदायिकता और विशिष्टताओं के मिश्रण हैं और न ही व्यक्तिगत रूप से सहवास को बहाल करने में मदद कर सकते हैं। करीब मीटर है पी , एक नियम है, लेकिन छोटे के रूप में बेहतर पीसीए पुनर्स्थापित सहप्रसरण, मीटर (जो अक्सर हमारे ब्याज की है) मदद नहीं है। यह एफए से अलग है, जिसका उद्देश्य काफी कम इष्टतम संख्या के साथ सहसंबंधों को बहाल करना है। यदि A A ality ( p - m ) तिरछे दृष्टिकोण से आता है तो PCA, FA के साथ A की तरह हो जाता हैA(m)A(p−m)AA′(p−m) सभी कोवरियों को बहाल करना। यह पीसीए के साथ कभी-कभी होता है, जैसा कि मैंने पहले ही उल्लेख किया है। लेकिन पीसीए में इस तरह के विकर्ण को मजबूर करने के लिए एल्गोरिदम की क्षमता का अभाव है। यह एफए एल्गोरिदम है जो इसे करते हैं।A(m)
एफए, पीसीए नहीं, एक डेटा जनरेटिव मॉडल है: यह कुछ "सही" सामान्य कारकों (आमतौर पर अज्ञात संख्या में, इसलिए आप एक सीमा के भीतर एम की कोशिश करते हैं ) को मानते हैं जो कोविरियन के लिए "सही" मान उत्पन्न करते हैं। मनाया सहसंयोजक "सच" वाले + छोटे यादृच्छिक शोर हैं। (यह प्रदर्शन किए गए विकर्ण के कारण है जो सभी कोविरियनों के एकमात्र पुनर्स्थापना को छोड़ देता है , जो उपरोक्त शोर छोटा और यादृच्छिक हो सकता है।) इष्टतम मात्रा की तुलना में अधिक कारकों को फिट करने की कोशिश करना अधिक प्रयास करने के लिए, और जरूरी नहीं कि कुशल ओवरफिटिंग हो। ।A(m)
दोनों एफए और पीसीए को अधिकतम करने के उद्देश्य , लेकिन पीसीए के लिए यह केवल लक्ष्य है, एफए के लिए यह सहवर्ती लक्ष्य है, अन्य विशिष्टताओं को विकर्ण करने के लिए है। यह ट्रेस PCA में प्रतिजन का योग है। एफए में निष्कर्षण के कुछ तरीके ट्रेस को अधिकतम करने की कीमत पर अधिक सहवर्ती लक्ष्य जोड़ते हैं, इसलिए यह प्रमुख महत्व का नहीं है।trace(A′A(m))
दो तरीकों के बीच के अंतर को संक्षेप में प्रस्तुत करना। एफए उद्देश्य ( प्रत्यक्ष या परोक्ष रूप ) के अलग-अलग इसी ऑफ विकर्ण तत्वों के बीच मतभेद को कम और एक एक ' । एक सफल एफए मॉडल वह है जो छोटे और यादृच्छिक जैसे (0 के बारे में सामान्य या वर्दी, कोई आउटलेर / वसा पूंछ) के लिए त्रुटियों को छोड़ देता है । पीसीए केवल अधिकतम टी आर एक सी ई ( ए ए ' ) जो बराबर है टी आर एक सी ई ( एक ' ए ) (औरΣAA′trace(AA′)trace(A′A) प्रमुख घटकों में से सहप्रसरण मैट्रिक्स, जो विकर्ण मैट्रिक्स है) के बराबर है। इस प्रकार पीसीए सभी व्यक्तिगत सहसंयोजकों के साथ "व्यस्त" नहीं है: यह केवल डेटा के ऑर्थोगोनल रोटेशन का एक रूप होने के नाते नहीं कर सकता है।A′A
ट्रेस को अधिकतम करने के लिए धन्यवाद - विचरण से समझाया मीटर घटकों - पीसीए है सहप्रसरण के लिए लेखांकन, के बाद से सहप्रसरण विचरण साझा किया जाता है। इस अर्थ में पीसीए चर के पूरे सहसंयोजक मैट्रिक्स का "निम्न-श्रेणी का सन्निकटन" है । और जब अवलोकनों के दृष्टिकोण से देखा जाए तो यह सन्निकटन टिप्पणियों के यूक्लिडियन-दूरी मैट्रिक्स का सन्निकटन है (यही कारण है कि पीसीए मीट्रिक एमडीएस है जिसे "प्रिंसिपल कोऑर्डिनेट एनालिसिस) कहा जाता है। इस तथ्य को हमें वास्तविकता से स्क्रीन नहीं करना चाहिए कि पीसीए मॉडल नहीं करता है। covariance मैट्रिक्स (प्रत्येक कोवरियन) कुछ जीवित अव्यक्त लक्षणों द्वारा उत्पन्न होता है जो हमारे चर के प्रति पारगमन के रूप में कल्पनाशील होते हैं; PCA सन्निकटन आसन्न रहता है, भले ही यह अच्छा हो: यह डेटा का सरलीकरण है।
यदि आप पीसीए और एफए में किए गए चरण-दर-चरण कम्प्यूटेशन देखना चाहते हैं, तो टिप्पणी की और तुलना की, कृपया यहां देखें ।