पीसीए और एक ही डाटासेट पर खोजपूर्ण कारक विश्लेषण: मतभेद और समानताएं; कारक मॉडल बनाम पीसीए


19

मैं जानना चाहूंगा कि क्या एक ही डेटा सेट पर प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) और एक्सप्लोसिव फैक्टर एनालिसिस (ईएफए) करने के लिए कोई तार्किक समझदारी है। मैंने पेशेवरों को स्पष्ट रूप से अनुशंसा करते सुना है:

  1. समझें कि विश्लेषण का लक्ष्य क्या है और डेटा विश्लेषण के लिए पीसीए या ईएफए चुनें;
  2. एक विश्लेषण करने के बाद दूसरे विश्लेषण करने की आवश्यकता नहीं है।

मैं दोनों के बीच के प्रेरक अंतर को समझता हूं, लेकिन मैं सिर्फ यह सोच रहा था कि क्या पीसीए और ईएफए द्वारा प्रदान किए गए परिणामों की व्याख्या करने में कुछ गलत है?


8
असुरक्षा क्यों? यदि आप दोनों के बीच के प्रेरक अंतर को समझते हैं, तो आपको दो में से एक स्थिति में होना चाहिए: उन्हें पूरक के रूप में फिर से पाएं और दोनों का पता लगाने के लिए तैयार रहें। आप क्या करना चाहते हैं, इसके बारे में अधिक आश्वस्त होने के बावजूद। ऐसा लगता है कि आपको बताया जाना चाहिए कि ऐसा करना एक सही बात है, लेकिन एफए के साथ या बनाम एफए विवाद का एक ऐसा पुराना क्षेत्र है कि अगर दो विशेषज्ञ सहमत हैं तो यह आमतौर पर केवल यह है कि वे दोनों एक तीसरे विशेषज्ञ से असहमत हैं, लेकिन अलग-अलग के लिए कारणों।
निक कॉक्स

आप क्या पढ़ रहे हैं? कुछ सामाजिक विज्ञान खुशी की तरह बात करते हैं या ब्याज दरों जैसे उद्देश्य डेटा?
अक्कल

जवाबों:


20

दोनों मॉडल - प्रिंसिपल-कंपोनेंट और कॉमन-फैक्टर - एक जैसे सीधे रेखीय प्रतिगामी मॉडल हैं जो अव्यक्त चरों द्वारा देखे गए चरों का अनुमान लगाते हैं। आइए हम V1 V2 के चर को केंद्रित करें ... Vp और हमने 2 घटकों / कारकों FI और FII को निकालने के लिए चुना । तब मॉडल समीकरणों की प्रणाली है:

V1=a1IFI+a1IIFII+E1

V2=a2IFI+a2IIFII+E2

...

Vp=

जहां गुणांक एक लोडिंग है, एफ एक कारक या एक घटक है, और चर प्रतिगमन अवशिष्ट है। यहां, एफए मॉडल पीसीए मॉडल से बिल्कुल अलग है कि एफए आवश्यकता को लागू करता है: चर E1 E2 ... एप (त्रुटि शब्द जो कि एफ के साथ असंबंधित हैं ) एक दूसरे के साथ सहसंबंधित नहीं होना चाहिए ( चित्र देखें )। ये त्रुटि चर एफए को "अद्वितीय कारक" कहते हैं; उनके रूपांतर ज्ञात हैं ("विशिष्टता") लेकिन उनके आवरण मूल्य नहीं हैं। इसलिए, कारक स्कोर एफ की गणना केवल अच्छे अनुमानों के रूप में की जाती है, वे सटीक नहीं हैं।

(फुटनोट 1 में इस सामान्य कारक विश्लेषण मॉडल की मैट्रिक्स बीजगणित प्रस्तुति है ।)1

जबकि पीसीए में विभिन्न चर की भविष्यवाणी करने से त्रुटि चर स्वतंत्र रूप से सहसंबंधित हो सकती है: उन पर कुछ भी नहीं लगाया जाता है। वे प्रतिनिधित्व करते हैं कि "सकल" हमने लेफ्ट-आउट पी -2 आयाम लिए हैं। हम के मूल्यों को जानते हैं और इसलिए हम घटक स्कोर एफ को सटीक मान के रूप में गणना कर सकते हैं।

पीसीए मॉडल और एफए मॉडल के बीच यही अंतर था।

यह ऊपर उल्लिखित अंतर के कारण है, कि एफए जोड़ीदार सहसंबंधों (सहसंयोजी) की व्याख्या करने में सक्षम है। पीसीए आम तौर पर यह नहीं कर सकता (जब तक कि निकाले गए घटकों की संख्या = पी ); यह केवल बहुभिन्नरूपी विचरण 2 की व्याख्या कर सकता है । तो, जब तक "कारक विश्लेषण" शब्द को सहसंबंधों को समझाने के उद्देश्य से परिभाषित किया गया है, पीसीए कारक विश्लेषण नहीं है। यदि "फैक्टर विश्लेषण" को मोटे तौर पर अव्यक्त "लक्षणों" को प्रदान करने या सुझाव देने वाली विधि के रूप में अधिक व्यापक रूप से परिभाषित किया जाता है, जिसे पीसीए देखा जा सकता है , तो कारक विश्लेषण का एक विशेष और सरल रूप है2

कभी - कभी - कुछ शर्तों के तहत कुछ डेटासेट में - पीसीए ई की शर्तें छोड़ देता है जो लगभग हस्तक्षेप नहीं करते हैं। तब पीसीए सहसंबंधों की व्याख्या कर सकता है और एफए की तरह बन सकता है। यह कई चर वाले डेटासेट के साथ बहुत असामान्य नहीं है। इससे कुछ पर्यवेक्षकों ने दावा किया कि पीसीए परिणाम डेटा बढ़ने के साथ एफए परिणामों के करीब हो जाते हैं। मुझे नहीं लगता कि यह एक नियम है, लेकिन प्रवृत्ति वास्तव में हो सकती है। वैसे भी, उनके सैद्धांतिक मतभेदों को देखते हुए, जानबूझकर विधि का चयन करना हमेशा अच्छा होता है। यदि आप चर को कम करना चाहते हैं तो एफए एक अधिक यथार्थवादी मॉडल है, जिसे आप वास्तविक अव्यक्त लक्षणों के रूप में मानते हैं जो चर के पीछे खड़े होते हैं और उन्हें सहसंबद्ध बनाते हैं।

लेकिन अगर आपके पास एक और उद्देश्य है - डेटा क्लाउड के बिंदुओं के बीच की दूरी को जितना संभव हो सके रखते हुए आयाम को कम करें - पीसीए एफए से बेहतर है। (हालाँकि, पुनरावृत्त बहुआयामी स्केलिंग (MDS) प्रक्रिया तब और भी बेहतर होगी। PCA नॉनटेरेटिव मेट्रिक MDS की मात्रा ।) यदि आप आगे दूरियों से ज्यादा परेशान नहीं होते हैं और केवल डेटा के समग्र गठजोड़ के संरक्षण में रुचि रखते हैं। संभव के रूप में, कुछ आयामों द्वारा - पीसीए एक इष्टतम विकल्प है।


फैक्टर विश्लेषण डाटा मॉडल: वी = एफ ' + d मैं एक जी ( यू ) , जहां वी हैविश्लेषण किया डेटा (स्तंभों केन्द्रित या मानकीकृत), एफ हैआम कारक मूल्यों (अज्ञात सच हैं, नहीं कारक स्कोर) यूनिट के साथ विचरण, एक हैआम कारक लोडिंग (पैटर्न मैट्रिक्स), की मैट्रिक्स हैअद्वितीय कारक मूल्यों (अज्ञात), यू हैअद्वितीय कारक लोडिंग uniquenesses (वर्ग। जड़ के बराबर की वेक्टर यू 2 )। हिस्से1V=FA+Ediag(u)Vn cases x p variablesFn x mAp x mEn x pupu2 कोसरलता के लिएकेवल "E" केरूप में लेबल किया जा सकता है, क्योंकि यह उत्तर खोलने वाले सूत्रों में है।Ediag(u)

मॉडल की मुख्य धारणाएँ:

  • और चर (क्रमशः और सामान्य और विशिष्ट कारक) में शून्य साधन और इकाई संस्करण हैं; आमतौर पर बहुभिन्नरूपी सामान्य माना जाता है, लेकिनसामान्य स्थिति में एफ को बहुभिन्नरूपी सामान्य होने की आवश्यकता नहीं है (यदि दोनों को बहुभिन्नरूपी सामान्य माना जाताहै,तो V तो भी हैं);FEEFV
  • चर एक दूसरे के साथ असंबंधित हैं और एफ चर केसाथ असंबंधित हैं।EF

यह सामान्य से इस प्रकारकारक विश्लेषणमॉडलहै कि लोडिंग एक केमीटरआम कारण (मीटर<pचर), भी निरूपित किया एक ( मीटर ) , बारीकी से चर, के बीच मनाया सहप्रसरण (या सह-संबंध) पुन: पेश करना चाहिए Σ । ताकि अगर कारक रूढ़िवादी हैं, तो मौलिककारक प्रमेयबताता है कि2 AA(m)Σ

औरΣ Σ +dमैंएकजी(यू2),Σ^=AAΣΣ^+diag(u2)

जहां Σ इसके विकर्ण पर आम प्रसरण ( "communalities") के साथ reproduced सहप्रसरण (या सह-संबंध) की मैट्रिक्स है; और अनूठे रूपांतर ("विशिष्टता") - जो भिन्न रूप हैं माइनस सांप्रदायिकता - वेक्टर यू 2 हैं । बंद विकर्ण विसंगति ( ) की वजह से एक सैद्धांतिक मॉडल पैदा डेटा है कि कारकों के, और इस तरह के रूप में यह मनाया डेटा उस पर बनाया गया था से अधिक आसान है। मनाया और पुनरुत्पादित सहसंयोजक (या सहसंबंध) के बीच विसंगति के मुख्य कारण हो सकते हैं: (1) कारकों की संख्या एम सांख्यिकीय रूप से इष्टतम नहीं है; (२) आंशिक सहसंबंध (ये हैं)Σ^u2p(p-1)/2कारक जो सामान्य कारकों से संबंधित नहीं हैं) स्पष्ट हैं; (३) सांप्रदायिकता को अच्छी तरह से स्वीकार नहीं किया गया, उनके प्रारंभिक मूल्य खराब थे; (4) संबंध रैखिक नहीं हैं, रैखिक मॉडल का उपयोग करना संदिग्ध है; (5) निष्कर्षण विधि द्वारा निर्मित मॉडल "उपप्रकार" डेटा के लिए इष्टतम नहीं है (विभिन्न निष्कर्षण विधियों के बारे में देखें )। दूसरे शब्दों में, कुछ एफए डेटा मान्यताओं को पूरी तरह से पूरा नहीं किया गया है।

सादे पीसीए के रूप में , यह लोडिंग द्वारा सहसंयोजी को ठीक उसी समय पुन: पेश करता है जब m = p (सभी घटकों का उपयोग किया जाता है) और यह आमतौर पर ऐसा करने में विफल रहता है यदि m < p (केवल कुछ 1 घटक बनाए हुए हैं)। पीसीए के लिए कारक प्रमेय है:

,Σ=AA(p)=AA(m)+AA(pm)

इसलिए दोनों लोडिंग और गिराए गए ( पी - एम ) लोडिंग सांप्रदायिकता और विशिष्टताओं के मिश्रण हैं और न ही व्यक्तिगत रूप से सहवास को बहाल करने में मदद कर सकते हैं। करीब मीटर है पी , एक नियम है, लेकिन छोटे के रूप में बेहतर पीसीए पुनर्स्थापित सहप्रसरण, मीटर (जो अक्सर हमारे ब्याज की है) मदद नहीं है। यह एफए से अलग है, जिसका उद्देश्य काफी कम इष्टतम संख्या के साथ सहसंबंधों को बहाल करना है। यदि A A ality ( p - m ) तिरछे दृष्टिकोण से आता है तो PCA, FA के साथ A की तरह हो जाता हैA(m)A(pm)AA(pm) सभी कोवरियों को बहाल करना। यह पीसीए के साथ कभी-कभी होता है, जैसा कि मैंने पहले ही उल्लेख किया है। लेकिन पीसीए में इस तरह के विकर्ण को मजबूर करने के लिए एल्गोरिदम की क्षमता का अभाव है। यह एफए एल्गोरिदम है जो इसे करते हैं।A(m)

एफए, पीसीए नहीं, एक डेटा जनरेटिव मॉडल है: यह कुछ "सही" सामान्य कारकों (आमतौर पर अज्ञात संख्या में, इसलिए आप एक सीमा के भीतर एम की कोशिश करते हैं ) को मानते हैं जो कोविरियन के लिए "सही" मान उत्पन्न करते हैं। मनाया सहसंयोजक "सच" वाले + छोटे यादृच्छिक शोर हैं। (यह प्रदर्शन किए गए विकर्ण के कारण है जो सभी कोविरियनों के एकमात्र पुनर्स्थापना को छोड़ देता है , जो उपरोक्त शोर छोटा और यादृच्छिक हो सकता है।) इष्टतम मात्रा की तुलना में अधिक कारकों को फिट करने की कोशिश करना अधिक प्रयास करने के लिए, और जरूरी नहीं कि कुशल ओवरफिटिंग हो। ।A(m)

दोनों एफए और पीसीए को अधिकतम करने के उद्देश्य , लेकिन पीसीए के लिए यह केवल लक्ष्य है, एफए के लिए यह सहवर्ती लक्ष्य है, अन्य विशिष्टताओं को विकर्ण करने के लिए है। यह ट्रेस PCA में प्रतिजन का योग है। एफए में निष्कर्षण के कुछ तरीके ट्रेस को अधिकतम करने की कीमत पर अधिक सहवर्ती लक्ष्य जोड़ते हैं, इसलिए यह प्रमुख महत्व का नहीं है।trace(AA(m))

दो तरीकों के बीच के अंतर को संक्षेप में प्रस्तुत करना। एफए उद्देश्य ( प्रत्यक्ष या परोक्ष रूप ) के अलग-अलग इसी ऑफ विकर्ण तत्वों के बीच मतभेद को कम और एक एक ' । एक सफल एफए मॉडल वह है जो छोटे और यादृच्छिक जैसे (0 के बारे में सामान्य या वर्दी, कोई आउटलेर / वसा पूंछ) के लिए त्रुटियों को छोड़ देता है । पीसीए केवल अधिकतम टी आर एक सी ( ' ) जो बराबर है टी आर एक सी ( एक ') (औरΣAAtrace(AA)trace(AA) प्रमुख घटकों में से सहप्रसरण मैट्रिक्स, जो विकर्ण मैट्रिक्स है) के बराबर है। इस प्रकार पीसीए सभी व्यक्तिगत सहसंयोजकों के साथ "व्यस्त" नहीं है: यह केवल डेटा के ऑर्थोगोनल रोटेशन का एक रूप होने के नाते नहीं कर सकता है।AA

ट्रेस को अधिकतम करने के लिए धन्यवाद - विचरण से समझाया मीटर घटकों - पीसीए है सहप्रसरण के लिए लेखांकन, के बाद से सहप्रसरण विचरण साझा किया जाता है। इस अर्थ में पीसीए चर के पूरे सहसंयोजक मैट्रिक्स का "निम्न-श्रेणी का सन्निकटन" है । और जब अवलोकनों के दृष्टिकोण से देखा जाए तो यह सन्निकटन टिप्पणियों के यूक्लिडियन-दूरी मैट्रिक्स का सन्निकटन है (यही कारण है कि पीसीए मीट्रिक एमडीएस है जिसे "प्रिंसिपल कोऑर्डिनेट एनालिसिस) कहा जाता है। इस तथ्य को हमें वास्तविकता से स्क्रीन नहीं करना चाहिए कि पीसीए मॉडल नहीं करता है। covariance मैट्रिक्स (प्रत्येक कोवरियन) कुछ जीवित अव्यक्त लक्षणों द्वारा उत्पन्न होता है जो हमारे चर के प्रति पारगमन के रूप में कल्पनाशील होते हैं; PCA सन्निकटन आसन्न रहता है, भले ही यह अच्छा हो: यह डेटा का सरलीकरण है।


यदि आप पीसीए और एफए में किए गए चरण-दर-चरण कम्प्यूटेशन देखना चाहते हैं, तो टिप्पणी की और तुलना की, कृपया यहां देखें


यह एक उत्कृष्ट उत्तर है।
सुभाष सी। दावर

2
PCA देखने के लिए मुझे एक नया दृष्टिकोण लाने के लिए +1। अब जैसा कि मैं इसे समझता हूं, पीसीए और एफए दोनों देखे गए चर के विचलन की व्याख्या कर सकते हैं, और चूंकि एफए तय करता है कि प्रत्येक चर के लिए त्रुटि शर्तों को सहसंबंधित नहीं किया जाना चाहिए, जबकि पीसीए इस तरह के श्रुतलेख नहीं बनाता है, इसलिए एफए सभी कोवरियन में कब्जा कर सकता है। देखे गए चर, लेकिन PCA ऐसा करने में विफल रहता है, क्योंकि PCA में त्रुटि की शर्तों में कुछ चर चर भी देखे जा सकते हैं, जब तक कि हम सभी चर का उपयोग करते हुए, देखे गए चर का प्रतिनिधित्व करने के लिए सही नहीं हैं?
एवोकैडो

1
बिल्कुल सही। पीसीए न केवल एक सहसंयोजक मूल्य को कम कर सकता है (जैसा कि आप शायद सोच सकते हैं), यह इसे भी अनदेखा कर सकता है। संक्षेप में, a1 * a2 <> Cov12, जो पीसीए के लिए सामान्य व्यवहार है। एफए के लिए, यह सबॉप्टिमल सॉल्यूशन का संकेत होगा (उदाहरण के लिए, निकाले गए कारकों की गलत संख्या)।
ttnphns

Σ=WW+σ2IΣ=WW+ΨΨ
अमीबा का कहना है कि मोनिका

ΣWWWΨσ2

6

मैंने निम्नलिखित थ्रेड में पीसीए और एफए के बीच समानता और अंतर का अपना खाता प्रदान किया है: क्या ईएफए के बजाय पीसीए का उपयोग करने का कोई अच्छा कारण है? इसके अलावा, पीसीए कारक विश्लेषण का विकल्प हो सकता है?

ध्यान दें कि मेरा खाता @ttnphns (जैसा कि ऊपर उनके उत्तर में प्रस्तुत किया गया है) से कुछ अलग है। मेरा मुख्य दावा है कि पीसीए और एफए उतना अलग नहीं है जितना अक्सर सोचा जाता है। जब चर की संख्या बहुत कम होती है, तो वे वास्तव में दृढ़ता से भिन्न हो सकते हैं, लेकिन चर की संख्या एक दर्जन से अधिक होने के बाद काफी समान परिणाम देते हैं। गणितीय विवरण और मोंटे कार्लो सिमुलेशन के लिए जुड़े धागे में मेरा [लंबा!] उत्तर देखें। मेरे तर्क के अधिक संक्षिप्त संस्करण के लिए यहां देखें: किन परिस्थितियों में पीसीए और एफए समान परिणाम देते हैं?

यहां मैं आपके मुख्य प्रश्न का स्पष्ट रूप से उत्तर देना चाहूंगा: क्या एक ही डेटा सेट पर पीसीए और एफए प्रदर्शन करने में कुछ गलत है? इस पर मेरा जवाब है: नहीं।

PCA या FA चलाते समय, आप किसी परिकल्पना का परीक्षण नहीं कर रहे हैं। वे दोनों खोजपूर्ण तकनीकें हैं जिनका उपयोग डेटा की बेहतर समझ प्राप्त करने के लिए किया जाता है। तो दो अलग-अलग उपकरणों के साथ डेटा का पता क्यों नहीं लगाया जाए? वास्तव में, चलो यह करते हैं!

उदाहरण: शराब डेटा सेट

n=178p=13

PCA and FA analysis of the wine dataset


If the results turn out to be very similar, then you can decide to stick with only one approach। ज़रूर। फिर कितना समान? If the results turn out to be very different, then maybe it tells you something about your dataयह पूरी तरह से रहस्यवादी और गूढ़ है।
ttnphns

हम्म, माफ करना अगर यह अस्पष्ट था। मेरा मतलब है कि अगर कई चर और पीसीए हैं तो एफए से बहुत अलग लोडिंग होती है, यह हमें कुछ बताता है। शायद, सांप्रदायिकता बहुत कम है (यानी सहसंबंध मैट्रिक्स विकर्ण पर हावी है, और ऑफ-विकर्ण तत्व छोटे हैं)। यह एक दिलचस्प अवलोकन हो सकता है। अगर मैंने किसी कारण से पीसीए और एफए के साथ एक ही डेटासेट का विश्लेषण किया और बहुत अलग परिणाम प्राप्त किए, तो मैं आगे की जांच करूंगा। क्या इस का कोई मतलब निकलता है?
अमीबा का कहना है कि

@ttnphns: मैंने एक विशेष डेटासेट के लिए काम किए गए उदाहरण के साथ एक अपडेट किया। आशा है आपको पसंद आयेगा! मेरा जुड़ा हुआ (नया) उत्तर भी देखें। यह पहली बार है जब मैंने एफए बिप्लॉट किया, और हमारी पहले की बातचीत ने मुझे इसके लिए बहुत मदद की।
अमीबा का कहना है कि मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.