कारक विश्लेषण और प्रधान घटक विश्लेषण के बीच अंतर क्या हैं?


214

ऐसा लगता है कि कई सांख्यिकीय पैकेज जो मैं इन दोनों अवधारणाओं को एक साथ लपेटकर उपयोग करता हूं। हालांकि, मैं सोच रहा हूं कि क्या अलग-अलग धारणाएं या डेटा 'औपचारिकताएं' हैं जो एक के बाद एक का उपयोग करने के लिए सही होनी चाहिए। एक वास्तविक उदाहरण अविश्वसनीय रूप से उपयोगी होगा।


2
निम्नलिखित पुस्तक में प्रमुख घटक विश्लेषण और कारक विश्लेषण अध्याय, जो अधिकांश कॉलेज पुस्तकालयों में उपलब्ध है, अपने प्रश्न को सटीक रूप से संबोधित करें: apa.org/pubs/books/4316510.aspx
user31256

3
नीचे दिए गए उत्तरों के अलावा आप इसे और मेरा यह भी पढ़ सकते हैं
ttnphns

2
और एक और अच्छा सवाल जैसे "मुझे पीसीए या एफए का उपयोग करना चाहिए": आंकड़े ।stackexchange.com / q / 123063 / 3277
ttnphns

3
@ttnphns: मैं आपको इस धागे में एक उत्तर जारी करने के लिए प्रोत्साहित करूंगा, जिसमें संभवतः अन्य संबंधित थ्रेड्स में आपके उत्तरों की एक एनोटेट सूची होगी। यह आपकी टिप्पणियों को ऊपर ले सकता है (वर्तमान में लिंक के साथ चार टिप्पणियाँ), और अधिक व्यावहारिक होगा, खासकर यदि आपने प्रत्येक लिंक को संक्षेप में एनोटेट किया हो। जैसे इस मुद्दे की व्याख्या के लिए यहाँ देखें, उस मुद्दे की व्याख्या के लिए वहाँ देखें, आदि यह सिर्फ एक सुझाव है, लेकिन मेरा मानना ​​है कि इस धागे से बहुत फायदा होगा! एक विशेष लाभ यह है कि आप हमेशा उस उत्तर में अधिक लिंक जोड़ सकते हैं।
अमीबा

2
MathOverflow पर एक समान प्रश्न पूछा गया था, और मुझे एक उत्कृष्ट उत्तर पर विचार करने के लिए मिला: mathoverflow.net/questions/40191/…
डैनियल मोस्कोविच

जवाबों:


156

मुख्य घटक विश्लेषण में देखे गए चर के रैखिक कंपोजिट को निकालना शामिल है।

कारक विश्लेषण एक औपचारिक मॉडल पर आधारित है जो सैद्धांतिक अव्यक्त कारकों से देखे गए चर की भविष्यवाणी करता है।

मनोविज्ञान में इन दोनों तकनीकों को बहु-स्तरीय परीक्षणों के निर्माण में अक्सर लागू किया जाता है ताकि यह निर्धारित किया जा सके कि किन पैमानों पर कौन सी वस्तु लोड होती है। वे आम तौर पर इसी तरह के ठोस निष्कर्ष निकालते हैं (चर्चा के लिए कॉम्रे (1988) व्यक्तित्व और नैदानिक ​​मनोविज्ञान में स्केल डेवलपमेंट के फैक्टर-एनालिटिक तरीके)। यह यह समझाने में मदद करता है कि कुछ आँकड़े पैकेज उन्हें एक साथ बंडल करने के लिए क्यों लगते हैं। मैंने उन स्थितियों को भी देखा है जहां "प्रमुख घटक विश्लेषण" को गलत तरीके से "कारक विश्लेषण" कहा जाता है।

अंगूठे के एक सरल नियम के संदर्भ में , मेरा सुझाव है कि आप:

  1. यदि आप मान लेते हैं या अव्यक्त कारकों के एक सैद्धांतिक मॉडल का परीक्षण करना चाहते हैं तो फैक्टर विश्लेषण चलाएं।

  2. प्रमुख घटक विश्लेषण चलाएं यदि आप बस महत्वपूर्ण स्वतंत्र संयोजनों के छोटे सेट के लिए अपने सहसंबद्ध मनाया चर को कम करना चाहते हैं।


5
वहाँ अंगूठे का नियम अत्यधिक उपयोगी है। उसके लिए धन्यवाद।
ब्रैंडन बर्टेल्सन

1
अंगूठे के नियम के बारे में (1): क्या मैं खोजपूर्ण कारक के बजाय एक पुष्ट कारक विश्लेषण के साथ अव्यक्त कारकों के एक सैद्धांतिक मॉडल का परीक्षण नहीं करूंगा?
रोमन

1
@roman हाँ। एक सीएफए आपको ईएफए की तुलना में मॉडल पर बहुत अधिक नियंत्रण देता है। उदाहरण के लिए, आप लोडिंग को शून्य करने के लिए बाध्य कर सकते हैं; समान लोडिंग; अवशिष्ट का संबंध है; उच्च आदेश कारक जोड़ें; आदि
जेरोमे एंग्लीम

3
@Jeromy Anglim क्या यह कहना सही है कि पीसीए "महत्वपूर्ण स्वतंत्र समग्र चर का एक छोटा सेट" बनाता है। या आपको वास्तव में "महत्वपूर्ण असंबद्ध समग्र चर का छोटा सेट" कहना चाहिए। यदि पीसीए में उपयोग किया जा रहा अंतर्निहित डेटा (बहुभिन्नरूपी) सामान्य रूप से वितरित नहीं किया जाता है, तो कम किया गया आयामी डेटा केवल असंबंधित होगा?
FXQuantTrader

1
नियम के दूसरे अंगूठे को प्राप्त करना आसान है, लेकिन मैं पहला आवेदन कैसे करूं? शायद अजीब लगता है लेकिन जब मुझे पता है कि मैं मनाया चर के खिलाफ एक कारक मॉडल चलाना चाहते हैं?
बेन

48

मेरी प्रतिक्रिया यहाँ से:

क्या PCA एक रोटेशन (जैसे varimax) के बाद भी PCA है?

प्रमुख घटक विश्लेषण (पीसीए) और सामान्य कारक विश्लेषण (सीएफए) अलग-अलग तरीके हैं। अक्सर, वे समान परिणाम उत्पन्न करते हैं और पीसीए का उपयोग एसपीएसएस फैक्टर एनालिसिस रूटीन में डिफ़ॉल्ट निष्कर्षण विधि के रूप में किया जाता है। यह निस्संदेह दोनों के बीच अंतर के बारे में बहुत भ्रम पैदा करता है।

लब्बोलुआब यह है कि ये दो अलग-अलग मॉडल हैं, वैचारिक रूप से। पीसीए में, घटक वास्तविक ऑर्थोगोनल रैखिक संयोजन हैं जो कुल विचरण को अधिकतम करते हैं। एफए में, कारक रैखिक संयोजन हैं जो विचरण के साझा हिस्से को अधिकतम करते हैं - अंतर्निहित "अव्यक्त निर्माण"। यही कारण है कि एफए को अक्सर "सामान्य कारक विश्लेषण" कहा जाता है। एफए, विभिन्न प्रकार के अनुकूलन दिनचर्या का उपयोग करता है और परिणाम, पीसीए के विपरीत, उन दिनचर्या के लिए उपयोग किए जाने वाले अनुकूलन दिनचर्या और शुरुआती बिंदुओं पर निर्भर करता है। बस एक भी अनूठा समाधान नहीं है।

आर में, फैक्टनल () फ़ंक्शन सीएफए को अधिकतम संभावना निष्कर्षण प्रदान करता है। इसलिए, आपको यह उम्मीद नहीं करनी चाहिए कि एक SPSS परिणाम को पुन: पेश किया जाए जो एक PCA निष्कर्षण पर आधारित है। यह केवल एक ही मॉडल या तर्क नहीं है। मुझे यकीन नहीं है कि यदि आपको एसपीएसएस की अधिकतम संभावना का उपयोग करने के समान परिणाम मिलेगा, तो वे उसी एल्गोरिथ्म का उपयोग नहीं कर सकते हैं।

R में बेहतर या बदतर के लिए, आप, हालांकि, मिश्रित "कारक विश्लेषण" को पुन: उत्पन्न कर सकते हैं जो SPSS अपने डिफ़ॉल्ट के रूप में प्रदान करता है। यहाँ R में प्रक्रिया है। इस कोड के साथ, मैं इस डेटासेट का उपयोग करके SPSS प्रिंसिपल कंपोनेंट "फैक्टर एनालिसिस" परिणाम को पुन: प्रस्तुत करने में सक्षम हूँ। (संकेत के अपवाद के साथ, जो अनिश्चित है)। उस परिणाम को तब R के उपलब्ध रोटेशन तरीकों में से किसी का उपयोग करके घुमाया जा सकता है।

data(attitude)
# Compute eigenvalues and eigenvectors of the correlation matrix.
pfa.eigen <- eigen(cor(attitude))
# Print and note that eigenvalues are those produced by SPSS.
# Also note that SPSS will extract 2 components as eigenvalues > 1 = 2.
pfa.eigen$values
# Set a value for the number of factors (for clarity)
kFactors <- 2
# Extract and transform two components.
pfa.eigen$vectors[, seq_len(kFactors)]  %*% 
  diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors)

5
ध्यान दें कि आपको पैकेज principal(attitude, 2, rotate="none")से समान परिणाम मिलेंगे psychऔर यह कि Kayser का नियम (ev> 1) आयामीता के परीक्षण के लिए सबसे अनुशंसित तरीका नहीं है (यह कारकों की संख्या को कम कर देता है)।
chl

5
हां, मुझे पता है कि मनोवैज्ञानिक प्रिंसिपल इसे लपेटता है। मेरा उद्देश्य यह दिखाना था कि मुख्य घटक निष्कर्षण विधि का उपयोग करते समय SPSS "कारक विश्लेषण" क्या कर रहा था। मैं मानता हूं कि कारकों की संख्या का चयन करने के लिए आइजनवेल नियम एक खराब तरीका है। लेकिन, यह वही है जो SPSS डिफ़ॉल्ट रूप से करता है और यही वह था जो मैं प्रदर्शित कर रहा था।
ब्रेट

1
factanal()EFA को CFA नहीं प्रदान करता है। इसके अलावा, मेरे अनुभव से, एसपीएसएस की अधिकतम संभावना निष्कर्षण को वही परिणाम देना चाहिए factanal()जो कि कोई तिरछा रोटेशन नहीं है।
पे-पे-ररी

2
निम्नलिखित का क्या मतलब है: 'एफए में, कारक रैखिक संयोजन हैं जो विचरण के साझा हिस्से को अधिकतम करते हैं - अंतर्निहित "अव्यक्त निर्माण"। '?
conjectures

यह भी ध्यान दें कि CFA आम एफए के बजाय पुष्टिकरण एफए ( व्याख्यात्मक एफए के विपरीत ) के लिए खड़ा हो सकता है ।
रिचर्ड हार्डी

33

आप अपने पहले बिंदु के बारे में सही हैं, हालांकि एफए में आप आम तौर पर दोनों (विशिष्टता और सांप्रदायिकता) के साथ काम करते हैं। पीसीए और एफए के बीच का चुनाव साइकोमेट्रिक के बीच एक लंबी बहस है। मैं हालांकि आपकी बातों का पालन नहीं करता। अव्यक्त कारकों के निर्माण के लिए जो भी विधि का उपयोग किया जाता है, उसमें प्रमुख अक्षों के रोटेशन को लागू किया जा सकता है। वास्तव में, ज्यादातर बार यह VARIMAX रोटेशन (ऑर्थोगोनल रोटेशन, असंबद्ध कारकों को देखते हुए) है, जिसका उपयोग व्यावहारिक कारणों (सबसे आसान व्याख्या, सबसे आसान स्कोरिंग नियम या कारक स्कोर की व्याख्या, आदि) के लिए किया जाता है, हालांकि तिरछा रोटेशन (जैसे PROMAX) ) शायद वास्तविकता को बेहतर ढंग से प्रतिबिंबित कर सकता है (अव्यक्त निर्माण अक्सर एक दूसरे के साथ सहसंबद्ध होते हैं), कम से कम एफए की परंपरा में जहां आप मानते हैं कि एक अव्यक्त निर्माण वास्तव में आपके चर के बीच मनाया अंतर-सहसंबंधों के दिल में है। मुद्दा यह है कि पीसीए के बाद VARIMAX रोटेशन कुछ हद तक "डेटा विश्लेषण" परंपरा में मूल चर के रैखिक संयोजनों की व्याख्या को विकृत करता है (मिशेल टेनेनहौस का काम देखें)। साइकोमेट्रिक दृष्टिकोण से, एफए मॉडल को पसंद किया जाना चाहिए क्योंकि वे माप त्रुटियों के लिए स्पष्ट रूप से खाते हैं, जबकि पीसीए इस बारे में परवाह नहीं करता है। संक्षेप में कहा गया है, PCA का उपयोग करके आप प्रत्येक घटक (कारक) को चर के रैखिक संयोजन के रूप में व्यक्त कर रहे हैं, जबकि FA में ये चर हैं जो कारकों के रैखिक संयोजन के रूप में व्यक्त किए जाते हैं (सांप्रदायिकता और विशिष्टता घटकों सहित, जैसा आपने कहा)। मुद्दा यह है कि पीसीए के बाद VARIMAX रोटेशन कुछ हद तक "डेटा विश्लेषण" परंपरा में मूल चर के रैखिक संयोजनों की व्याख्या को विकृत करता है (मिशेल टेननहौस का काम देखें)। साइकोमेट्रिक दृष्टिकोण से, एफए मॉडल को पसंद किया जाना चाहिए क्योंकि वे माप त्रुटियों के लिए स्पष्ट रूप से खाते हैं, जबकि पीसीए इस बारे में परवाह नहीं करता है। संक्षेप में कहा गया है, पीसीए का उपयोग करके आप प्रत्येक घटक (कारक) को चर के रैखिक संयोजन के रूप में व्यक्त कर रहे हैं, जबकि एफए में ये चर हैं जो कारकों के रैखिक संयोजनों (सांप्रदायिकता और विशिष्टता घटकों सहित,) के रूप में व्यक्त किए जाते हैं। मुद्दा यह है कि पीसीए के बाद VARIMAX रोटेशन कुछ हद तक "डेटा विश्लेषण" परंपरा में मूल चर के रैखिक संयोजनों की व्याख्या को विकृत करता है (मिशेल टेननहौस का काम देखें)। साइकोमेट्रिक दृष्टिकोण से, एफए मॉडल को पसंद किया जाना चाहिए क्योंकि वे माप त्रुटियों के लिए स्पष्ट रूप से खाते हैं, जबकि पीसीए इस बारे में परवाह नहीं करता है। संक्षेप में कहा गया है, PCA का उपयोग करके आप प्रत्येक घटक (कारक) को चर के रैखिक संयोजन के रूप में व्यक्त कर रहे हैं, जबकि FA में ये चर हैं जो कारकों के रैखिक संयोजन के रूप में व्यक्त किए जाते हैं (सांप्रदायिकता और विशिष्टता घटकों सहित, जैसा आपने कहा)। एफए मॉडल को पसंद किया जाना चाहिए क्योंकि वे माप त्रुटियों के लिए स्पष्ट रूप से खाते हैं, जबकि पीसीए इस बारे में परवाह नहीं करता है। संक्षेप में कहा गया है, PCA का उपयोग करके आप प्रत्येक घटक (कारक) को चर के रैखिक संयोजन के रूप में व्यक्त कर रहे हैं, जबकि FA में ये चर हैं जो कारकों के रैखिक संयोजन के रूप में व्यक्त किए जाते हैं (सांप्रदायिकता और विशिष्टता घटकों सहित, जैसा आपने कहा)। एफए मॉडल को पसंद किया जाना चाहिए क्योंकि वे माप त्रुटियों के लिए स्पष्ट रूप से खाते हैं, जबकि पीसीए इस बारे में परवाह नहीं करता है। संक्षेप में कहा गया है, PCA का उपयोग करके आप प्रत्येक घटक (कारक) को चर के रैखिक संयोजन के रूप में व्यक्त कर रहे हैं, जबकि FA में ये चर हैं जो कारकों के रैखिक संयोजन के रूप में व्यक्त किए जाते हैं (सांप्रदायिकता और विशिष्टता घटकों सहित, जैसा आपने कहा)।

मैं आपको इस विषय के बारे में निम्नलिखित चर्चाओं को पहले पढ़ने की सलाह देता हूं:


7
केवल यह कहने के लिए कि मेरा उत्तर वास्तव में थोड़ा हटकर-विषय लग सकता है क्योंकि इस प्रश्न को एक दूसरे के साथ मिला दिया गया है, आंकड़े ।stackexchange.com / questions / 3369 / (मैं शुरू में उत्तर का उत्तर देता हूं)।
chl

6
आह, मैं सोच रहा था कि आप इस विडिओ से क्यों जुड़े, इस सवाल में ... :)
ब्रैंडन बर्टेल्सन

1
PCA followed by VARIMAX rotation somewhat distorts the interpretation of the linear combinations of the original variables in the "data analysis" tradition। Chl, क्या आप इसे एक्सप्लोर कर सकते हैं? यह तो दिलचस्प है।
ttnphns

32

वेब पर कई सुझाई गई परिभाषाएँ हैं। यहाँ सांख्यिकीय शिक्षा पर एक ऑनलाइन शब्दावली से एक है :

प्रमुख कंपोनेंट विश्लेषण

नई सुविधाओं का निर्माण जो एक डेटा सेट के प्रमुख घटक हैं। प्रमुख घटक इनपुट विशेषताओं के रैखिक संयोजनों से निर्मित अधिकतम विचरण के यादृच्छिक चर हैं। समान रूप से, वे प्रमुख घटक कुल्हाड़ियों पर अनुमान हैं, जो लाइनें हैं जो डेटा सेट में प्रत्येक बिंदु पर औसत चुकता दूरी को कम करते हैं। विशिष्टता सुनिश्चित करने के लिए, सभी प्रमुख घटक अक्षों को ऑर्थोगोनल होना चाहिए। पीसीए इनपुट और आउटपुट दोनों पर गॉसियन शोर की उपस्थिति में रैखिक प्रतिगमन के लिए एक अधिकतम-संभावना तकनीक है। कुछ मामलों में, पीसीए एक फूरियर ट्रांसफॉर्म से मेल खाती है, जैसे कि जेपीईजी इमेज संपीड़न में प्रयुक्त डीसीटी। "पहचान के लिए आइजनफेस" (तुर्क और पेंटलैंड, जे संज्ञानात्मक तंत्रिका विज्ञान 3 (1), 1991), बिशप, देखें "

कारक विश्लेषण

पीसीए का एक सामान्यीकरण जो स्पष्ट रूप से अधिकतम-संभावना पर आधारित है। पीसीए की तरह, प्रत्येक डेटा बिंदु को एक उप-बिंदु में एक बिंदु का नमूना लेने और फिर इसे पूर्ण-आयामी गॉसियन शोर के साथ खराब करने के लिए माना जाता है। अंतर यह है कि कारक विश्लेषण शोर को एक मनमाने विकर्ण सहसंयोजक मैट्रिक्स की अनुमति देता है, जबकि पीसीए मानता है कि शोर गोलाकार है। उप-स्थान का आकलन करने के अलावा, कारक विश्लेषण शोर सहसंयोजक मैट्रिक्स का अनुमान लगाता है। फैक्टर एनालाइज़र के मिश्रण के लिए "EM एल्गोरिथ्म देखें। पीसीए के लिए आयामीता का आनंद"।


2
कारक विश्लेषण विवरण को मुख्य बिंदु (विकर्ण सहसंयोजक) प्राप्त होता है, लेकिन ऐतिहासिक रूप से पीसीए के सामान्यीकरण के रूप में विकसित नहीं किया गया था।
conjectures

1
तो मूल रूप से, पीसीए में एक svd का सहसंयोजक मैट्रिक्स और एफए में सहसंबंध मैट्रिक्स? यह मेरे लिए हमेशा कठिन होता है कि वास्तविक गणित को खोजने के बाद तरीकों ने उस क्षेत्र से बहुत अधिक शब्दावली का निर्माण किया है जहां वे लागू होते हैं। (ऑफ-टॉपिक: इसने एक बार मुझे पूरी दोपहर समझ लिया कि पथ मॉडलिंग क्या है जब तक कि मुझे 70 का 70 का पेपर नहीं मिला है जो इसके पीछे मैट्रिक्स समीकरण है।)
मार्क वैन डेर

28

इस सूत्र में शीर्ष उत्तर बताता है कि पीसीए एक आयामी कमी तकनीक का अधिक है, जबकि एफए एक अव्यक्त चर तकनीक का अधिक है। यह सेंसु सख्त है। लेकिन कई जवाब यहां और कई उपचार कहीं और पेश करते हैं, पीसीए और एफए दो पूरी तरह से अलग-अलग तरीकों के रूप में, अगर लक्ष्य, विधियों और परिणामों के विपरीत नहीं, तो भिन्नता के साथ। मैं असहमत हूं; मेरा मानना ​​है कि जब पीसीए को एक अव्यक्त चर तकनीक के रूप में लिया जाता है, तो यह एफए के काफी करीब है, और उन्हें बेहतर समान तरीकों के रूप में देखा जाना चाहिए।

मैंने निम्नलिखित थ्रेड में पीसीए और एफए के बीच समानता और अंतर का अपना खाता प्रदान किया है: क्या ईएफए के बजाय पीसीए का उपयोग करने का कोई अच्छा कारण है? इसके अलावा, पीसीए कारक विश्लेषण का विकल्प हो सकता है? वहां मेरा तर्क है कि सरल गणितीय कारणों से पीसीए और एफए के परिणाम काफी समान होने की उम्मीद की जा सकती है, केवल यह देखते हुए कि चर की संख्या बहुत कम नहीं है (शायद एक दर्जन से अधिक)। गणितीय विवरण और मोंटे कार्लो सिमुलेशन के लिए जुड़े धागे में मेरा [लंबा!] उत्तर देखें। मेरे तर्क के अधिक संक्षिप्त संस्करण के लिए यहां देखें: किन परिस्थितियों में पीसीए और एफए समान परिणाम देते हैं?

n=178p=13

शराब डाटासेट के सहसंबंध मैट्रिक्स

n=178

पीसीए और एफए विश्लेषण शराब डाटासेट के

p=131331

ध्यान दें कि पीसीए और एफए के बीच शायद ही कोई अंतर है! यहां और वहां छोटे विचलन हैं, लेकिन सामान्य तस्वीर लगभग समान है, और सभी लोडिंग बहुत समान हैं और एक ही दिशा में इंगित करते हैं। यह वही है जो सिद्धांत से अपेक्षित था और कोई आश्चर्य की बात नहीं है; फिर भी, यह निरीक्षण करने के लिए शिक्षाप्रद है।

पुनश्च। एक ही डेटासेट के बहुत पहले वाले PCA biplot के लिए, @vvv द्वारा यह उत्तर देखें ।

पी पी एस। जबकि पीसीए गणना मानक हैं, एफए गणना को एक टिप्पणी की आवश्यकता हो सकती है। फैक्टर लोडिंग की गणना अभिसरण (9 पुनरावृत्तियों) तक एक "पुनरावृत्त प्रमुख कारकों" एल्गोरिथ्म द्वारा की गई थी, जिसमें आंशिक सहसंबंधों के साथ सांप्रदायिकता शुरू की गई थी। एक बार लोडिंग में परिवर्तित होने के बाद, बारलेट की विधि का उपयोग करके स्कोर की गणना की गई। यह मानकीकृत अंक अर्जित करता है; मैंने उन्हें संबंधित कारक भिन्नताओं (लोडिंग लंबाई द्वारा दिए गए) द्वारा बढ़ाया।


1
पीसीए और कारक विश्लेषण भूखंड बनाने के लिए आपने किस सॉफ्टवेयर का उपयोग किया?
रन्सो

1
मैंने मतलूब का इस्तेमाल किया। मैं अपने उत्तर में कोड चिपकाने के बारे में सोच रहा था (जैसा कि आम तौर पर मेरी आदत है), लेकिन इस व्यस्त धागे को और भी अधिक अव्यवस्था नहीं करना चाहता था। लेकिन इसके बारे में सोचने के लिए, मुझे इसे किसी बाहरी वेबसाइट पर पोस्ट करना चाहिए और यहां एक लिंक छोड़ना चाहिए। मै वो कर लूंगा।
अमीबा

2
यह सच है कि पीसीए और एफए कभी-कभी नहीं होते हैं और शायद ही कभी समान परिणाम (लोडिंग) देते हैं, और इसलिए पीसीए को एफए के एक विशिष्ट मामले के रूप में देखा जा सकता है , जब कारक विश्लेषण को मोटे तौर पर परिभाषित किया जाता है। अभी भी एफए (सेंसु सिन्गो) और पीसीए सैद्धांतिक रूप से काफी अलग हैं।
ttnphns

2
(cont।) कारक पारवर्ती अव्यक्त लक्षण हैं; जनसंपर्क। घटक आसन्न व्युत्पन्न हैं। आपके दो लोडिंग प्लॉट व्यावहारिक रूप से समान दिखाई देते हैं, सैद्धांतिक रूप से वे मौलिक रूप से अलग हैं। बाईं ओर के घटक विमान को उन सबवेबल्स के एक उप-समूह के रूप में निर्मित किया गया था जो इस पर खुद को प्रोजेक्ट करते हैं। कारक विमान को चर के स्थान से अलग अंतरिक्ष के रूप में उत्पादित किया गया था , और इसलिए वे सही भूखंड पर "विदेशी" अंतरिक्ष पर खुद को प्रोजेक्ट करते हैं।
ttnphns

3
(प्रतियोगिता।) लेकिन सही तस्वीर (एफए) वास्तव में एक वास्तविक द्विपद नहीं है , बल्कि यह दो अलग-अलग स्कैप्लेट्स, विभिन्न स्थानों का एक उपरिशायी है: लोडिंग प्लॉट (जहां अक्ष वास्तविक कारक हैं) और ऑब्जेक्ट स्कोर प्लॉट (जहां अक्ष हैं) स्कोर के रूप में अनुमानित कारक)। ट्रू फैक्टर स्पेस "पैरेंटल" वैरिएबल स्पेस को ओवरर कर देता है, लेकिन फैक्टर स्कोर स्पेस इसका सबस्पास है। आप कुल्हाड़ियों के दो विषम जोड़े आरोपित, लेकिन वे एक ही लेबल ( "factor1" और "factor2" दोनों जोड़े में) जो परिस्थिति दृढ़ता से भ्रामक है और लगता है कि एक सदाशयी है हमें उकसाता है सहन biplot , बाएं से एक की तरह।
ttnphns

25

एक बुनियादी, फिर भी एक प्रकार का श्रमसाध्य, तार्किक चरणों में स्कैप्लेट्स की मदद से पीसीए बनाम फैक्टर विश्लेषण की व्याख्या । (मैं @amoeba को धन्यवाद देता हूं, जिन्होंने प्रश्न के लिए अपनी टिप्पणी में, मुझे कहीं और बनाने के स्थान पर उत्तर पोस्ट करने के लिए प्रोत्साहित किया है। इसलिए यहां एक अवकाश, देर से प्रतिक्रिया है।)

चर संक्षेप के रूप में पीसीए (सुविधा निष्कर्षण)

आशा है कि आपको पहले से ही पीसीए की समझ है। अब पुनर्जीवित करने के लिए।

यहां छवि विवरण दर्ज करें

V1V2a

P1=a11V1+a12V2

P2=a21V1+a22V2

वे गुणांक घूर्णन (= दिशा कोसाइन, प्रमुख दिशाएं) के कोसाइन होते हैं और इसमें शामिल होते हैं जिन्हें ईजेनवेक्टर कहा जाता है, जबकि सहसंयोजक मैट्रिक्स के आइगेनवेल्यूज़ प्रमुख घटक संस्करण हैं। पीसीए में, हम आम तौर पर कमजोर अंतिम घटकों को छोड़ देते हैं: हम इस प्रकार कम जानकारी हानि के साथ कुछ पहले निकाले गए घटकों द्वारा डेटा को संक्षेप में प्रस्तुत करते हैं।

Covariances
        V1       V2 
V1  1.07652   .73915 
V2   .73915   .95534 

----PCA---- 
Eigenvalues      % 
P1  1.75756   86.500 
P2   .27430   13.500 

Eigenvectors
        P1       P2
V1   .73543  -.67761 
V2   .67761   .73543

हमारे प्लॉट किए गए डेटा के साथ, P1 घटक मान (स्कोर) P1 = .73543*V1 + .67761*V2और घटक P2 हम त्याग देते हैं। P1 का विचरण है 1.75756, सहसंयोजक मैट्रिक्स का 1 eigenvalue, और इसलिए P1 कुल विचरण के बारे 86.5%में बताता है जो समान है ।(1.07652+.95534) = (1.75756+.27430)

चर भविष्यवाणी के रूप में पीसीए ("अव्यक्त" सुविधा)

P1 V1V2

V1=a11P1+E1

V2=a12P1+E2

aE

यहां छवि विवरण दर्ज करें

V1^=a11P1V2^=a12P1E1=V1V1^E2=V2V2^

अब, पीसीए की विशेषता क्या है कि यदि हम डेटा में हर बिंदु के लिए E1 और E2 की गणना करते हैं और इन निर्देशांक को प्लॉट करते हैं - अर्थात अकेले त्रुटियों के बिखरने को बनाते हैं, तो क्लाउड "त्रुटि डेटा" को त्यागने वाले घटक P2 के साथ मेल खाएगा। और यह करता है: क्लाउड को एक ही चित्र पर बेज क्लाउड के रूप में प्लॉट किया जाता है - और आप देखते हैं कि यह वास्तव में पी 2 को बनाता है ( चित्र 1 का ) पी 2 घटक स्कोर के साथ टाइल किया गया है।

कोई आश्चर्य नहीं, आप कह सकते हैं। यह इतना स्पष्ट है: पीसीए में , छूटे हुए जूनियर घटक (ओं) को भविष्यवाणी त्रुटियों में ई में सटीक रूप से विघटित (ओं) किया गया है, जो उस मॉडल में बताते हैं (पुनर्स्थापित करता है) अव्यक्त सुविधा (ओं) 1 द्वारा मूल चर V। त्रुटियां ई एक साथ केवल बाएं आउट घटक (ओं) का गठन करती हैं। यहां वह कारक है जहां पीसीए से कारक विश्लेषण भिन्न होने लगता है।

आम एफए का विचार (अव्यक्त विशेषता)

औपचारिक रूप से, निकाले गए अव्यक्त विशेषता (ओं) द्वारा प्रकट चर का अनुमान लगाने वाला मॉडल एफए के रूप में पीसीए में समान है; [ Eq.3 ]:

V1=a1F+E1

V2=a2F+E2

जहां F डेटा से निकाले गए अव्यक्त सामान्य कारक है और Eq.2 में P1 क्या था, इसकी जगह ले सकता है । मॉडल में अंतर यह है कि एफए में, पीसीए के विपरीत, त्रुटि चर (ई 1 और ई 2) एक दूसरे के साथ असंबंधित होना आवश्यक है

aaaaaaa

ठीक है, वापस थ्रेड के लिए। कारक विश्लेषण में E1 और E2 असंबंधित हैं; इस प्रकार, उन्हें या तो गोल या अण्डाकार त्रुटियों का एक बादल बनाना चाहिए, लेकिन तिरछे उन्मुख नहीं। जबकि PCA में उनके बादल का गठन सीधी रेखा के साथ होता है जो तिरछे होकर P2 होता है। दोनों विचारों को तस्वीर पर दिखाया गया है:

यहां छवि विवरण दर्ज करें

ध्यान दें कि एफए में त्रुटियां गोल (तिरछे लम्बी नहीं) हैं। एफए में फैक्टर (अव्यक्त) कुछ अलग है, यानी यह पहला मुख्य घटक सही नहीं है जो पीसीए में "अव्यक्त" है। तस्वीर पर, कारक रेखा अजीब रूप से शंक्वाकार है - यह स्पष्ट हो जाएगा कि अंत में क्यों।

पीसीए और एफए के बीच इस अंतर का अर्थ क्या है? वेरिएबल्स सहसंबद्ध है, जो डेटा क्लाउड के तिरछे अण्डाकार आकार में देखा जाता है। P1 ने अधिकतम विचरण को स्किम्ड किया, इसलिए दीर्घवृत्त को P1 से सह-निर्देशित किया गया। नतीजतन पी 1 स्वयं के संबंध द्वारा समझाया गया; लेकिन इसने सहसंबंध की मौजूदा मात्रा को पर्याप्त रूप से स्पष्ट नहीं किया ; यह डेटा बिंदुओं में भिन्नता को स्पष्ट करता है , सहसंबंध नहीं। दरअसल, यह सहसंबंध के लिए अति-जिम्मेदार था, जिसके परिणामस्वरूप विकर्ण की उपस्थिति थी, त्रुटियों के सहसंबंधित बादल जो अति-खाते के लिए क्षतिपूर्ति करते हैं। P1 अकेले सहसंबंध / सहसंबंध की शक्ति को बड़े पैमाने पर नहीं समझा सकता है। फैक्टर एफ कर सकते हैंअकेले करो; और जब यह करने में सक्षम हो जाता है तो स्थिति ठीक वही होती है जहां त्रुटियों को असंबद्ध होने के लिए मजबूर किया जा सकता है। चूँकि त्रुटि क्लाउड कोई सहसंबंध नहीं है - सकारात्मक या नकारात्मक - कारक निकाले जाने के बाद बना हुआ है, इसलिए यह वह कारक है जिसने यह सब स्किम कर दिया है।

एक आयामी कमी के रूप में, PCA विचरण को स्पष्ट करता है लेकिन सहसंबंधों को अभेद्य रूप से समझाता है। एफए सहसंबंधों की व्याख्या करता है लेकिन पीसीए कर सकते हैं (सामान्य कारकों द्वारा) अधिक डेटा भिन्नता के रूप में खाता नहीं है। परिवर्तनशीलता के उस हिस्से के लिए एफए खाते में कारक (एस) जो कि शुद्ध सहसंबद्ध भाग है, जिसे साम्यवाद कहा जाता है ; और इसलिए कारकों को वास्तविक अभी तक अप्रमाणित बलों / सुविधाओं / लक्षणों के रूप में व्याख्या किया जा सकता है जो उन्हें सहसंबंधित करने के लिए इनपुट चर को "इन" या "पीछे" छिपाते हैं। क्योंकि वे सहसंबंध को गणितीय रूप से अच्छी तरह समझाते हैं। प्रमुख घटक (पहले कुछ) इसे गणितीय रूप से भी स्पष्ट नहीं करते हैं और इसलिए इसे "अव्यक्त विशेषता" (या ऐसा) केवल कुछ खिंचाव और अस्थायी रूप से कहा जा सकता है

लोडिंग का गुणन वह है जो बताता है (पुनर्स्थापित करता है) सहसंबंध, या सहसंबंध के रूप में सहसंबंध - यदि विश्लेषण सहसंबंध मैट्रिक्स के बजाय सहसंयोजक मैट्रिक्स (उदाहरण के रूप में) पर आधारित था। कारक विश्लेषण जो मैंने उपज के साथ किया था a_1=.87352, a_2=.84528, इसलिए उत्पाद a_1*a_2 = .73837कोवरियन के लगभग बराबर है .73915। दूसरी ओर, पीसीए लोडिंग थे a1_1=.97497, a1_2=.89832, इसलिए a1_1*a1_2 = .87584overestimates .73915काफी।

पीसीए और एफए के बीच मुख्य सैद्धांतिक अंतर को स्पष्ट करने के बाद, आइए अपने डेटा पर विचार करने के लिए वापस जाएं।

एफए: अनुमानित समाधान (कारक स्कोर)

नीचे विश्लेषण के परिणाम दिखाते हुए स्कैल्पलॉट है जिसे हम अनंतिम रूप से "उप-इष्टतम कारक विश्लेषण" कहेंगे, Fig.3

A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).

यहां छवि विवरण दर्ज करें

PCA के Fig.2 से प्रस्थान देखें । त्रुटियों के बेज बादल गोल नहीं है, यह तिरछे अण्डाकार है, - फिर भी यह पीसीए में होने वाली पतली विकर्ण रेखा की तुलना में जाहिर है। ध्यान दें कि त्रुटि कनेक्टर (कुछ बिंदुओं के लिए दिखाए गए) अब समानांतर नहीं हैं (पीसीए में, वे पी 2 के समानांतर परिभाषा द्वारा थे)। इसके अलावा, यदि आप देखते हैं, उदाहरण के लिए, "एफ" और "ई" बिंदुओं पर, जो कारक के एफ अक्ष पर सममित रूप से दर्पण रखते हैं , तो आप अप्रत्याशित रूप से, उनके संबंधित कारक स्कोर को काफी भिन्न मान पाएंगे। दूसरे शब्दों में, कारक स्कोर केवल रेखीय रूप से परिवर्तित प्रमुख घटक स्कोर नहीं है: कारक F को P1 तरीके से अलग तरीके से पाया जाता है। और उनके कुल्हाड़ियों पूरी तरह से करता है, तो एक ही भूखंड पर एक साथ दिखाया गया मेल नहीं खाती है Fig.4 :

यहां छवि विवरण दर्ज करें

इसके अलावा वे थोड़े अलग हैं ऑर्टेंटर, एफ (स्कोर के साथ टाइल की गई) छोटा है, यानी यह पी 1 खातों की तुलना में छोटे संस्करण के लिए है। जैसा कि पहले उल्लेख किया गया है, कारक केवल परिवर्तनशीलता के लिए जिम्मेदार है जो V1 V2 के सहसंबंध के लिए जिम्मेदार है, अर्थात कुल विचरण का वह हिस्सा जो प्रचलित कोवेरियन 0से तथ्यात्मक सहसंयोजक तक चर लाने के लिए पर्याप्त है .73915

एफए: इष्टतम समाधान (सच्चा कारक)

एक इष्टतम कारक समाधान तब होता है जब त्रुटियां गोल या गैर-विकर्ण अंडाकार बादल होती हैं: ई 1 और ई 2 पूरी तरह से असंबंधित होते हैं । कारक विश्लेषण वास्तव में देता है इस तरह के सर्वोत्कृष्ट समाधान। मैंने इसे ऊपर के लोगों की तरह एक साधारण स्कैटरप्लॉट पर नहीं दिखाया। मैंने क्यों किया? - इसके लिए सबसे दिलचस्प बात रही होगी, आखिर।

कारण यह है कि 3 डी प्लॉट को अपनाते हुए, पर्याप्त रूप से पर्याप्त रूप से स्कैटरप्लॉट पर दिखाना असंभव होगा। यह सैद्धांतिक रूप से काफी दिलचस्प बिंदु है। ई 1 और ई 2 को पूरी तरह से असंबंधित बनाने के लिए यह प्रतीत होता है कि इन सभी तीन चर, एफ, ई 1, ई 2 को वी 1, वी 2 द्वारा परिभाषित स्थान (प्लेन) में झूठ नहीं बोलना है ; और तीनों एक दूसरे से असंबद्ध होना चाहिए । मेरा मानना ​​है कि 5 डी (और शायद कुछ नौटंकी के साथ - 4 डी में) इस तरह के स्कैप्लेट को खींचना संभव है, लेकिन हम 3 डी दुनिया में रहते हैं, अफसोस। फैक्टर एफ को ई 1 और ई 2 दोनों से असंबद्ध होना चाहिए (जबकि वे दो भी असंबद्ध हैं) क्योंकि एफ को मनाया डेटा में केवल (स्वच्छ) और सहसंबंध का पूरा स्रोत माना जाता है। कारक विश्लेषण कुल विचलन का विभाजन करता हैpइनपुट वेरिएबल दो असंबंधित (नॉनओवरलैपिंग) भागों में: कम्युनिटी पार्ट ( mडायमेंशनल, जहां mकॉमन फैक्टर्स रूल) और यूनीकनेस पार्ट ( p-डिमैटेमिक, जहां त्रुटियां हैं, जिन्हें यूनिक फैक्टर भी कहा जाता है, परस्पर असंबद्ध)।

यहाँ एक बिखराव पर हमारे डेटा का सही कारक नहीं दिखाने के लिए क्षमा करें। इसे "विषय स्थान" में वैक्टरों के माध्यम से पर्याप्त रूप से देखा जा सकता है, जैसा कि डेटा बिंदुओं को दिखाए बिना यहां किया गया है

ऊपर, अनुभाग में "आम एफए (अव्यक्त सुविधा) का विचार" मैंने कारक (अक्ष एफ) को कील के रूप में प्रदर्शित किया ताकि यह चेतावनी दी जा सके कि सच्चा कारक अक्ष विमान V1 V2 पर झूठ नहीं बोलता है। इसका मतलब है कि - मूल घटक P1 के विपरीत - कारक F अक्ष के रूप में उनके स्थान पर अक्ष V1 या V2 का रोटेशन नहीं है, और F चूंकि चर V1 और V2 का एक रैखिक संयोजन नहीं है । इसलिए एफ को मॉडलिंग किया जाता है (चर V1 v2 से निकाला जाता है) जैसे कि एक बाहरी, स्वतंत्र चर, उनकी व्युत्पत्ति नहीं। Eq.1 जैसे समीकरण जहाँ से PCA की शुरुआत होती है, कारक विश्लेषण में सही (इष्टतम) कारक की गणना करने के लिए अनुपयुक्त हैं , जबकि औपचारिक रूप से सममितीय समीकरण Eq.2 और Eq.3दोनों विश्लेषणों के लिए मान्य हैं। यही है, पीसीए चर में घटक उत्पन्न करते हैं और घटक वापस चर की भविष्यवाणी करते हैं; एफए फैक्टर (एस) में वैरिएबल उत्पन्न / भविष्यवाणी करते हैं, और वापस नहीं - आम फैक्टर मॉडल वैचारिक रूप से ग्रहण करता है , भले ही तकनीकी रूप से कारकों को मनाया गया चर से निकाला जाता है।

केवल सत्य कारक ही प्रकट चर का कार्य नहीं है, सच्चे कारक के मान विशिष्ट रूप से परिभाषित नहीं हैं । दूसरे शब्दों में, वे बस अज्ञात हैं। यह सब इस तथ्य के कारण है कि हम 5 डी विश्लेषणात्मक स्थान पर हैं और डेटा के हमारे घर 2 डी अंतरिक्ष में नहीं। सच्चे कारक मूल्यों को केवल अच्छे सन्निकटन (कई विधियाँ मौजूद हैं ), जिन्हें कारक स्कोर कहा जाता है , हमारे लिए हैं। फैक्टर स्कोर विमान V1 V2 में झूठ बोलते हैं, जैसे प्रमुख घटक स्कोर हैं, उन्हें V1, V2 के रैखिक कार्यों के रूप में गणना की जाती है, और यह वे थेकि मैं "एफए: अनुमानित समाधान (कारक स्कोर)" खंड में साजिश रची। प्रमुख घटक स्कोर सच्चे घटक मूल्य हैं; कारक स्कोर अनिश्चित सत्य कारक मूल्यों के लिए केवल उचित सन्निकटन हैं।

एफए: प्रक्रिया का राउंडअप

a

इस प्रकार, "एफए: अनुमानित समाधान (कारक स्कोर)" में मेरे द्वारा प्रदर्शित "कारक समाधान" वास्तव में वास्तविक लोडिंग पर यानी वास्तविक कारकों पर आधारित था। लेकिन भाग्य से स्कोर इष्टतम नहीं थे। अंकों की गणना अवलोकन किए गए चर के एक रेखीय कार्य के रूप में की जाती है, जैसे घटक स्कोर होते हैं, इसलिए इन दोनों की तुलना एक स्कैल्पप्लॉट पर की जा सकती है और मैंने इसे एफए विचार की ओर पीसीए विचार से क्रमिक पास की तरह दिखाने के लिए किया।

जब "कारकों के स्थान" में कारक स्कोर के साथ एक ही बाइप्लॉट फैक्टर लोडिंग पर साजिश रचने से सावधान रहना चाहिए, तो सचेत रहें कि लोडिंग वास्तविक कारकों से संबंधित है, जबकि स्कोर सरोगेट कारकों से संबंधित है ( इस थ्रेड में इस उत्तर के लिए मेरी टिप्पणी देखें )।

कारकों (लोडिंग) का रोटेशन अव्यक्त सुविधाओं की व्याख्या करने में मदद करता है। पीसीए में लोडिंग का रोटेशन भी किया जा सकता है यदि आप पीसीए का उपयोग करते हैं जैसे कि कारक विश्लेषण (अर्थात, पीसीए को चर पूर्ववर्ती के रूप में देखें)। पीसीए एफए के साथ परिणामों में अभिसरण करता है क्योंकि चर की संख्या बढ़ती है ( दो तरीकों के बीच व्यावहारिक और वैचारिक समानता और अंतर पर अत्यंत समृद्ध धागा देखें )। इस उत्तर के अंत में पीसीए और एफए के बीच अंतर की मेरी सूची देखें । आईरिस के डेटासेट पर पीसीए बनाम एफए की चरणबद्ध गणना यहां पाई जाती है । इस थ्रेड के बाहर विषय पर अन्य प्रतिभागियों के उत्तरों की अच्छी संख्या है; मुझे खेद है कि मैंने वर्तमान उत्तर में उनमें से कुछ का ही उपयोग किया है।

यहां पीसीए और एफए के बीच अंतर की एक बुलेट सूची भी देखें ।


1
+1। यह बहुत अच्छा है कि आपने इसे लिखा है, यह धागा निश्चित रूप से आप के जवाब का अभाव था। मैंने पढ़ने से पहले उत्थान किया (जो मैं शायद ही कभी करता हूं), और निश्चित रूप से बाद में पढ़ने का आनंद लिया। मैं बाद में अधिक टिप्पणी कर सकता हूं, लेकिन अभी के लिए एक छोटा सा निप्पिक: आपने कई बार लिखा है कि एफए में त्रुटि बादल "गोल" होना चाहिए। लेकिन वास्तव में, यह अच्छी तरह से अण्डाकार हो सकता है (क्योंकि वी 1 और वी 2 के लिए विशिष्टताओं के अलग-अलग संस्करण हो सकते हैं), इसके लिए बस शून्य सहसंबंध होना चाहिए। मुझे लगता है कि आप पाठकों को इस विवरण के साथ भ्रमित नहीं करना चाहते थे।
अमीबा

1
V1=a1F+E1V2=a2F+E2(E1,E2)=N(0,I)- अब V1 और V2 के नमूने उत्पन्न करने के लिए इन संबंधों का उपयोग करें। एक बार वी 1 और वी 2 उत्पन्न होने के बाद, यदि हम सबसे अच्छा एफए करते हैं, तो हमें (ई 1, ई 2) के सटीक अनुमानों को वापस लेना चाहिए, और यह एक अण्डाकार बादल का निर्माण करेगा। इसके अलावा, अब F, E1, E2 को V1 और V2 के समान विमान में दर्शाया जा सकता है।
कासा

@ कासा, क्या आपकी टिप्पणी मेरे उत्तर या अमीबा की टिप्पणी को स्वीकार कर रही थी? यदि आपकी टिप्पणी मेरे प्रमुख दावे के खिलाफ है कि एफए में तीन अव्यक्त चर मूल स्थान में नहीं हैं और आप इसे दिखा सकते हैं, तो इसका जवाब जारी करने का संकेत क्यों नहीं देते? लेकिन कृपया ध्यान दें कि इष्टतम एफए में, त्रुटियां बिल्कुल असंबंधित हैं, ऐसा नहीं है कि उन्हें सामान्य असंबद्ध आबादी से आने के रूप में कल्पना की जा सकती है ।
ttnphns

@ttnphns: इस भ्रम के लिए क्षमा करें, मैं आपके प्रमुख दावे पर संदेह कर रहा था। मैं एक दो दिनों में इसका जवाब देने की कोशिश करूंगा। धन्यवाद!
कासा जूल

21

कारक विश्लेषण और प्रमुख घटक विश्लेषण के बीच अंतर हैं:

• कारक विश्लेषण में एक संरचित मॉडल और कुछ धारणाएं हैं। इस संबंध में यह एक सांख्यिकीय तकनीक है जो प्रमुख घटक विश्लेषण पर लागू नहीं होती है जो कि विशुद्ध रूप से गणितीय परिवर्तन है।

• प्रमुख घटक विश्लेषण का उद्देश्य विचरण की व्याख्या करना है जबकि कारक विश्लेषण चर के बीच सहसंयोजन की व्याख्या करता है।

दोनों के बीच भ्रम के सबसे बड़े कारणों में से एक तथ्य यह है कि कारक विश्लेषण में कारक निष्कर्षण विधियों में से एक को "प्रमुख घटकों की विधि" कहा जाता है। हालांकि, यह पीसीए का उपयोग करने के लिए एक और एफए में प्रमुख घटकों की विधि का उपयोग करने के लिए एक और चीज है । नाम समान हो सकते हैं, लेकिन महत्वपूर्ण अंतर हैं। पूर्व एक स्वतंत्र विश्लेषणात्मक विधि है, जबकि उत्तरार्द्ध केवल कारक निष्कर्षण के लिए एक उपकरण है।


13

मेरे लिए (और मुझे आशा है कि यह उपयोगी है) कारक विश्लेषण पीसीए की तुलना में बहुत अधिक उपयोगी है।

हाल ही में, मुझे कारक विश्लेषण के माध्यम से एक पैमाने का विश्लेषण करने की खुशी मिली। इस पैमाने (हालांकि यह उद्योग में व्यापक रूप से उपयोग किया जाता है) पीसीए का उपयोग करके विकसित किया गया था, और मेरे ज्ञान के लिए कभी भी कारक विश्लेषण नहीं किया गया था।

जब मैंने कारक विश्लेषण (प्रमुख अक्ष) किया तो मुझे पता चला कि तीन वस्तुओं में से सांप्रदायिकता 30% से कम थी, जिसका अर्थ है कि 70% से अधिक वस्तुओं के विचलन का विश्लेषण नहीं किया जा रहा था। पीसीए सिर्फ डेटा को एक नए संयोजन में बदल देता है और सांप्रदायिकता की परवाह नहीं करता है। मेरा निष्कर्ष यह था कि साइकोमेट्रिक दृष्टिकोण से यह पैमाना बहुत अच्छा नहीं था और मैंने एक अलग नमूने के साथ इसकी पुष्टि की है।

अनिवार्य रूप से, यदि आप कारकों का उपयोग करके भविष्यवाणी करना चाहते हैं, तो पीसीए का उपयोग करें, जबकि यदि आप अव्यक्त कारकों को समझना चाहते हैं, तो फैक्टर विश्लेषण का उपयोग करें।


11

@ AnalyticsDocConsulting के उत्तर पर विस्तार: EFA और PCA के बीच लोडिंग में अंतर कम संख्या वाले चर के साथ गैर-तुच्छ है। यहाँ R में इसे प्रदर्शित करने के लिए एक सिमुलेशन फंक्शन है:

simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100)
{require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables)
for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)}
X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1])))
X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X}

IterationsSample.Size=1000Iterationsprincipal()factanal()

इस कोड का उपयोग करते हुए, मैंने डेटा का उत्पादन करने के लिए 500 पुनरावृत्तियों में से प्रत्येक के साथ 3-100 चर के नमूने सिम्युलेटेड हैं:

Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98))
for(i in 3:100)
{X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)}

... चर की संख्या के लिए औसत लोडिंग (चर और पुनरावृत्तियों के पार) की संवेदनशीलता के एक भूखंड के लिए:

.067


10

एक पीसीए को एफए की तरह होने के बारे में सोच सकता है जिसमें सभी चर के लिए सांप्रदायिकता को 1 के बराबर माना जाता है। व्यवहार में, इसका मतलब है कि कम साम्प्रदायिकता के कारण एफए में अपेक्षाकृत कम कारक लोडिंग वाले आइटम पीसीए में उच्च लोडिंग होंगे। यह एक वांछनीय विशेषता नहीं है यदि विश्लेषण का प्राथमिक उद्देश्य आइटम की लंबाई में कटौती करना है और कम या समान लोडिंग वाले आइटम की बैटरी को साफ करना है, या उन अवधारणाओं की पहचान करना है जो आइटम पूल में अच्छी तरह से प्रतिनिधित्व नहीं करते हैं।


10

एक बहुत अच्छी पाठ्यपुस्तक का एक उद्धरण (ब्राउन, 2006, पीपी। 22, जोर जोड़ा)।
पीसीए = प्रमुख घटक विश्लेषण
ईएफए = खोजपूर्ण कारक विश्लेषण
सीएफए = पुष्टि कारक विश्लेषण

हालांकि ईएफए से संबंधित, प्रमुख घटक विश्लेषण (पीसीए) अक्सर सामान्य कारक विश्लेषण की एक अनुमान पद्धति के रूप में गर्भपात होता है। पूर्ववर्ती पैराग्राफ (एमएल, पीएफ) में चर्चा किए गए अनुमानों के विपरीत, पीसीए मात्रात्मक तरीकों के एक अलग सेट पर निर्भर करता है जो सामान्य कारक मॉडल पर आधारित नहीं हैं। पीसीए आम और अनोखे विचरण को अलग नहीं करता है। इसके बजाय, पीसीए का उद्देश्य उनके बीच के संबंधों को समझाने के बजाय देखे गए उपायों में विचरण के लिए जिम्मेदार है। इस प्रकार, पीसीए को बाद के विश्लेषणों में उपयोग करने के लिए समग्र चर के छोटे, अधिक प्रबंधनीय संख्या के उपायों के एक बड़े सेट को कम करने के लिए डेटा कमी तकनीक के रूप में अधिक उचित रूप से उपयोग किया जाता है। हालांकि, कुछ पद्धतिविदों ने तर्क दिया है कि पीसीए ईएफए के लिए एक उचित या शायद बेहतर विकल्प है, इस तथ्य के मद्देनजर कि पीसीए में कई वांछनीय सांख्यिकीय गुण हैं (उदाहरण के लिए, कम्प्यूटेशनल रूप से सरल, अनुचित समाधानों के लिए अतिसंवेदनशील नहीं है, अक्सर ईएफए के समान परिणाम उत्पन्न करता है, पीसीए की क्षमता एक प्रमुख घटक पर एक प्रतिभागी के स्कोर की गणना करने के लिए जबकि अनिश्चित प्रकृति की ईएफए इस तरह की गणनाओं को जटिल करता है)। यद्यपि इस मुद्दे पर बहस जारी है, फ़ेब्रिगार एट अल। (1999) कारक विश्लेषण में पीसीए के स्थान के लिए तर्क के विरोध में कई कारण प्रदान करते हैं। ये लेखक उन परिस्थितियों को रेखांकित करते हैं, जहां ईएफए और पीसीए असमान परिणाम उत्पन्न करते हैं; उदाहरण के लिए, जब सांप्रदायिकता कम होती है या जब किसी दिए गए कारक के कुछ ही संकेतक होते हैं (cf. विडमान, 1993)। अक्सर ईएफए के समान परिणाम उत्पन्न करता है, एक प्रमुख घटक पर एक प्रतिभागी के स्कोर की गणना करने के लिए पीसीए की क्षमता जबकि ईएफए की अनिश्चित प्रकृति ऐसी गणनाओं को जटिल करती है)। यद्यपि इस मुद्दे पर बहस जारी है, फ़ेब्रिगार एट अल। (1999) कारक विश्लेषण में पीसीए के स्थान के लिए तर्क के विरोध में कई कारण प्रदान करते हैं। ये लेखक उन परिस्थितियों को रेखांकित करते हैं, जहां ईएफए और पीसीए असमान परिणाम उत्पन्न करते हैं; उदाहरण के लिए, जब सांप्रदायिकता कम होती है या जब किसी दिए गए कारक के कुछ ही संकेतक होते हैं (cf. विडमान, 1993)। अक्सर ईएफए के समान परिणाम उत्पन्न करता है, एक प्रमुख घटक पर एक प्रतिभागी के स्कोर की गणना करने के लिए पीसीए की क्षमता जबकि ईएफए की अनिश्चित प्रकृति ऐसी गणनाओं को जटिल करती है)। यद्यपि इस मुद्दे पर बहस जारी है, फ़ेब्रिगार एट अल। (1999) कारक विश्लेषण में पीसीए के स्थान के लिए तर्क के विरोध में कई कारण प्रदान करते हैं। ये लेखक उन परिस्थितियों को रेखांकित करते हैं, जहां ईएफए और पीसीए असमान परिणाम उत्पन्न करते हैं; उदाहरण के लिए, जब सांप्रदायिकता कम होती है या जब किसी दिए गए कारक के कुछ ही संकेतक होते हैं (cf. विडमान, 1993)। (1999) कारक विश्लेषण में पीसीए के स्थान के लिए तर्क के विरोध में कई कारण प्रदान करते हैं। ये लेखक उन परिस्थितियों को रेखांकित करते हैं, जहां ईएफए और पीसीए असमान परिणाम उत्पन्न करते हैं; उदाहरण के लिए, जब सांप्रदायिकता कम होती है या जब किसी दिए गए कारक के कुछ ही संकेतक होते हैं (cf. विडमान, 1993)। (1999) कारक विश्लेषण में पीसीए के स्थान के लिए तर्क के विरोध में कई कारण प्रदान करते हैं। ये लेखक उन परिस्थितियों को रेखांकित करते हैं, जहां ईएफए और पीसीए असमान परिणाम उत्पन्न करते हैं; उदाहरण के लिए, जब सांप्रदायिकता कम होती है या जब किसी दिए गए कारक के कुछ ही संकेतक होते हैं (cf. विडमान, 1993)।भले ही, यदि एक विश्लेषण के ओवरराइडिंग तर्क और अनुभवजन्य उद्देश्य आम कारक मॉडल के अनुरूप हैं, तो यह पीसीए का संचालन करने के लिए वैचारिक और गणितीय रूप से असंगत है; यदि ईएफ़ए अधिक उपयुक्त है, यदि घोषित उद्देश्य छोटी संख्या में अव्यक्त आयामों के साथ संकेतकों के एक सेट के अंतर्संबंधों को पुन: पेश करना है, तो देखे गए उपायों में माप त्रुटि के अस्तित्व को पहचानना है।फ़्लॉइड और विडमैन (1995) संबंधित बिंदु बनाते हैं कि एफएफए पर आधारित अनुमानों की सीएफए के सामान्यीकरण की संभावना अधिक होती है, जो पीसीए से प्राप्त होते हैं, पीसीए के विपरीत, ईएफए और सीएफए आम कारक मॉडल पर आधारित होते हैं। यह इस तथ्य के प्रकाश में उल्लेखनीय है कि ईएफए का उपयोग अक्सर सीएफए के अग्रदूत के रूप में पैमाने पर विकास और सत्यापन के निर्माण में किया जाता है। पीसीए और ईएफए के बीच कम्प्यूटेशनल मतभेदों का एक विस्तृत प्रदर्शन मल्टीवीरेट और कारक विश्लेषणात्मक पाठ्यपुस्तकों (जैसे, टैबचनिक और फिडेल, 2001) में पाया जा सकता है।

ब्राउन, टीए (2006)। अनुप्रयुक्त अनुसंधान के लिए पुष्टि कारक विश्लेषण। न्यू यॉर्क: गिलफोर्ड प्रेस।


6

टिपिंग और बिशप द्वारा एक पेपर में प्रोबैलिस्टिक पीसीए (पीपीसीए) और फैक्टर विश्लेषण के बीच तंग संबंध पर चर्चा की गई है। PPCA क्लासिक PCA की तुलना में FA के करीब है। सामान्य मॉडल है

y=μ+Wx+ϵ

WRp,dxN(0,I)ϵN(0,Ψ)

  • Ψ
  • Ψ=σ2I

माइकल ई। टिपिंग, क्रिस्टोफर एम। बिशप (1999)। संभाव्य प्रधान घटक विश्लेषण , रॉयल स्टैटिस्टिकल सोसायटी का जर्नल, खंड 61, अंक 3, पृष्ठ 611-622


2
+1। हाँ। मेरा मानना ​​है कि पीसीए और एफए के बीच संबंधों को समझने के लिए पीपीसीए को समझना आवश्यक है। लेकिन आप PCA / PPCA संबंध पर चर्चा करके अपने उत्तर को बेहतर बना सकते हैं।
अमीबा

3

इनमें से कोई भी प्रतिक्रिया एकदम सही नहीं है। या तो एफए या पीसीए के कुछ संस्करण हैं। हमें स्पष्ट रूप से इंगित करना चाहिए कि किस संस्करण की तुलना की जाती है। मैं अधिकतम संभावना कारक विश्लेषण और हॉटेलिंग पीसीए की तुलना करूंगा। पूर्व मान लें कि अव्यक्त चर एक सामान्य वितरण का पालन करता है, लेकिन पीसीए में ऐसी कोई धारणा नहीं है। इसने मतभेदों को हल किया है, जैसे कि समाधान, घटकों का घोंसला बनाना, समाधान का अद्वितीय, अनुकूलन एल्गोरिदम।


1
मुझे आश्चर्य है कि यदि आप इस पर थोड़ा विस्तार कर सकते हैं - आपने कहा है कि अंतिम वाक्य में मतभेद हैं, लेकिन उन अंतरों के बारे में अधिक जानकारी नहीं दी गई है, या उन अंतरों में क्या अंतर हो सकता है?
सिल्वरफिश

1
दो सबसे दूर के तरीकों का चयन करने के लिए और यह दावा करने के लिए कि वे वास्तव में अलग हैं - जैसे आप करते हैं - एक सही तर्क नहीं है, या तो। एक को शायद यह पता लगाना और रिपोर्ट करना चाहिए कि ये दोनों समान कैसे हैं। वैकल्पिक रूप से, कोई भी समान तरीके (जैसे सादे पीसीए बनाम पीएएफ ) चुन सकता है और रिपोर्ट कर सकता है कि वे किस तरह से भिन्न हैं।
ttnphns

1
हॉटेलिंग का PCA अव्यक्त गॉसियंस मान लेता है।
conjectures

1

इस पोस्ट के लिए कई शानदार जवाब हैं लेकिन हाल ही में, मुझे एक और अंतर आया।

क्लस्टरिंग एक ऐसा एप्लिकेशन है जहां पीसीए और एफए अलग-अलग परिणाम देते हैं। जब डेटा में कई विशेषताएं होती हैं, तो किसी को शीर्ष पीसी दिशाओं को खोजने और इन पीसी पर डेटा को प्रोजेक्ट करने का प्रयास किया जा सकता है, फिर क्लस्टरिंग के साथ आगे बढ़ें। अक्सर यह डेटा में निहित समूहों को परेशान करता है - यह एक अच्छी तरह से सिद्ध परिणाम है। शोधकर्ता उप-अंतरिक्ष क्लस्टरिंग विधियों के साथ आगे बढ़ने का सुझाव देते हैं, जो मॉडल में कम आयामी अव्यक्त कारकों की तलाश करते हैं।

इस अंतर को स्पष्ट करने के लिए Crabs, आर। क्रेब्स डेटासेट में डेटासेट पर विचार करें 200 पंक्तियाँ और 8 कॉलम हैं, जिसमें 50 केकड़ों पर 5 रूपात्मक माप का वर्णन किया गया है, प्रत्येक दो रंग रूपों और दोनों लिंगों में, प्रजातियों में से प्रत्येक - अनिवार्य रूप से 4 (2x2) विभिन्न वर्ग हैं केकड़े।

library(MASS)
data(crabs)
lbl <- rep(1:4,each=50)
pc <- princomp(crabs[,4:8])
plot(pc) # produce the scree plot
X <- as.matrix(crabs[,4:8]) %*% pc$loadings
library(mclust)
res_12 <- Mclust(X[,1:2],G=4)
plot(res_12)


res_23 <- Mclust(X[,2:3],G=4)
plot(res_23)

PC1 और PC2 का उपयोग करके क्लस्टरिंग: यहां छवि विवरण दर्ज करें

PC2 और PC3 का उपयोग करके क्लस्टरिंग: यहां छवि विवरण दर्ज करें

#using PC1 and PC2:
     1  2  3  4
  1 12 46 24  5
  2 36  0  2  0
  3  2  1 24  0
  4  0  3  0 45

#using PC2 and PC3:
    1  2  3  4
  1 36  0  0  0
  2 13 48  0  0
  3  0  1  0 48
  4  1  1 50  2

जैसा कि हम उपरोक्त भूखंडों से देख सकते हैं, PC1 और PC3 PC1 की तुलना में अधिक भेदभावपूर्ण जानकारी रखते हैं।

यदि कोई फैक्टर एनालाइज़र के मिश्रण का उपयोग करके अव्यक्त कारकों का उपयोग करके क्लस्टर करने की कोशिश करता है, तो हम पहले दो पीसी का उपयोग करने की तुलना में बेहतर परिणाम देखते हैं।

mfa_model <- mfa(y, g = 4, q = 2)
  |............................................................| 100%
table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50)))

     1  2  3  4
  1  0  0  0 45
  2 16 50  0  0
  3 34  0  0  0
  4  0  0 50  5

मुझे कहना होगा कि मुझे संदेह है कि यह उत्तर वास्तव में प्रश्न का उत्तर देता है। जवाब पीसीए या एफए के बाद क्लस्टर विश्लेषण के बारे में है, पीसीए और एफए के बारे में नहीं। लेकिन उस संबंध में भी जवाब मंद या अधूरा है। आपके द्वारा प्रदर्शित किए जाने वाले अंतर को कैसे समझाया जाए?
ttnphns

@ttnphns मैं क्लस्टर विश्लेषण के बारे में जवाब से सहमत हूं। हालांकि, ओपी ने पीसीए / एफए के साथ एक वास्तविक जीवन परिदृश्य के लिए भी कहा था जहां एक को दूसरे के ऊपर उपयोग करने की आवश्यकता होती है। आमतौर पर पीसीए या एफए कभी अंतिम लक्ष्य नहीं होता है - उदाहरण के लिए सामाजिक विज्ञानों में, अंतिम उद्देश्य विषयों को विभिन्न समूहों / समूहों में विभाजित करना होगा। मेरा जवाब ऐसे परिदृश्यों को संबोधित करता है। मामले में, आपको लगता है कि मेरे उत्तर में सुधार किया जा सकता है, बेझिझक इंगित करें।
कासा

मुझे लगता है कि यदि आप अपनी खोज को समझाते हैं तो आपका उत्तर वास्तव में प्रासंगिक हो सकता है। आप दावा करते हैं कि पीसीए और एफए के बीच अंतर दो तरीकों के लिए आंतरिक हैं (केवल वे क्लस्टरिंग के तहत स्पष्ट हो जाते हैं)। मुझे लगता है कि आपको तरीकों के मॉडल के अंतर से सैद्धांतिक रूप से कैसे या क्यों अंतर दिखाई देता है या कम से कम कैसे दिखना चाहिए, इसका अनुमान लगाना चाहिए।
ttnphns
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.