क्या ईएफए के बजाय पीसीए का उपयोग करने का कोई अच्छा कारण है? इसके अलावा, पीसीए कारक विश्लेषण का विकल्प हो सकता है?


73

कुछ विषयों में, पीसीए (प्रमुख घटक विश्लेषण) को बिना किसी औचित्य के व्यवस्थित रूप से उपयोग किया जाता है, और पीसीए और ईएफए (खोज कारक कारक) को समानार्थक शब्द माना जाता है।

इसलिए मैंने हाल ही में पीसीए का उपयोग एक स्केल वैलिडेशन स्टडी के परिणामों का विश्लेषण करने के लिए किया था (7-पॉइंट्स लाइक पैमाने पर 21 आइटम, प्रत्येक 7 आइटम के 3 कारकों की रचना करने के लिए मान लिया गया) और एक समीक्षक मुझसे पूछता है कि मैंने ईएफए के बजाय पीसीए को क्यों चुना। मैंने दोनों तकनीकों के बीच के अंतरों के बारे में पढ़ा, और ऐसा लगता है कि EFA आपके अधिकांश उत्तरों में PCA के पक्ष में है।

क्या आपके पास कोई अच्छा कारण है कि पीसीए एक बेहतर विकल्प क्यों होगा? यह क्या लाभ प्रदान कर सकता है और यह मेरे मामले में एक बुद्धिमान विकल्प क्यों हो सकता है?


1
बड़ा सवाल है। मैं ttnphns के उत्तर से असहमत हूं, और आज बाद में एक वैकल्पिक दृश्य प्रदान करने का प्रयास करूंगा।
अमीबा

5
@amoeba मैं आपके लिए पहले से ही निहित हूं। पीसीए सिर्फ एक परिवर्तन तकनीक है जो कभी-कभी सहायक हो सकती है। इसे राक्षसी बनाने की कोई आवश्यकता नहीं है या इसे सहज या अनुचित इरादे की विशेषता नहीं है। आप एक लघुगणक के रूप में अच्छी तरह से excoriate कर सकते हैं।
निक कॉक्स

4
यह प्रतीत नहीं होता है कि ttnphns का जवाब PCA को दर्शाता है। मेरे लिए वह सिर्फ यह तर्क दे रहा है कि पीसीए आपके डेटा को बनाने वाले अव्यक्त चरों की धारणा पर आधारित नहीं है, इसलिए यदि आप ऐसा करने की कोशिश कर रहे हैं, तो एफए एक बेहतर विकल्प है।
गंग

1
FWIW, मैं विशेष रूप से ttphns के उत्तर पर टिप्पणी नहीं कर रहा था, लेकिन टिप्पणियों और आलोचनाओं पर मैं अक्सर मुठभेड़ करता हूं कि किस राशि पर आरोप है कि पीसीए कुछ ऐसा नहीं करता है जिसके लिए यह कभी भी इरादा नहीं था या अनुकूल नहीं है।
निक कॉक्स

3
@NeilG: पीसीए है नहीं एक [संभाव्य] उत्पादक मॉडल है, क्योंकि यह एक शोर शब्द नहीं है और इसलिए उससे संबद्ध कोई संभावना है। हालांकि (पीपीसीए) एक संभाव्य सामान्यीकरण है, और यह पीसीए से बहुत निकट से संबंधित है, मेरा जवाब यहां देखें।
अमीबा

जवाबों:


95

अस्वीकरण: @ttnphns पीसीए और एफए दोनों के बारे में बहुत जानकार है, और मैं उनकी राय का सम्मान करता हूं और इस विषय पर उनके कई शानदार जवाबों से बहुत कुछ सीखा है। हालाँकि, मैं यहाँ उनके जवाब से असहमत हूँ, साथ ही सीवी पर यहाँ इस विषय पर अन्य (कई) पदों के साथ, न केवल उनकी; या इसके बजाय, मुझे लगता है कि उनके पास सीमित प्रयोज्यता है।


मुझे लगता है कि पीसीए और एफए के बीच अंतर ओवररेटेड है।

इसे इस तरह देखें: दोनों विधियाँ किसी दिए गए सहसंयोजक (या सहसंबंध) मैट्रिक्स के निम्न-श्रेणी के सन्निकटन प्रदान करने का प्रयास करती हैं। "कम-रैंक" का मतलब है कि केवल अव्यक्त कारकों या प्रमुख घटकों की एक सीमित (कम) संख्या का उपयोग किया जाता है। यदि डेटा का सहसंयोजक मैट्रिक्स C है , तो मॉडल हैं:n×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

यहाँ कॉलम के साथ एक मैट्रिक्स है (जहाँ को आमतौर पर एक छोटी संख्या, ) के लिए चुना जाता है, प्रमुख घटकों या कारकों का प्रतिनिधित्व करता है, एक पहचान मैट्रिक्स है, और एक विकर्ण है आव्यूह। प्रत्येक विधि को (और बाकी) को खोजने के रूप में तैयार किया जा सकता है [बाएं और दाहिने हाथ के बीच के अंतर के [मानदंड] को कम से कम। कश्मीर कश्मीर कश्मीर < n k मैं Ψ डब्ल्यूWkkk<nkIΨW

PPCA संभावित पीसीए के लिए खड़ा है , और यदि आप नहीं जानते कि वह क्या है, तो यह अब के लिए इतना मायने नहीं रखता है। मैं इसका उल्लेख करना चाहता था, क्योंकि यह पीसीए और एफए के बीच बड़े करीने से फिट बैठता है, मध्यवर्ती मॉडल जटिलता है। यह पीसीए और एफए के बीच कथित रूप से बड़े अंतर को भी परिप्रेक्ष्य में रखता है: भले ही यह एक संभाव्य मॉडल है (बिल्कुल एफए की तरह), यह वास्तव में पीसीए के बराबर हो जाता है ( एक ही उप-वर्ग)।W

सबसे महत्वपूर्ण बात, ध्यान दें कि मॉडल केवल भिन्न होते हैं कि वे कैसे के विकर्ण का इलाज करते हैं । जैसे-जैसे बढ़ती जाती है, विकर्ण एक तरह से कम और कम महत्वपूर्ण होता जाता है (क्योंकि विकर्ण पर केवल तत्व होते हैं और तत्व विकर्ण से दूर होते हैं)। नतीजतन, बड़े लिए आमतौर पर पीसीए और एफए के बीच बहुत अंतर नहीं है, एक अवलोकन जो शायद ही कभी सराहना की जाती है। छोटे वे वास्तव में बहुत भिन्न हो सकते हैं। n n n ( n - 1 ) / 2 = O ( n 2 ) n nCnnn(n1)/2=O(n2)nn

अब आपके मुख्य प्रश्न का उत्तर देने के लिए कि कुछ विषयों में लोग पीसीए को क्यों पसंद करते हैं। मुझे लगता है कि यह इस तथ्य से उबलता है कि यह गणितीय रूप से एफए की तुलना में बहुत आसान है (यह उपरोक्त सूत्रों से स्पष्ट नहीं है, इसलिए आपको मुझ पर विश्वास करना होगा):

  1. पीसीए - साथ ही पीपीसीए, जो केवल थोड़ा अलग है, - का एक विश्लेषणात्मक समाधान है, जबकि एफए नहीं करता है। तो एफए को संख्यात्मक रूप से फिट होने की आवश्यकता है, इसमें विभिन्न एल्गोरिदम मौजूद हैं, संभवतः अलग-अलग उत्तर देना और विभिन्न मान्यताओं के तहत संचालन करना, आदि। कुछ मामलों में कुछ एल्गोरिदम अटक सकते हैं (उदाहरण के लिए "हेयवुड मामलों")। पीसीए के लिए आप एक ईजन-अपघटन करते हैं और आप कर रहे हैं; एफए बहुत अधिक गड़बड़ है।

    तकनीकी रूप से, PCA केवल चर को घुमाता है, और यही कारण है कि कोई इसे केवल परिवर्तन के रूप में संदर्भित कर सकता है, जैसा कि @NickCox ने अपनी टिप्पणी में किया था।

  2. पीसीए समाधान पर निर्भर नहीं करता है : आप पहले तीन पीसी ( ) पा सकते हैं और उनमें से पहले दो आप उन लोगों के समान होने जा रहे हैं जिन्हें आप पाएंगे कि यदि आप शुरू में सेट करते हैं । यह एफए के लिए सही नहीं है: लिए समाधान आवश्यक रूप से के समाधान के अंदर निहित नहीं है । यह प्रति-सहज और भ्रमित करने वाला है।k = 3 k = 2 k = 2 k = 3kk=3k=2k=2k=3

बेशक एफए पीसीए की तुलना में अधिक लचीला मॉडल है (आखिरकार, इसमें अधिक पैरामीटर हैं) और अक्सर अधिक उपयोगी हो सकता है। मैं उसके खिलाफ बहस नहीं कर रहा हूं। मैं जिसके खिलाफ बहस कर रहा हूं , वह दावा है कि वे पीसीए के साथ "डेटा का वर्णन" और एफए के बारे में "अव्यक्त चर खोजने" के बारे में वैचारिक रूप से बहुत अलग हैं। मैं बस यह नहीं देखता कि यह बिल्कुल सच है [लगभग]।

ऊपर और लिंक किए गए उत्तरों में कुछ विशिष्ट बिंदुओं पर टिप्पणी करने के लिए:

  • "पीसीए में निकालने / बनाए रखने के लिए आयामों की संख्या मौलिक रूप से व्यक्तिपरक है, जबकि ईएफए में संख्या निर्धारित है, और आपको आमतौर पर कई समाधानों की जांच करनी होगी" - ठीक है, समाधान की पसंद अभी भी व्यक्तिपरक है, इसलिए मैं नहीं करता हूं यहां कोई भी वैचारिक अंतर देखें। दोनों मामलों में, मॉडल फिट और मॉडल जटिलता के बीच व्यापार बंद का अनुकूलन करने के लिए (विषयगत या उद्देश्यपूर्ण) चुना जाता है।k

  • "एफए जोड़ो में सहसंबंध (सहप्रसरण) की व्याख्या करने में सक्षम है पीसीए आम तौर पर यह नहीं कर सकते।" - वास्तव में, उन दोनों का परस्पर संबंध बेहतर और बेहतर रूप में समझाने बढ़ता है।k

  • कभी-कभी पीसीए और एफए का उपयोग करके विषयों में विभिन्न प्रथाओं के कारण अतिरिक्त भ्रम उत्पन्न होता है (लेकिन @ ttnphns के जवाब में नहीं!) । उदाहरण के लिए, व्याख्या में सुधार के लिए एफए में कारकों को घुमाने के लिए यह एक आम बात है। यह पीसीए के बाद शायद ही कभी किया जाता है, लेकिन सिद्धांत रूप में कुछ भी इसे रोक नहीं रहा है। इसलिए लोग अक्सर सोचते हैं कि एफए आपको "व्याख्यात्मक" कुछ देता है और पीसीए नहीं करता है, लेकिन यह अक्सर एक भ्रम है।

अंत में, मुझे फिर से तनाव दें कि बहुत छोटे लिए PCA और FA के बीच के अंतर वास्तव में बड़े हो सकते हैं, और शायद FA के पक्ष में कुछ दावे छोटे को ध्यान में रखकर किए गए हैं। एक चरम उदाहरण के रूप में, एक एकल कारक हमेशा सहसंबंध को पूरी तरह से समझा सकता है, लेकिन एक पीसी इसे काफी बुरी तरह से करने में विफल हो सकता है।n n = 2nnn=2


अपडेट 1: डेटा के जेनेरेटिव मॉडल

आप टिप्पणियों की संख्या से देख सकते हैं कि मैं जो कह रहा हूं वह विवादास्पद है। आगे भी टिप्पणी अनुभाग को बाढ़ देने के जोखिम में, यहां "मॉडल" के बारे में कुछ टिप्पणियां हैं (@ttnphns और @gung द्वारा टिप्पणियां देखें)। @ttnphns को यह पसंद नहीं है कि मैंने "मॉडल" [सहसंयोजक मैट्रिक्स का] शब्द का इस्तेमाल किया है जो ऊपर दिए गए सन्दर्भों को संदर्भित करता है; यह शब्दावली का एक मुद्दा है, लेकिन जिसे वह "मॉडल" कहता है, वह डेटा के संभाव्य / उदार मॉडल हैं :

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

ध्यान दें कि पीसीए एक संभाव्य मॉडल नहीं है, और इस तरह से तैयार नहीं किया जा सकता है।

पीपीसीए और एफए के बीच अंतर शोर अवधि में है: पीपीसीए प्रत्येक चर के लिए एक ही शोर विचरण मानता है, जबकि एफए विभिन्न भिन्नताओं को मानता है ("विशिष्ट")। इस मामूली अंतर के महत्वपूर्ण परिणाम हैं। दोनों मॉडल एक सामान्य अपेक्षा-अधिकतमकरण एल्गोरिदम के साथ फिट हो सकते हैं। एफए के लिए कोई विश्लेषणात्मक समाधान ज्ञात नहीं है, लेकिन पीपीसीए के लिए कोई भी उस समाधान को विश्लेषणात्मक रूप से प्राप्त कर सकता है जिसे ईएम (दोनों और ) में परिवर्तित करेगा । पता चला, में एक ही दिशा में कॉलम हैं, लेकिन मानक PCA लोडिंग (मैं सटीक सूत्रों को हूं) की तुलना में छोटी लंबाई के साथ । इस कारण से मैं PPCA को "लगभग" पीसीए के रूप में समझता हूं:Ψ मैं मैं σ 2 डब्ल्यू डब्ल्यू पी पी सी डब्ल्यू पी सी डब्ल्यूσ2Ψiiσ2WWPPCAWPCAWदोनों मामलों में एक ही "प्रिंसिपल सबस्पेस" के रूप में हैं।

प्रमाण ( टिपिंग और बिशप 1999 ) थोड़ा तकनीकी है; सजातीय शोर विचलन के लिए सहज कारण एक बहुत सरल समाधान की ओर जाता है कि पास किसी भी मूल्य के लिए के समान ही eigenvectors हैं , लेकिन यह सच नहीं है ।सी σ 2 सी - ΨCσ2ICσ2CΨ

तो हां, @gung और @ttnphns सही हैं कि एफए एक जेनरेटर मॉडल पर आधारित है और पीसीए नहीं है, लेकिन मुझे लगता है कि यह जोड़ना महत्वपूर्ण है कि पीपीसीए एक जेनेरिक मॉडल पर भी आधारित है, लेकिन पीसीए के बराबर "लगभग" है। । तब यह इतना महत्वपूर्ण अंतर प्रतीत होता है।


अद्यतन 2: कैसे पीसीए सहसंयोजक मैट्रिक्स के लिए सबसे अच्छा सन्निकटन प्रदान करता है, जब यह अधिकतम विखंडन की तलाश में जाना जाता है?

PCA के दो बराबर सूत्र हैं: जैसे पहला PC है (a) प्रक्षेपण का विचरण अधिकतम करता है और (b) न्यूनतम पुनर्निर्माण त्रुटि प्रदान करने वाला। अधिक अमूर्त रूप से, अधिकतम विचरण को कम करने और पुनर्निर्माण त्रुटि को कम करने के बीच ईकार्ट-यंग प्रमेय का उपयोग करके देखा जा सकता है ।

यदि डेटा मैट्रिक्स है (पंक्तियों के रूप में टिप्पणियों के साथ, स्तंभों के रूप में चर, और स्तंभों को केंद्रित माना जाता है) और इसका SVD अपघटन , तो यह यह अच्छी तरह से ज्ञात है कि स्तंभ तितर बितर मैट्रिक्स (या covariance मैट्रिक्स, यदि टिप्पणियों की संख्या से विभाजित हैं) के eigenvectors हैं: और इसलिए वे भिन्नता को संशोधित कर रहे हैं (अर्थात मूल अक्ष)। लेकिन एकार्ट-यंग प्रमेय द्वारा, पहले पीसी सबसे अच्छा रैंक प्रदान करते हैं- को :XX=USVVC=XX=VS2VkkXXk=UkSkVk(इस अंकन का अर्थ है कि केवल सबसे बड़ा एकवचन मान / वैक्टर लेना) न्यूनतम करता है ।kXXk2

पहले पीसी न केवल सर्वश्रेष्ठ रैंक प्रदान करते हैं- लिए सन्निकटन , बल्कि सहसंयोजक मैट्रिक्स को भी प्रदान करते हैं । दरअसल, , और अंतिम समीकरण SVD अपघटन प्रदान करता है (क्योंकि orthogonal है और विकर्ण है)। तो एकर्ट-यंग प्रमेय हमें बताता है कि द्वारा सर्वश्रेष्ठ रैंक- to दिया गया है । यह ध्यान देने से बदल सकता हैकश्मीर एक्स सी सी = एक्सएक्स = वी एस 2 वीसी वी एस 2 कश्मीर सी सी कश्मीर = वी कश्मीर एस 2 कश्मीर वी कश्मीर डब्ल्यू = वी एस सी कश्मीर = वी कश्मीर एस 2 कश्मीर वी कश्मीर = ( वी एस ) कश्मीर ( वी एस ) कश्मीर = डब्ल्यूkkXCC=XX=VS2VCVS2kCCk=VkSk2VkW=VS PCA लोडिंग है, और इसलिए

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

नीचे की रेखा यह है कि जैसा कि शुरुआत में कहा गया है।

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

अद्यतन 3: संख्यात्मक प्रदर्शन है कि पीसीए एफए जबn n

मुझे अपने दावे के संख्यात्मक प्रदर्शन प्रदान करने के लिए @ttnphns द्वारा प्रोत्साहित किया गया था कि जैसे-जैसे आयाम बढ़ता है, पीसीए समाधान एफए समाधान तक पहुंचता है। ये रहा।

मैंने कुछ मजबूत ऑफ-विकर्ण सहसंबंधों के साथ यादृच्छिक सहसंबंध मैट्रिक्स उत्पन्न किया । मैंने इस मैट्रिक्स के ऊपरी-बाएँ वर्ग ब्लॉक को चर के साथ लिया ताकि आयामीता के प्रभाव की जांच की जा सके। प्रत्येक , मैंने पीसीए और एफए को कई घटकों / कारकों की संख्या साथ प्रदर्शन किया , और प्रत्येक मैंने ऑफ-विकर्ण पुनर्निर्माण त्रुटि गणना की। (ध्यान दें कि विकर्ण, कारण , FA , पूरी तरह से पुनर्निर्माण करता है।n × n सी एन = 25 , 50 , ... 200 n कश्मीर = 1 ... 5 कश्मीर Σ मैं j [ सी - डब्ल्यू डब्ल्यू] 2 मैं जे सी Ψ n k 1200×200 n×nCn=25,50,200nk=15k

ij[CWW]ij2
CΨपद, जबकि पीसीए नहीं करता है; लेकिन विकर्ण को यहां अनदेखा किया गया है)। फिर प्रत्येक और , मैंने एफए ऑफ-विकर्ण त्रुटि के पीसीए ऑफ-विकर्ण त्रुटि के अनुपात की गणना की। यह अनुपात से ऊपर होना है , क्योंकि एफए सबसे अच्छा संभव पुनर्निर्माण प्रदान करता है।nk1

पीसीए बनाम एफए ऑफ-विकर्ण पुनर्निर्माण त्रुटि

दाईं ओर, विभिन्न रेखाएँ विभिन्न मूल्यों के अनुरूप हैं , और को क्षैतिज अक्ष पर दिखाया गया है। ध्यान दें कि बढ़ता है, अनुपात (सभी ) दृष्टिकोण , जिसका अर्थ है कि PCA और FA लगभग समान लोडिंग, PCA FA। अपेक्षाकृत छोटे , उदाहरण के लिए जब , PCA खराब प्रदर्शन करता है [उम्मीद है], लेकिन अंतर छोटे लिए उतना मजबूत नहीं है , और लिए भी अनुपात से नीचे है ।एन एन k 1 एन एन = 25 कश्मीर कश्मीर = 5 1.2knnk1nn=25kk=51.2

अनुपात बड़े बन सकता है जब कारकों की संख्या चर की संख्या के साथ तुलनीय हो जाता है । उदाहरण में मैंने और साथ ऊपर दिया , एफए पुनर्निर्माण त्रुटि प्राप्त करता है, जबकि पीसीए नहीं करता है, अर्थात अनुपात अनंत होगा। लेकिन मूल प्रश्न पर वापस जाना, जब और , PCA केवल के ऑफ-विकर्ण भाग को समझाने में FA को खो देगा ।n n = 2 k = 1 0 n = 21 k = 3 Cknn=2k=10n=21k=3C

पीसीए और एफए के सचित्र उदाहरण के लिए एक वास्तविक डेटासेट ( साथ वाइन डाटासेट ) पर लागू किया गया है , मेरे जवाब यहां देखें:n=13


2
मैं सिर्फ तकनीकों के बीच गणितीय अंतर के बारे में एक सवाल पूछने वाला था , क्योंकि यहाँ विषय पर अधिकांश (अन्यथा उत्कृष्ट) उत्तर स्पष्ट गणितीय तुलना नहीं करते हैं। यह उत्तर वही है जो मैं खोज रहा था।
छायाकार

2
यह ताजा दृष्टिकोण के साथ अत्यधिक मूल्यवान, अनकहा खाता है। पीपीसीए को एक इन-बीच तकनीक के रूप में रखना महत्वपूर्ण है - यह वह जगह है जहां से आपकी राय बढ़ती है। क्या मैं आपको PPCA के बारे में और लाइनें छोड़ने के लिए कह सकता हूँ? - क्या है , इसका अनुमान कैसे लगाया जाता है (संक्षेप में) और क्या यह से अलग बनाता है ताकि PPCs (कारकों के विपरीत) चर के उप-स्थान में भर जाए और एक PPC पर निर्भर न हो । Ψ कश्मीरσ2Ψk
ttnphns

3
मैं यहां w / ttnphns से सहमत होना जारी रखता हूं, और यह अंतर कि एफए अव्यक्त चरों पर आधारित है जबकि PCA केवल डेटा का रूपांतरण है। हालांकि, यह बहुत अच्छी तरह से तर्क और एक उपयोगी विपरीत स्थिति है। यह इस धागे की गुणवत्ता में योगदान देता है। +1
गुंग

5
@amoeba आपका ANSWER महान है। यह इतना स्पष्ट और संतुष्टिदायक है। अपनी दृष्टि साझा करने के लिए धन्यवाद।
सुभाष सी। डावर

2
@ user795305 माफी, मैं जवाब देना भूल गया। अपडेट 1 में लिखा एफए मॉडल सही है। अव्यक्त वास्तव में और स्वतंत्र माना जाता है । और लिए ML समाधान वास्तव में के मानक को कम नहीं कर रहे हैं जैसा कि मैंने अद्यतन 2 में लिखा है; यह मैला और गलत था। मुझे इसे ठीक करना चाहिए, धन्यवाद। हालाँकि, मुझे लगता है कि यह कहना ठीक है कि ML समाधान ऐसा है जो ; यह सिर्फ इतना है कि यहां नुकसान फ़ंक्शन अंतर का मानदंड नहीं है, बल्कि एक अधिक जटिल अभिव्यक्ति ( दिया गया संभावना ) है। एन ( 0 , मैं ) ε डब्ल्यू Ψ सी - डब्ल्यू डब्ल्यू - Ψ सी डब्ल्यू डब्ल्यू + Ψ सी डब्ल्यू डब्ल्यू + ΨzN(0,I)ϵWΨCWWΨCWW+ΨCWW+Ψ
अमीबा

27

जैसा कि आपने कहा, आप प्रासंगिक उत्तरों से परिचित हैं ; यह भी देखें : So, as long as "Factor analysis..."+ अंतिम पैराग्राफ की एक जोड़ी; और नीचे की सूची यहाँ । संक्षेप में, पीसीए ज्यादातर डेटा घटाने की तकनीक है जबकि एफए एक मॉडलिंग-लेटेंट-ट्रेट तकनीक है। कभी-कभी वे समान परिणाम देने के लिए होते हैं; लेकिन आपके मामले में - क्योंकि आप शायद ऐसा महसूस करते हैं कि अव्यक्त लक्षणों का निर्माण / सत्यापन करना ऐसा लगता है जैसे कि वास्तविक संस्थाएँ - एफए का उपयोग करना अधिक ईमानदार होगा और आपको पीसीए को इस उम्मीद में पसंद नहीं करना चाहिए कि उनके परिणाम अभिसरण हों। दूसरी ओर, जब भी आप डेटा को संक्षेप / सरल बनाने का लक्ष्य रखते हैं - बाद के विश्लेषण के लिए, उदाहरण के लिए - आप पीसीए को पसंद करेंगे, क्योंकि यह किसी भी मजबूत मॉडल (जो अप्रासंगिक हो सकता है) को डेटा पर लागू नहीं करता है।

दूसरे तरीके को दोहराने के लिए, पीसीए आपको आयाम देता है, जो यदि आप चाहें तो कुछ विषयगत सार्थक निर्माणों के अनुरूप हो सकते हैं , जबकि ईएफए का मानना है कि वे भी गुप्त विशेषताएं हैं जो वास्तव में आपके डेटा को उत्पन्न करती हैं , और इसका उद्देश्य उन विशेषताओं को खोजना है। एफए में, आयामों (कारकों) की व्याख्या लंबित है - क्या आप अव्यक्त चर का अर्थ संलग्न कर सकते हैं या नहीं, यह "मौजूद है" (एफए आवश्यक है), अन्यथा आपको इसे मॉडल से छोड़ देना चाहिए या समर्थन के लिए अधिक डेटा प्राप्त करना चाहिए यह। पीसीए में, आयाम का अर्थ वैकल्पिक है।

और फिर भी एक बार फिर दूसरे शब्दों में: जब आप m कारकों (त्रुटियों से अलग कारक) को निकालते हैं , तो ये कुछ कारक चर के बीच सभी सहसंबंध को समझाते हैं, ताकि चर को त्रुटियों के माध्यम से किसी भी तरह सहसंबंधित करने के लिए जगह न बचे। इसलिए, जब तक "कारकों" को अव्यक्त लक्षणों के रूप में परिभाषित किया जाता है जो सहसंबद्ध डेटा उत्पन्न / बाँधते हैं, आपके पास यह व्याख्या करने के लिए पूर्ण सुराग हैं - कि सहसंबंध के लिए क्या जिम्मेदार है। पीसीए में ( घटकों को निकालें जैसे कि "कारक"), त्रुटियां (हो सकती हैं) अभी भी चर के बीच सहसंबंधित हैं; इसलिए आप यह दावा नहीं कर सकते हैं कि आपने उस तरह से व्याख्या करने के लिए पर्याप्त स्वच्छ और संपूर्ण कुछ निकाला है ।

पीसीए एफए का एक व्यवहार्य विकल्प है या नहीं, इसके बारे में कुछ सैद्धांतिक और सिमुलेशन प्रयोग के विवरण के लिए, आप वर्तमान चर्चा में मेरे दूसरे, लंबे समय तक उत्तर को पढ़ना चाह सकते हैं । कृपया इस थ्रेड पर दिए गए @amoeba के बकाया जवाबों पर भी ध्यान दें।


अपडेट : इस सवाल के अपने जवाब में @amoeba, जिन्होंने वहां विरोध किया, ने PCA और FA के बीच आधे रास्ते के रूप में एक (अच्छी तरह से ज्ञात नहीं) तकनीक PPCA पेश की। इसने स्वाभाविक रूप से तर्क पेश किया कि पीसीए और एफए इसके विपरीत एक पंक्ति में हैं। वह मूल्यवान दृष्टिकोण किसी के सैद्धांतिक क्षितिज का विस्तार करता है। लेकिन यह उस एफए के बारे में महत्वपूर्ण व्यावहारिक अंतर को मुखौटा कर सकता है (कुछ कारकों के साथ सभी जोड़ीदार सहसंबंधों को फिर से संगठित करता है (समझाता है), जबकि पीसीए इसे सफलतापूर्वक नहीं कर सकता है (और जब यह कभी-कभी ऐसा करता है - ऐसा इसलिए है क्योंकि यह एफएआई के साथ हुआ है)


आपके उत्तर के लिए धन्यवाद! एफए के परिणाम वास्तव में पीसीए के माध्यम से प्राप्त एक के साथ अभिसरण होते हैं। केवल एक चीज है: प्रारंभिक अध्ययन के लेखक (मेरा एक अनुवाद + सत्यापन है) एक पीसीए विश्लेषण का इस्तेमाल किया। क्या यह पीसीए विश्लेषण को मेरे पेपर में रखने के लिए पर्याप्त है और शायद एक वाक्य जोड़ने के लिए कि एफए परिणाम अभिसरण करते हैं, या मुझे एफए द्वारा पीसीए को बदलना चाहिए? ध्यान दें कि समीक्षक वास्तव में हमसे ऐसा करने के लिए स्पष्ट रूप से नहीं पूछता है, वह केवल यह बताने के लिए कह रहा है कि हमने एफए के बजाय पीसीए को क्यों चुना।
कैरिन

मुझे लगता है: यदि लेखक पीसीए का उपयोग करते हैं लेकिन अधिक सख्त / ईमानदार दृष्टिकोण ईएफए के लिए कॉल करते हैं तो उनके मामले में आपको आलोचकों की एक पंक्ति छोड़नी चाहिए और फिर परिणामों की तुलना करने के लिए पीसीए या पीसीए और ईएफए दोनों का प्रदर्शन करना चाहिए।
ttnphns 14

2
इस अंतर पर भी ध्यान दें कि पीसीए में ईएमए निकालने / बनाए रखने के लिए आयामों की संख्या मौलिक रूप से व्यक्तिपरक है, जबकि ईएफए की संख्या निश्चित है, और आपको आमतौर पर कई समाधानों की जांच करनी होगी, उदाहरण के लिए 3 हालांकि 5 कारक, कैसे वे की डिग्री के लिए। सहसंबंध मैट्रिक्स को पुन: उत्पन्न करें और वे कितनी अच्छी तरह व्याख्या करने योग्य हैं। एफए अधिक थकाऊ है, यही कारण है कि लोग अक्सर उन मामलों में पीसीए करना पसंद करते हैं जहां एक ईमानदार दृष्टिकोण कई ईएफए पास की कोशिश करने के लिए कहता है।
ttnphns

विकिपीडिया प्रविष्टि भी देखें: en.wikipedia.org/wiki/…
रॉबर्टएफ

15

इसमें मेरा उत्तर (एक दूसरा और मेरा अन्य के लिए अतिरिक्त ) मैं चित्रों में यह दिखाने की कोशिश करूंगा कि पीसीए किसी सहसंयोजक को किसी भी तरह से पुनर्स्थापित नहीं करता है (जबकि यह पुनर्स्थापित करता है - अधिकतम रूप से - विचरण को बेहतर बनाता है)।

जैसा कि पीसीए या फैक्टर विश्लेषण पर मेरे जवाब के एक नंबर में मैं विषय स्थान में चर के वेक्टर प्रतिनिधित्व को चालू कर दूंगा । इस उदाहरण में यह एक लोडिंग प्लॉट है जिसमें चर और उनके घटक लोडिंग दिखाए जाते हैं। इसलिए हमें और मिला (चर में हमारे पास केवल दो थे), उनके 1 प्रमुख घटक, जिसमें लोडिंग और । चरों के बीच का कोण भी चिह्नित होता है। वेरिएबल्स प्रारंभिक केंद्रित थे, इसलिए उनकी वर्ग लंबाई, और उनके संबंधित हैं।एक्स 2 एफ 1 2 एच 2 1 एच 2 2X1X2Fa1a2h12h22

यहाँ छवि विवरण दर्ज करें

और बीच है - यह उनका स्केलर उत्पाद है - (यह कोसाइन सहसंबंध मूल्य है, वैसे)। पीसीए की , ज़ाहिर है, समग्र भिन्नता की अधिकतम by , घटक का भिन्नता।X1X2h1h2cosϕh12+h22a12+a22F

अब, covariance , जहां चर पर चर का प्रक्षेपण है (प्रक्षेपण जो पहले से दूसरे के प्रतिगमन भविष्यवाणी है)। और इसलिए की परिमाण नीचे आयत के क्षेत्र (पक्षों और ) द्वारा प्रदान की जा सकती है ।h1h2cosϕ=g1h2g1X1X2g1h2

यहाँ छवि विवरण दर्ज करें

तथाकथित "फैक्टर प्रमेय" के अनुसार (यह जान सकते हैं कि क्या आप कारक विश्लेषण पर कुछ पढ़ते हैं), चर के बीच सहसंयोजक (ओं) को (बारीकी से, यदि बिल्कुल नहीं) निकाले गए अक्षांश चर (ओं) के भार के गुणन द्वारा पुन: प्रस्तुत किया जाना चाहिए ( पढ़ें )। अर्थात्, हमारे विशेष मामले में ( , (यदि मुख्य घटक को हमारे अव्यक्त चर होने के लिए पहचाना जाए)। उस मूल्य को एक आयताकार क्षेत्र द्वारा पक्षों के साथ और साथ प्रस्तुत किया जा सकता है । तुलना करने के लिए, पिछली आयत द्वारा संरेखित आयत को आकर्षित करते हैं। उस आयत को नीचे की ओर झुका हुआ दिखाया गया है, और इसका क्षेत्र उपनाम cov * (पुनरुत्पादित कोव ) है।a1a2a1a2

यहाँ छवि विवरण दर्ज करें

यह स्पष्ट है कि दो क्षेत्रों में बहुत भिन्नता है, कोव * हमारे उदाहरण में काफी बड़ा है। , 1 प्रमुख घटक के लोडिंग द्वारा कोवरियन को ओवरस्टीमेट किया गया । यह किसी ऐसे व्यक्ति के विपरीत है जो उम्मीद कर सकता है कि पीसीए, दो संभावित घटकों में से अकेले 1 घटक द्वारा, कोवरियन के मनाया मूल्य को बहाल करेगा।F

प्रजनन को मुग्ध करने के लिए हम अपने कथानक के साथ क्या कर सकते हैं? उदाहरण के लिए, हम किरण को दक्षिणावर्त थोड़ा घुमा सकते हैं, यहां तक ​​कि जब तक यह साथ । जब उनकी रेखाएँ मेल खाती हैं, तो इसका मतलब है कि हमने को अपने अव्यक्त चर के लिए मजबूर किया है । फिर ( पर प्रक्षेपण ) हो जाएगा , और लोडिंग ( पर प्रक्षेपण ) होगा । फिर दो आयतें एक समान हैं - एक जिसे कोव लेबल किया गया था , और इसलिए कोवरियन को पूरी तरह से पुन: पेश किया जाता है। हालाँकि, , नया "अव्यक्त चर" द्वारा समझाया गया विचरण, इससे छोटा हैFX2X2a2X2h2a1X1g1g12+h22a12+a22 , पुराने अव्यक्त चर द्वारा समझाया गया विचरण, 1 प्रमुख घटक (वर्ग और चित्र पर दो आयतों में से प्रत्येक के पक्षों की तुलना करें)। ऐसा प्रतीत होता है कि हम सहसंयोजक को पुन: उत्पन्न करने में कामयाब रहे, लेकिन विचरण की मात्रा को समझाने की कीमत पर। पहले प्रमुख घटक के बजाय एक अन्य अव्यक्त अक्ष का चयन करके।

हमारी कल्पना या अनुमान सुझाव दे सकता है (मैं गणित द्वारा इसे साबित नहीं कर सकता हूं, मैं गणितज्ञ नहीं हूं) कि अगर हम और द्वारा परिभाषित स्थान से अव्यक्त अक्ष को , तो विमान इसे स्विंग करने की अनुमति देता है हमारे प्रति बिट, हम इसकी कुछ इष्टतम स्थिति पा सकते हैं - इसे कॉल करें, कह सकते हैं, - जिससे सहसंयोजक फिर से उभरती हुई लोडिंग ( ) द्वारा पूरी तरह से पुन: पेश किया जाता है, जबकि विचरण समझाया गया ( ) से बड़ा होगा , यद्यपि का मुख्य घटक जितना बड़ा नहीं होगा ।X1X2Fa1a2a12+a22g12+h22a12+a22F

मुझे विश्वास है कि इस हालत है प्राप्त है, जब अव्यक्त अक्ष विशेष रूप से उस मामले में इस तरह से हवाई जहाज से बाहर का विस्तार के रूप में एक दो व्युत्पन्न orthogonal विमानों के "डाकू", एक धुरी और युक्त खींचने के लिए तैयार हो जाता है और अक्ष और वाले अन्य । फिर इस अव्यक्त धुरी को हम सामान्य कारक कहेंगे , और हमारी संपूर्ण "मौलिकता पर प्रयास" को कारक विश्लेषण का नाम दिया जाएगा ।FX1X2


PCA के संबंध में @ अमीबा के "अपडेट 2" का उत्तर।

@amoeba Eckart-Young प्रमेय को याद करने के लिए सही और प्रासंगिक है जो एसवीडी या ईजन-अपघटन पर आधारित पीसीए और इसके congeneric तकनीकों (PCoA, biplot, पत्राचार विश्लेषण) के लिए मौलिक है। इसके अनुसार, पहले प्रिंसिपल ऑफ़ कम से कम - बराबर एक मात्रा , - साथ ही । यहाँ प्रिंसिपल द्वारा पुन: प्रस्तुत किए गए डेटा के लिए है । को बराबर जाना जाता है , जिसमें का परिवर्तनशील भार होता है।kX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk अवयव।

क्या इसका मतलब यह है कि सही रहते हैं अगर हम दोनों सममित मैट्रिसेस के केवल ऑफ- पर विचार करते हैं? आइए इसे प्रयोग करके देखें।||XXXkXk||2

500 यादृच्छिक 10x6मेट्रिसेस उत्पन्न हुए (समान वितरण)। प्रत्येक के लिए, अपने कॉलम केंद्रित होने पर, पीसीए प्रदर्शन किया गया था, और दो पुनर्निर्मित डेटा मैट्रिक्स अभिकलन: एक के रूप में 3 के माध्यम से घटकों 1 द्वारा पुनर्निर्मित ( पहले पीसीए में हमेशा की तरह), और अन्य के रूप में घटकों 1, 2 द्वारा पुनर्निर्मित , और 4 (अर्थात, घटक 3 को एक कमजोर घटक 4 द्वारा बदल दिया गया था)। पुनर्निर्माण त्रुटि (चुकता अंतर की राशि = इयूक्लिडियन दूरी चुकता) फिर एक के लिए गणना की गई थी , दूसरे के लिए । ये दो मूल्य स्कैल्पलोट पर दिखाने के लिए एक जोड़ी है।XXkk||XXXkXk||2XkXk

पुनर्निर्माण त्रुटि हर बार दो संस्करणों में गणना की गई थी: (ए) की तुलना में पूरी और ; (बी) की तुलना में दो मैट्रिसेस के केवल ऑफ-विकर्ण। इस प्रकार, हमारे पास दो स्कैप्लेट हैं, जिनमें से प्रत्येक में 500 अंक हैं।XXXkXk

यहाँ छवि विवरण दर्ज करें

हम देखते हैं, कि "पूरे मैट्रिक्स" प्लॉट पर सभी बिंदु y=xरेखा के ऊपर स्थित हैं । जिसका अर्थ है कि पूरे स्केलर-उत्पाद मैट्रिक्स के लिए पुनर्निर्माण हमेशा "1, 2, 4 घटकों" की तुलना में "3 घटकों के माध्यम से" अधिक सटीक होता है। यह एकार्ट-यंग प्रमेय के अनुरूप है: पहला प्रिंसिपल घटक सबसे अच्छा फिटर हैं।k

हालांकि, जब हम "ऑफ-डायग्नोनल केवल" प्लॉट देखते हैं, तो हम y=xलाइन के नीचे कई बिंदुओं को नोटिस करते हैं । ऐसा प्रतीत होता है कि कभी-कभी "1 से 3 घटकों" द्वारा ऑफ-विकर्ण भागों का पुनर्निर्माण "1, 2, 4 घटकों" से भी बदतर था। जो स्वचालित रूप से इस निष्कर्ष पर पहुंचता है कि पहले प्रमुख घटक पीसीए में उपलब्ध फिटर के बीच नियमित रूप से ऑफ-विकर्ण स्केलर उत्पादों का सबसे अच्छा फ़िटर नहीं हैं। उदाहरण के लिए, मजबूत के बजाय कमजोर घटक लेने से कभी-कभी पुनर्निर्माण में सुधार हो सकता है।k

इसलिए, यहां तक ​​कि पीसीए के डोमेन में भी , वरिष्ठ प्रिंसिपल कंपोनेंट्स - जो लगभग समग्र विचरण करते हैं, जैसा कि हम जानते हैं, और यहां तक ​​कि पूरे सहसंयोजक मैट्रिक्स, भी, - जरूरी नहीं कि ऑफ-विकर्ण सहसंयोजक । इसलिए उन लोगों के बेहतर अनुकूलन की आवश्यकता है; और हम जानते हैं कि कारक विश्लेषण (या) तकनीक है जो इसे पेश कर सकता है।


@ अमीबा के "अपडेट 3" का अनुवर्ती: क्या पीसीए एफए के रूप में होता है क्योंकि चर की संख्या बढ़ती है? क्या PCA FA का एक वैध विकल्प है?

मैंने सिमुलेशन अध्ययन का एक जाली का आयोजन किया है। जनसंख्या कारक संरचनाओं की कुछ संख्या, मेट्रिसेस को लोड करना यादृच्छिक संख्याओं का निर्माण किया गया और उनकी संबंधित जनसंख्या सहसंयोजक मैट्रिसेस को रूप में परिवर्तित किया गया , साथ एक विकर्ण शोर (अद्वितीय) प्रसरण)। ये सहसंयोजक matrices सभी variances 1 के साथ बनाए गए थे, इसलिए वे उनके सहसंबंध matrices के बराबर थे।AR=AA+U2U2

दो प्रकार के कारक संरचना तैयार किए गए थे - तेज और फैलाना । तीव्र संरचना एक स्पष्ट सरल संरचना है: लोडिंग या तो "उच्च" "कम", कोई मध्यवर्ती नहीं है; और (मेरे डिज़ाइन में) प्रत्येक चर एक कारक द्वारा बिल्कुल लोड किया जाता है। इसी इसलिए noticebly ब्लॉक की तरह है। डिफ्यूज़ संरचना उच्च और निम्न लोडिंग के बीच अंतर नहीं करती है: वे एक सीमा के भीतर किसी भी यादृच्छिक मूल्य हो सकते हैं; और लोडिंग के भीतर कोई पैटर्न की कल्पना नहीं की गई है। नतीजतन, संबंधित चिकना आता है। जनसंख्या मैट्रिसेस के उदाहरण:RR

यहाँ छवि विवरण दर्ज करें

कारकों की संख्या या । चर की संख्या अनुपात k = प्रति कारक चर की संख्या से निर्धारित की गई थी ; k ने अध्ययन में मानों को चलाया ।264,7,10,13,16

कुछ निर्मित जनसंख्या प्रत्येक के लिए , Wishart वितरण (नमूना आकार के तहत ) से इसकी यादृच्छिक प्रतीति उत्पन्न की गई थी। ये सैंपल कोवरियन मैट्रिस थे । प्रत्येक का एफए (प्रमुख अक्ष निष्कर्षण द्वारा) और साथ ही पीसीए द्वारा कारक-विश्लेषण किया गया था । इसके अतिरिक्त, प्रत्येक ऐसे सहसंयोजक मैट्रिक्स को संबंधित नमूना सहसंबंध मैट्रिक्स में परिवर्तित किया गया था जो समान तरीके से कारक-विश्लेषण (तथ्यपूर्ण) भी था। अन्त में, मैंने स्वयं "जनक", जनसंख्या सहसंयोजक (= सहसंबंध) मैट्रिक्स की फैक्टरिंग भी की। कैसर-मेयर-ओल्किन के नमूने की पर्याप्तता हमेशा 0.7 से ऊपर थी।50R50n=200

2 कारकों के साथ डेटा के लिए, विश्लेषण 2 निकाले गए, और 1 के साथ-साथ 3 कारक ("कम करके आंका जाना" और कारकों की सही संख्या के "overestimation")। 6 कारकों के साथ डेटा के लिए, विश्लेषण इसी तरह 6 निकाले गए, और 4 के साथ-साथ 8 कारक भी।

अध्ययन का उद्देश्य एफए बनाम पीसीए के सहसंयोजक / सहसंबंध बहाली गुण थे। इसलिए ऑफ-विकर्ण तत्वों के अवशेष प्राप्त किए गए थे। मैंने पुनरुत्पादित तत्वों और जनसंख्या मैट्रिक्स तत्वों के बीच अवशेषों को पंजीकृत किया, साथ ही पूर्व और विश्लेषण किए गए नमूना मैट्रिक्स तत्वों के बीच अवशेष भी। 1 प्रकार के अवशेष वैचारिक रूप से अधिक रोचक थे।

नमूना सहसंयोजक और नमूना सहसंबंध matrices पर किए गए विश्लेषण के बाद प्राप्त परिणाम में कुछ अंतर थे, लेकिन सभी प्रमुख निष्कर्ष समान होने का अनुमान लगाया गया। इसलिए मैं केवल "सहसंबंध-मोड" विश्लेषण पर चर्चा कर रहा हूं (परिणाम दिखा रहा हूं)।

1. पीसीए बनाम एफए द्वारा कुल मिलाकर विकर्ण फिट

नीचे दिए गए ग्राफिक्स, विभिन्न कारकों की संख्या और अलग-अलग k के विरुद्ध, माध्य के अनुपात को नापा जाता है, जो कि PCA में समान मात्रा में एफए में उपजता है । यह उसी तरह है जैसा @amoeba ने "अपडेट 3" में दिखाया था। भूखंड पर स्थित रेखाएं 50 सिमुलेशन (मैं उन पर त्रुटि पट्टी दिखाती है) को पार करने की औसत प्रवृत्ति का प्रतिनिधित्व करती है।

(नोट: परिणाम यादृच्छिक नमूना सहसंबंध मैट्रिक्स के फैक्टरिंग के बारे में हैं, न कि उनके बारे में जनसंख्या मैट्रिक्स पैरेन्टल फैक्टरिंग के बारे में: यह एफए के साथ पीसीए की तुलना करने के लिए मूर्खतापूर्ण है कि वे जनसंख्या मैट्रिक्स को कितनी अच्छी तरह समझाते हैं - एफए हमेशा जीतेंगे, और यदि कारकों की सही संख्या निकाली जाती है, इसके अवशिष्ट लगभग शून्य होंगे, और इसलिए अनुपात अनंत की ओर बढ़ेगा।)

यहाँ छवि विवरण दर्ज करें

इन भूखंडों पर टिप्पणी करना:

  • सामान्य प्रवृत्ति: जैसा कि k (प्रति कारक चर की संख्या) PCA / FA समग्र सबफ़िट अनुपात को 1 की ओर बढ़ाता है। यानी, अधिक चर के साथ PCA ऑफ-विकर्ण सहसंबंधों / सहसंबंधों को समझाने में FA के पास आता है। (उनके उत्तर में @amoeba द्वारा प्रलेखित।) संभवत: घटता अनुमान लगाने वाला कानून = 0 से b0 के करीब = एक्सप (b0 + b1 / k) है।
  • अनुपात अधिक है अवशिष्ट अवशिष्ट "नमूना माइनस पुन: प्रस्तुत नमूना" (बाएं प्लॉट) से अवशिष्ट अवशिष्ट "जनसंख्या माइनस पुन: पेश नमूना" (दायां प्लॉट)। यह (तुच्छ रूप से) है, पीसीए को मैट्रिक्स में तुरंत विश्लेषण किया जा रहा है फिटिंग में अवर है। हालांकि, बाएं भूखंड पर लाइनों में तेजी से कमी होती है, इसलिए k = 16 द्वारा अनुपात 2 से नीचे है, साथ ही, यह सही भूखंड पर है।
  • अवशिष्ट के साथ "जनसंख्या माइनस रिप्रोडक्टेड नमूना", रुझान हमेशा उत्तल या यहां तक ​​कि मोनोटोनिक नहीं होते हैं (असामान्य कोहनी को परिचालित दिखाया गया है)। तो, जब तक भाषण एक गुणन के माध्यम से गुणांक के एक जनसंख्या मैट्रिक्स को समझाने के बारे में है, तब तक चर की संख्या बढ़ने से नियमित रूप से पीसीए को उसके फिटकिन गुणवत्ता में एफए के करीब नहीं लाया जाता है, हालांकि प्रवृत्ति है।
  • जनसंख्या में m = 6 कारकों की तुलना में m = 2 कारकों के लिए अनुपात अधिक है (बोल्ड रेड लाइन्स बोल्ड ग्रीन लाइन्स से नीचे हैं)। जिसका अर्थ है कि डेटा में अभिनय करने वाले अधिक कारकों के साथ पीसीए जल्द ही एफए के साथ पकड़ लेता है। उदाहरण के लिए, दाएं भूखंड पर k = 4 उपज 6 कारकों के लिए 1.7 के अनुपात में है, जबकि 2 कारकों के लिए समान मूल्य k = 7 पर पहुंच गया है।
  • यदि हम अधिक कारकों को निकालते हैं, तो अनुपात अधिक होता है, जो कारकों की वास्तविक संख्या के सापेक्ष होता है। अर्थात्, पीसीए केवल एफए की तुलना में थोड़ा खराब है यदि निष्कर्षण पर हम कारकों की संख्या को कम आंकते हैं; और कारकों की संख्या सही होने या कम होने (बोल्ड लाइनों के साथ पतली रेखाओं की तुलना) करने पर यह इसे और अधिक खो देता है।
  • कारक संरचना के तीखेपन का एक दिलचस्प प्रभाव है जो केवल तब दिखाई देता है जब हम अवशेषों पर विचार करते हैं "जनसंख्या शून्य से नमूना पुन: नमूना": दाईं ओर ग्रे और पीले भूखंडों की तुलना करें। यदि जनसंख्या कारक भिन्न रूप से चर को लोड करते हैं, तो लाल रेखाएँ (m = 6 कारक) नीचे तक डूब जाती हैं। अर्थात्, विसरित संरचना (जैसे अराजक संख्याओं का भार) PCA (एक नमूने पर प्रदर्शन) जनसंख्या सहसंबंधों के पुनर्निर्माण में FA की तुलना में कुछ ही खराब है- यहां तक ​​कि छोटे कश्मीर के तहत, बशर्ते कि जनसंख्या में कारकों की संख्या नहीं है बहुत छोटा। शायद यही वह स्थिति है जब पीसीए एफए के सबसे करीब है और इसके शेपर विकल्प के रूप में सबसे अधिक वारंट है। जबकि तेज कारक संरचना की उपस्थिति में पीसीए जनसंख्या सहसंबंधों (या सहसंयोजक) के पुनर्निर्माण में इतना आशावादी नहीं है: यह एफए केवल बड़े कश्मीर परिप्रेक्ष्य में दृष्टिकोण करता है।

2. पीसीए बनाम एफए द्वारा तत्व-स्तर फिट: अवशिष्ट का वितरण

प्रत्येक सिमुलेशन प्रयोग के लिए जहां जनसंख्या मैट्रिक्स से 50 यादृच्छिक नमूना मैट्रिसेस के फैक्टरिंग (पीसीए या एफए) द्वारा किया गया था, प्रत्येक ऑफ-डायगोनल सहसंबंध तत्व से प्राप्त अवशिष्ट "जनसंख्या सहसंबंध माइनस (फैक्टरिंग द्वारा) नमूना सहसंबंध" का वितरण प्राप्त किया गया था। वितरण स्पष्ट पैटर्न का पालन करते हैं, और विशिष्ट वितरण के उदाहरणों को नीचे दर्शाया गया है। पीसीए फैक्टरिंग के बाद परिणाम ब्लू लेफ्ट साइड होते हैं और एफए फैक्टरिंग के बाद परिणाम ग्रीन राइट साइड होते हैं।

यहाँ छवि विवरण दर्ज करें

प्रिंसिपल खोज वह है

  • उच्चारण, निरपेक्ष परिमाण के अनुसार, जनसंख्या सहसंबंधों को पीसीए द्वारा अपर्याप्त रूप से बहाल किया जाता है: पुनरुत्पादित मूल्य परिमाण द्वारा overestimates हैं।
  • लेकिन पूर्वाग्रह k के रूप में लुप्त हो जाता है (कारकों की संख्या के लिए चर की संख्या) बढ़ जाती है। तस्वीर पर, जब प्रति कारक केवल k = 4 चर होता है, तो PCA के अवशेष 0. से ऑफसेट में फैल जाते हैं। यह तब देखा जाता है जब 2 कारक और 6 कारक मौजूद होते हैं। लेकिन k = 16 के साथ ऑफसेट बहुत मुश्किल से देखा जाता है - यह लगभग गायब हो गया और पीसीए फिट एफए फिट के पास पहुंच गया। पीसीए और एफए के बीच अवशिष्टों के प्रसार (विचरण) में कोई अंतर नहीं देखा गया है।

इसी तरह की तस्वीर तब भी देखी जाती है जब निकाले गए कारकों की संख्या कारकों की सही संख्या से मेल नहीं खाती है: केवल अवशिष्ट के विचरण कुछ हद तक बदलते हैं।

ग्रे पृष्ठभूमि पर ऊपर दिखाए गए वितरण जनसंख्या में मौजूद तेज (सरल) कारक संरचना के प्रयोगों से संबंधित हैं । जब सभी विश्लेषण विसरित जनसंख्या कारक संरचना की स्थिति में किए गए , तो यह पाया गया कि पीसीए का पूर्वाग्रह न केवल कश्मीर के उदय के साथ मिटता है, बल्कि मीटर (कारकों की संख्या) के उदय के साथ भी होता है । कृपया "6 कारकों, के = 4" कॉलम के नीचे पीले-पीले अनुलग्नकों को देखें: पीसीए परिणामों के लिए देखे गए 0 से लगभग कोई ऑफसेट नहीं है (ऑफसेट अभी तक एम = 2 के साथ मौजूद है, जिसे तस्वीर पर नहीं दिखाया गया है )।

यह सोचते हुए कि वर्णित निष्कर्ष महत्वपूर्ण हैं, मैंने उन अवशिष्ट वितरणों का गहराई से निरीक्षण करने का निर्णय लिया और तत्व (जनसंख्या सहसंबंध) मूल्य (एक्स अक्ष) के खिलाफ अवशिष्ट (वाई अक्ष) के बिखराव को प्लॉट किया । ये स्कैप्लेट्स प्रत्येक के सभी (50) सिमुलेशन / विश्लेषणों के परिणामों को जोड़ते हैं। LOESS फिट लाइन (उपयोग करने के लिए 50% स्थानीय बिंदु, एपनेनिकोव कर्नेल) पर प्रकाश डाला गया है। भूखंडों में तेज कारक संरचना के मामले के लिए भूखंडों का पहला सेट है (सहसंबंध मूल्यों की त्रिमूर्ति स्पष्ट है इसलिए):

यहाँ छवि विवरण दर्ज करें

टिप्पणी करते हुए:

  • हम स्पष्ट रूप से (ऊपर वर्णित) पुनर्गठन पूर्वाग्रह को देखते हैं जो कि तिरछी, नकारात्मक प्रवृत्ति लोस लाइन के रूप में पीसीए की विशेषता है: निरपेक्ष मूल्य जनसंख्या सहसंबंधों में बड़ा नमूना डेटासेट के पीसीए द्वारा overestimated हैं। एफए निष्पक्ष (क्षैतिज लूप) है।
  • जैसे ही k बढ़ता है, PCA का पूर्वाग्रह कम हो जाता है।
  • पीसीए इस बात से बेपरवाह है कि जनसंख्या में कितने कारक हैं: 6 कारकों के साथ (और विश्लेषण में 6 निकाले गए) यह उसी तरह से दोषपूर्ण है जैसे 2 कारक अस्तित्व में (2 निकाले गए)।

नीचे दिए गए भूखंडों का दूसरा सेट आबादी में फैक्टर कारक संरचना के मामले के लिए है:

यहाँ छवि विवरण दर्ज करें

फिर से हम पीसीए द्वारा पूर्वाग्रह का निरीक्षण करते हैं। हालांकि, तेज कारक संरचना के मामले के विपरीत, पूर्वाग्रह कारकों की संख्या बढ़ने के रूप में फीका हो जाता है: 6 जनसंख्या कारकों के साथ, पीसीए की लोस लाइन केवल कश्मीर के नीचे क्षैतिज होने से बहुत दूर नहीं है। 4. यह वही है जो हमने व्यक्त किया है " पीला हिस्टोग्राम "पहले।

स्कैल्प्लॉट्स के दोनों सेटों पर एक दिलचस्प घटना यह है कि पीसीए के लिए लूप लाइनें एस-घुमावदार हैं। यह वक्रता अन्य जनसंख्या कारक संरचनाओं (लोडिंग) के तहत बेतरतीब ढंग से मेरे द्वारा निर्मित (मैंने जाँच की) से पता चलता है, हालांकि इसकी डिग्री बदलती है और अक्सर कमजोर होती है। यदि एस-आकार से अनुसरण किया जाता है, तो पीसीए 0 से उछलता है (विशेष रूप से छोटे कश्मीर के तहत), लेकिन कुछ मूल्य से - लगभग .30 या .40 - से उछाल को सहसंबंधी रूप से विकृत करना शुरू कर देता है। मैं इस समय उस व्यवहार के संभावित कारण के लिए अटकल नहीं लगाऊंगा, हालांकि मुझे विश्वास है कि "साइनसॉइड" सहसंबंध के त्रिकोणमितीय प्रकृति से उपजा है।

पीसीए बनाम एफए द्वारा फ़िट: निष्कर्ष

एक सहसंबंध / सहसंयोजक मैट्रिक्स के ऑफ-विकर्ण भाग के समग्र फिटर के रूप में , पीसीए - जब एक जनसंख्या से एक नमूना मैट्रिक्स का विश्लेषण करने के लिए लागू किया जाता है - कारक विश्लेषण के लिए एक काफी अच्छा विकल्प हो सकता है। यह तब होता है जब चर / अपेक्षित कारकों की संख्या का अनुपात पर्याप्त बड़ा होता है। (अनुपात के लाभकारी प्रभाव के लिए ज्यामितीय कारण नीचे Footnote में समझाया गया है ।) अधिक कारक मौजूद होने के साथ अनुपात केवल कुछ कारकों से कम हो सकता है। एफए की गुणवत्ता का दृष्टिकोण करने के लिए तेज कारक संरचना (सरल संरचना आबादी में मौजूद है) पीसीए की उपस्थिति।1

पीसीए की समग्र फिट क्षमता पर तेज कारक संरचना का प्रभाव केवल तब तक स्पष्ट होता है जब तक अवशेष "जनसंख्या माइनस रिप्रोड्यूस्ड सैंपल" पर विचार नहीं किया जाता है। इसलिए एक सिमुलेशन अध्ययन सेटिंग के बाहर इसे पहचानने में चूक हो सकती है - एक नमूना के अवलोकन अध्ययन में हमारे पास इन महत्वपूर्ण अवशिष्टों तक पहुंच नहीं है।

कारक विश्लेषण के विपरीत, पीसीए जनसंख्या सहसंबंधों (या सहसंयोजकों) के परिमाण का (सकारात्मक) पक्षपाती अनुमानक है जो शून्य से दूर हैं। पीसीए की पक्षपातपूर्णता हालांकि घट जाती है क्योंकि चर / अनुपात की अपेक्षित संख्या बढ़ती है। पक्षपात भी घटता है क्योंकि जनसंख्या में कारकों की संख्या बढ़ती है, लेकिन यह बाद की प्रवृत्ति एक तेज कारक कारक के तहत बाधा है।

मैं टिप्पणी करता हूं कि पीसीए फिट पूर्वाग्रह और उस पर तेज संरचना के प्रभाव को अवशिष्ट "नमूना माइनस पुन: पेश नमूना" पर विचार करने में भी उजागर किया जा सकता है; मैंने केवल ऐसे परिणाम दिखाना छोड़ दिया क्योंकि वे नए इंप्रेशन नहीं जोड़ते हैं।

अंत में मेरी बहुत ही अस्थायी, व्यापक सलाह हो सकती है कि आप विशिष्ट के लिए एफए के बजाय पीसीए का उपयोग करने से बचना चाहिए (यानी आबादी में 10 या उससे कम कारकों के साथ) कारक विश्लेषणात्मक उद्देश्यों जब तक कि आपके पास कारकों की तुलना में कुछ 10+ गुना अधिक चर न हों। और जितने कम कारक हैं, उतना ही आवश्यक अनुपात है। मैं एफए के स्थान पर पीसीए उपयोग की अनुशंसा नहीं आगे हैं सब पर जब भी अच्छी तरह से स्थापित, तेज कारक संरचना के साथ डेटा का विश्लेषण किया जाता है - जैसे कि जब कारक विश्लेषण मान्य करने के लिए किया जाता है के रूप में विकसित या पहले से ही व्यक्त निर्माणों / तराजू के साथ मनोवैज्ञानिक परीक्षण या प्रश्नावली शुरू किया जा रहा । पीसीए का उपयोग एक साइकोमेट्रिक इंस्ट्रूमेंट के लिए प्रारंभिक, प्रारंभिक वस्तुओं के चयन के उपकरण के रूप में किया जा सकता है।

अध्ययन की सीमाएँ । 1) मैंने कारक निष्कर्षण की केवल पीएएफ पद्धति का उपयोग किया। 2) नमूना आकार तय किया गया था (200)। 3) नमूना मैट्रिसेस के नमूने में सामान्य आबादी को मान लिया गया था। 4) तेज संरचना के लिए, प्रति कारक चर की समान संख्या मॉडलिंग की गई थी। 5) जनसंख्या कारक लोडिंग का निर्माण करना, मैंने उन्हें लगभग एक समान (तेज संरचना के लिए - त्रिमोदल, यानी 3-टुकड़ा वर्दी) वितरण से उधार लिया। 6) इस तात्कालिक परीक्षा में, निश्चित रूप से, कहीं भी हो सकता है।


पादपीसीए एफए के परिणामों की नकल करेगा और जब - जैसा कि यहां कहा गया है - समान मॉडल के त्रुटि चर, अनूठे कारक कहे जाने वाले सहसंबंधों के बराबर फिटर बन जाएंगे। एफए उन्हें असंबद्ध बनाने का प्रयास करता है, लेकिन पीसीए नहीं करता है, वे पीसीए में असंबद्ध हो सकते हैं । जब यह हो सकती है तो प्रमुख स्थिति तब होती है जब सामान्य कारकों (प्रत्येक घटक के रूप में रखे गए घटकों) की संख्या प्रति चर की संख्या बड़ी हो।1

निम्नलिखित चित्रों पर विचार करें (यदि आपको उन्हें समझने के लिए पहले जानने की आवश्यकता है, तो कृपया इस उत्तर को पढ़ें ):

यहाँ छवि विवरण दर्ज करें

कारक विश्लेषण की आवश्यकता के लिए कुछ mसामान्य कारकों, अद्वितीय कारकों साथ सफलतापूर्वक सहसंबंधों को बहाल करने में सक्षम होने के लिए , प्रकट चर सांख्यिकीय रूप से अद्वितीय भागों को चिह्नित करना, असंबंधित होना चाहिए। जब पीसीए का उपयोग किया जाता है, तो को एस द्वारा फैलाए गए -स्पेस के उप-स्थान पर झूठ बोलना पड़ता है क्योंकि पीसीए विश्लेषण किए गए चर के स्थान को नहीं छोड़ता है। इस प्रकार - बाईं तस्वीर देखें - (मुख्य घटक निकाले गए कारक है) और ( , ) का विश्लेषण, अद्वितीय कारक ,X U X P 1 X 1 X 2 U 1 U 2 r = - 1UpXp Up-mpXm=1P1p=2X1X2U1U2शेष दूसरे घटक (विश्लेषण की त्रुटि के रूप में सेवारत) पर अनिवार्य रूप से सुपरइम्पोज़ करें। फलस्वरूप उन्हें सहसंबद्ध होना पड़ता है । (तस्वीर पर, वैक्टर के बीच कोणों के बराबर कोरिलेशन।) आवश्यक ओर्थोगोनलिटी असंभव है, और चर के बीच मनाया सहसंबंध कभी भी बहाल नहीं किया जा सकता है (जब तक कि अद्वितीय कारक शून्य वैक्टर नहीं हैं, एक तुच्छ मामले)।r=1

लेकिन अगर आप एक और चर ( ), सही तस्वीर , और अभी भी एक पीआर निकालते हैं। सामान्य कारक के रूप में घटक, तीन एस को एक विमान में झूठ बोलना पड़ता है (शेष दो पीआर घटकों द्वारा परिभाषित)। तीन तीर एक विमान को इस तरह से फैला सकते हैं कि उनके बीच के कोण 180 डिग्री से छोटे हैं। वहाँ कोणों के लिए स्वतंत्रता उभरती है। एक संभव विशेष मामले के रूप में, कोण सकता है बराबर, 120 डिग्री के बारे में हो सकता है। यह पहले से ही 90 डिग्री से बहुत अधिक नहीं है, अर्थात, असंबद्धता से। यही स्थिति तस्वीर पर दिखाई गई है। यूX3U

जैसे ही हम 4th वेरिएबल जोड़ते हैं, 4 s 3 डी स्पेस फैलेगा। 5, 5 से 5 वें स्पैन के साथ, 90 डिग्री के करीब पाने के लिए एक साथ बहुत सारे कोणों के लिए कक्ष का विस्तार होगा। जिसका अर्थ है कि पीसीए के लिए एफए के अप -विकर्ण त्रिकोण फिट करने की क्षमता में एफए से संपर्क करने के लिए कमरे का भी विस्तार होगा।U

लेकिन सच्चा एफए आमतौर पर छोटे अनुपात "चर की संख्या / कारकों की संख्या" के तहत भी सहसंबंधों को बहाल करने में सक्षम होता है, क्योंकि, जैसा कि यहां बताया गया है (और दूसरी तस्वीर देखें) कारक विश्लेषण सभी कारक वैक्टर (सामान्य कारक) और अद्वितीय की अनुमति देता है लोगों के चर स्थान में झूठ बोलने से बचना। इसलिए केवल 2 चर और एक कारक के साथ s की रूढ़िवादिता के लिए जगह है।एक्सUX

तस्वीरें ऊपर भी क्यों पीसीए के लिए स्पष्ट संकेत दे overestimates सहसंबंध। बाईं पिक, उदाहरण के लिए, पर , जहां के अनुमानों हैं पर रों (की लोडिंग ) और एस के समान नहीं हैं एस (की लोडिंग )। लेकिन उस सहसंबंध के रूप में द्वारा पुनर्निर्मित अकेले बस के बराबर होती है , यानी से बड़े । एक एक्स पी 1 पी 1 यू यू पी 2 पी 1 एक 1 एक 2 आर एक्स 1 एक्स 2rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


1
मुझे आपके पीसीए / एफए / सीसीए ड्राइंग बहुत पसंद हैं, इसलिए खुशी से +1। यह सोचने का तरीका कुछ ऐसा है जिसका मैं पूरी तरह से उपयोग नहीं कर रहा हूं, इसलिए इसे मेरे द्वारा ज्ञात गणित में मैप करने के लिए कुछ विचार की आवश्यकता है ... हालांकि, ध्यान दें कि यहां (साथ ही साथ आपके अन्य प्रसिद्ध एफए-बनाम-पीसीए उत्तर के साथ) आरेखण) आपके पास केवल दो चर हैं। जैसा कि मैंने अपने जवाब में कहा, जब केवल दो चर होते हैं, तो एफए में एक कारक पूरी तरह से 100% के लिए पर्याप्त होता है, कोवरियस को पुन: उत्पन्न करता है (क्योंकि कोविरियस मैट्रिक्स में स्वतंत्रता की केवल एक डिग्री होती है, विकर्ण के अलावा, लेकिन एक पीसी आम तौर पर यह नहीं कर सकता। इसलिए मेरे जवाब से कोई विरोधाभास नहीं है।
अमीबा

हम्म, मुझे आशा है कि मैंने एफए और पीसीए द्वारा अलग-अलग प्रजनन के बिंदु को गलत नहीं समझा। यहाँ जगह मेरी बात के लिए कम है, मैं इसे एक और जवाब में
रखूँगा

2
आपके अपडेट का जवाब देना (जो कि आपके अपडेट 2 के लिए आपका जवाब है): मैं यहाँ लिखी गई हर बात से बिलकुल सहमत हूँ! पीसीए लोडिंग पूरे कोविरियस मैट्रिक्स (विकर्ण सहित) के लिए सबसे अच्छा निम्न-रैंक सन्निकटन है, लेकिन जरूरी नहीं कि इसके निचले-विकर्ण भाग के लिए सबसे अच्छा निम्न-रैंक सन्निकटन हो; यह बाद का अनुमान कारक विश्लेषण द्वारा दिया गया है। ऐसा लगता है कि हम यहां आपसी समझौते पर पहुंच गए हैं; या क्या आपको अभी भी लगता है कि मेरे उत्तर के कुछ हिस्से आपकी सोच के विपरीत हैं?
अमीबा

1
@ttnphns: मैंने ऊपर हमारी चर्चा को फिर से पढ़ा, और मुझे अपने मूल उत्तर में एक बिंदु पर वापस आने दिया। पीसीए पूरे सहसंयोजक मैट्रिक्स को लोड करने वाले लोडिंग को खोजने की कोशिश करता है; एफए लोडिंग को खोजने की कोशिश करता है जो इसके ऑफ-विकर्ण भाग को अनुमानित करता है। लेकिन बड़े आयाम, सहसंयोजक मैट्रिक्स का छोटा हिस्सा इसके विकर्ण द्वारा लिया जाता है, जिसका अर्थ है कि बड़े आयामों में पीसीए इसके ऑफ-विकर्ण भाग के बारे में ज्यादातर देखभाल करना शुरू कर देता है (क्योंकि विकर्ण हिस्सा इतना छोटा हो जाता है)। तो सामान्य तौर पर, जितना बड़ा आयाम, उतना करीब पीसीए एफए हो जाता है। क्या आप सहमत हैं?
अमीबा

1
पिंग, ttnphns के लिए धन्यवाद। वाह, यह दिलचस्प लग रहा है। मैं इसे ध्यान से पढ़ूंगा लेकिन अभी नहीं; मुझे इसे जनवरी तक के लिए स्थगित करना पड़ सकता है। इसे पढ़ते ही मैं यहाँ टिप्पणी करूँगा। वैसे, मैं इस धागे पर वापस आने के बारे में (मेरे सिर के पीछे) सोच रहा हूं और इसे "अधिक सामंजस्यपूर्ण" बनाने के लिए मेरे जवाब को थोड़ा संपादित कर रहा हूं। ऐसा करने का यह एक अच्छा अवसर हो सकता है (लेकिन मुझे जो आपने पहले लिखा था उसे पढ़ने दें)। С наступающим!
अमीबा

4

(यह सच में @ ttnphns के दूसरे उत्तर के लिए एक टिप्पणी है)
जहाँ तक पीसी द्वारा और एफए द्वारा त्रुटि मानने के विभिन्न प्रकार के प्रजनन का संबंध है, मैंने बस दो प्रकार की घटनाओं में होने वाले विचरण के लोडिंग / कम्पेनेंट्स को प्रिंट किया है। ; उदाहरण के लिए मैंने 2 चर लिए।

हम दो वस्तुओं के निर्माण को एक समान कारक और एक सामान कारक मानते हैं। यहाँ वह कारक-लोडिंगमैट्रिक्स है:

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

इसके द्वारा सहसंबंध मैट्रिक्स है

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

यदि हम लोडिंग-मैट्रिक्स L_fa को देखते हैं और एफए में सामान्य रूप से व्याख्या करते हैं कि f2 और f3 त्रुटि शब्द / आइटम त्रुटि हैं, तो हम उस त्रुटि के बिना C को पुन: उत्पन्न करते हैं, प्राप्त करते हैं

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

इसलिए हमने ऑफ-विकर्ण तत्व को पूरी तरह से पुन: पेश किया है, जो कोविरेंस है (और विकर्ण कम हो गया है)

यदि हम pca-solution को देखते हैं (साधारण घुमाव द्वारा किया जा सकता है) तो हमें एक ही सहसंबंध-मैट्रिक्स से दो कारक मिलते हैं:

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

दूसरे कारक को त्रुटि के रूप में मानते हुए हमें सहसंयोजी का पुनरुत्पादित मैट्रिक्स मिलता है

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

जहां हमने सच्चे सहसंबंध को कम करके आंका है। ऐसा इसलिए है क्योंकि हमने दूसरे कारक = त्रुटि में सही नकारात्मक आंशिक सहसंयोजक की उपेक्षा की । ध्यान दें कि PPCA पहले उदाहरण के समान होगा।

अधिक वस्तुओं के साथ यह अधिक स्पष्ट नहीं है लेकिन फिर भी एक अंतर्निहित प्रभाव है। इसलिए मिनो-निष्कर्षण (या -प्रोटेशन?) की अवधारणा भी है और मैंने अधिकतम-निर्धारक निष्कर्षण और कुछ भी देखा है ...


[अपडेट] @amoeba के प्रश्न के लिए:

मैंने "मिनिमल रेजिड्यूल्स" ("मिनोएस") की अवधारणा को समझा - सीएफए-संगणना के पहले के तरीकों के लिए एक समवर्ती विधि के रूप में रोटेशन, एक सहसंबंधी मैट्रिक्स के ऑफ-विकर्ण तत्वों का सबसे अच्छा प्रजनन प्राप्त करने के लिए। मैंने इसे 80'ies / 90'ies में सीखा और कारक-विश्लेषण के विकास का पालन नहीं किया (जैसा कि हाल के वर्षों में पहले जैसा था), इसलिए संभवतः "मिनो" फैशन से बाहर है।

पीसीए-सॉल्यूशन के साथ इसकी तुलना करने के लिए : कोई कारकों के घूर्णन द्वारा पीसी-सॉल्यूशन को खोजने के बारे में सोच सकता है जब उन्हें एक यूक्लिडियन स्पेस में कुल्हाड़ियों के रूप में सोचा जाता है और लोडिंग उस वैक्टरस्पेस में वस्तुओं के निर्देशांक होते हैं।
फिर कुल्हाड़ियों की एक जोड़ी के लिए x कहते हैं, x- अक्ष के भार से s-of-squares y और y- अक्ष की गणना की जाती है।
इसमें से एक रोटेशन कोण मिल सकता है, जिसके द्वारा हमें घूमना चाहिए, एक्स ° पर घुमाए गए कुल्हाड़ियों में सम -वर्गों को प्राप्त करने के लिए और y ° -axis पर कम से कम (जहां लिट्टी सर्कल रोटेट अक्षों को इंगित करता है) ।

कुल्हाड़ियों के सभी जोड़े के लिए ऐसा करना (जहां हमेशा केवल एक्स-अक्ष बाईं ओर होता है और y- अक्ष दाईं ओर होता है (इसलिए 4 कारकों के लिए हमारे पास केवल 6 जोड़े घुमाव हैं) और फिर पूरी प्रक्रिया को एक स्थिर परिणाम पर दोहराएं। प्रमुख घटकों के समाधान की खोज के लिए तथाकथित "जैकोबी-विधि" का एहसास होता है: यह पहली धुरी का पता लगाएगा जैसे कि यह लोडिंग के वर्गों के अधिकतम संभव योग ("एसएसक्यूएल") (जिसका अर्थ है "विचरण" भी एकत्र करता है। ") वर्तमान सहसंबंधीय विन्यास में एक अक्ष पर।

जहाँ तक मैं चीजों को समझता था, " मिनकोस " को एसएसक्एल के बजाय आंशिक सहसंबंधों को देखना चाहिए; इसलिए यह लोडिंग के वर्गों को योग नहीं करता है (जैसा कि जैकोबी-पीसी-रोटेशन में किया जाता है), लेकिन प्रत्येक कारक में लोडिंग के क्रॉसप्रोडक्ट्स को जोड़ दिया जाता है - प्रत्येक के लोडिंग के "क्रॉसप्रोडक्ट्स" (= वर्ग) को छोड़कर। खुद के साथ आइटम।
X और y- अक्ष के लिए मापदंड के बाद गणना की जाती है कि यह उसी तरह से आगे बढ़ता है जैसा कि चलने वाले जैकोबी-रोटेशन के लिए वर्णित है।

चूंकि घूर्णन-मानदंड अधिकतम-एसएसक्यूएल-कसौटी से संख्यात्मक रूप से भिन्न होता है, इसलिए परिणाम / घूर्णी स्थिति पीसीए-समाधान से भिन्न होगी। यदि यह अभिसरण करता है तो इसके बजाय पहले कारक में एक धुरी पर अधिकतम संभव आंशिक सहसंबंध प्रदान करना चाहिए, अगले कारक पर अगला अधिकतम सहसंबंध और इसी तरह। विचार ऐसा लगता है, फिर इतने अक्षों / कारकों को ग्रहण करने के लिए कि शेष / अवशिष्ट आंशिक सहसंयोजक सीमांत हो जाता है।

(ध्यान दें कि यह केवल यह है कि मैंने चीजों की व्याख्या कैसे की है, मैंने उस प्रक्रिया को स्पष्ट रूप से नहीं लिखा है (या इस समय याद नहीं कर सकता है); मैथवर्ल्ड पर एक वर्णन अमीबा के उत्तर में सूत्रों की तरह इसे व्यक्त करने के लिए लगता है) और अधिक आधिकारिक होने की संभावना। बस आर-प्रोजेक्ट प्रलेखन में एक और संदर्भ पाया गया और कारकानालाइसिस पर गोरसच पुस्तक में एक बहुत अच्छा संदर्भ, पृष्ठ ११६, गूगल-पुस्तकों के माध्यम से उपलब्ध है )


क्या आप बता सकते हैं कि आप अपने आखिरी वाक्य में क्या जिक्र कर रहे हैं? "MinRes" या "अधिकतम-निर्धारक" निष्कर्षण क्या है, और यह कैसे है जो आपने पहले लिखा था?
अमीबा

"मिनोस्क" कुछ निष्कर्षण या रोटेशन विधि है जो मैं सालों पहले या तो एस मुल्लिक या के। अर्बला की मोनोग्राफियों में फैक्टरानैलिसिस के बारे में बताता था। यह अवशिष्ट अपतटीय तत्वों को कम करने पर केंद्रित है। क्योंकि यह कई अन्य तरीकों के संदर्भ में स्पष्ट रूप से उल्लेख किया गया था, मैंने मान लिया था कि यह संभवत: उस युग के CFA से अलग - कार्यान्वयन है। मैंने इसके औचित्य को रोटेशन-मानदंड के रूप में लागू करने की कोशिश की, लेकिन किसी भी तरह कोई निर्णायक नतीजा नहीं निकला। मुझे यह भी उम्मीद थी कि "निर्धारक को अधिकतम करना" यहां जाना जाएगा; मैं देखूंगा कि 20 साल पहले मुझे क्या विवरण मिला था ...
हेल्म्स

आह, मुझे दोनों भाग मिल गए हैं। "Minres" -rationale के लिए रोटेशन-कसौटी का विवरण पर है go.helms-net.de/stat/fa/minres.htm । "अधिकतम निर्धारक" कुछ संवाददाता जेफरी ओवेन काट्ज के निष्कर्षण / रोटेशन-विधि के तहत गणितीय मॉडल है, जिन्होंने इसे "ओबिसिम" कहा था और संभवतः हमारे पत्राचार के बाद विकसित किया गया था। उस समय तक यह मेरे सिर के ऊपर था; वैसे भी मैंने इस पद्धति को समझने की कोशिश की और इसे वर्डफ़ाइल में स्वरूपित और पुनर्गठित किया। देखें go.helms-net.de/stat/fa/oblisim.zip "oblisim" के लिए Google ने एक समाचार समूह-प्रविष्टि दी जिसने लगता है कि इसे पेश किया है।
गॉटफ्रीड हेल्स

@amoeba: यहाँ संभवतः पहली प्रविष्टि है, जहाँ Jeff Katz ने अपने तरीके का सेट पेश किया: mathforum.org/kb/message.jspa?messageID=1516627 यह 1998 का ​​है, इसलिए मेरे बारे में 20 साल पहले का अनुमान कुछ अटपटा था ...
गॉटफ्राइड हेल्स

2

मेरे विचार में, "पीसीए" और "एफए" की धारणाएं "खोजपूर्ण", "पुष्टिकरण" या शायद "हीनवादी" की धारणाओं से भिन्न आयाम पर हैं। तो दो गणितीय / सांख्यिकीय विधियों में से प्रत्येक को तीन दृष्टिकोणों में से एक के साथ लागू किया जा सकता है।

उदाहरण के लिए, हाइपोथीसिस होना क्यों असंवेदनशील होना चाहिए, कि मेरे डेटा में एक सामान्य कारक है और मुख्य घटकों के एक सेट की संरचना भी है (क्योंकि मेरे इलेक्ट्रॉनिकी तंत्र के साथ मेरे प्रयोग ने मुझे लगभग त्रुटि डेटा दिया) और मैं अपनी परिकल्पना का परीक्षण करता हूं 75% के अनुपात के साथ बाद के कारकों के स्वदेशी घटित होते हैं? यह एक पुष्टिकरण ढांचे में पीसीए है।

दूसरी ओर, यह हास्यास्पद लगता है कि हमारी शोध टीम में हम विद्यार्थियों के बीच हिंसा को मापने और 3 मुख्य व्यवहारों (शारीरिक पीड़ा, अवसाद, अधिकारियों / माता-पिता द्वारा मदद की खोज) और संबंधित प्रश्नों को रखने के लिए एक आइटम बैटरी के साथ काम करते हैं। उस बैटरी में ... और "खोजपूर्ण रूप से" हमारे पास कितने कारक हैं ... देखने के बजाय, हमारे पैमाने में तीन पहचानने योग्य कारक (उपेक्षा करने योग्य आइटम के अलावा और संभवतः भी सहसंबद्ध त्रुटि) हैं। और उसके बाद, जब मैंने पुष्टि की है, कि वास्तव में हमारे आइटम-बैटरी इरादे का काम करते हैं, तो हम परिकल्पना का परीक्षण कर सकते हैं, कि छोटे बच्चों की कक्षाओं में "खोज-सहायता-अधिकारियों" को इंगित करने वाले कारक पर लोडिंग अधिक होती है पुराने विद्यार्थियों की तुलना में। हम्म्म, फिर से पुष्टि ...

और खोजपूर्ण? मेरे पास 1960 से माइक्रोबायोलॉजी पर एक शोध से लिए गए उपायों का एक सेट है और उनके पास अधिक सिद्धांत नहीं थे, लेकिन वे सब कुछ का नमूना ले सकते थे क्योंकि उनका शोध का क्षेत्र सिर्फ बहुत छोटा था, और मैंने प्रमुख कारक को फिर से पाया, उदाहरण के लिए (उदाहरण के लिए) , क्योंकि सभी त्रुटियां माइक्रोस्कोप की ऑप्टिकल परिशुद्धता (ppca-ansatz जैसा कि मैंने सीखा है) के कारण समान मात्रा में हैं। फिर मैं एफए के लिए सांख्यिकीय (और बाद में गणितीय) मॉडल का उपयोग करता हूं, लेकिन इस मामले में एक खोजपूर्ण तरीके से।

यह कम से कम मैं शर्तों को कैसे समझता हूं।
शायद मैं पूरी तरह से यहां गलत रास्ते पर हूं, लेकिन मैं इसे नहीं मानता।


Ps। 90 के दशक में मैंने पीसीए और फैक्टानैलिसिस की विधि का पता लगाने के लिए एक छोटा सा संवादात्मक कार्यक्रम लिखा। यह टर्बो-पास्कल में लिखा गया था, अभी भी केवल एक डॉस-विंडो ("डोज़-बॉक्स" में Win7 के तहत चलाया जा सकता है), लेकिन वास्तव में एक अच्छी अपील है: इंटरेक्टली स्विचिंग कारकों को शामिल करना या न करना, फिर घुमाएं, अलग-अलग आइटमों की त्रुटि- भिन्नता (SMC-मानदंड या समान-भिन्न-मानदंड-मानदंड (ppca?)) के अनुसार, कैसर-विकल्प को चालू और बंद करना, सहवास का उपयोग चालू और बंद - बस जबकि फैक्टरशीटमैट्रिक्स एक स्प्रेडशीट में दिखाई दे रहा है और बुनियादी विभिन्न रोटेशन-तरीकों के लिए घुमाया जा सकता है।
यह अत्यधिक परिष्कृत नहीं है: उदाहरण के लिए कोई छीजके-परीक्षण, सिर्फ आंतरिक गणितीय यांत्रिकी के आत्म-अध्ययन के लिए नहीं। इसमें एक "डेमो-मोड" भी है, जहां कार्यक्रम स्वयं चलता है, स्क्रीन पर व्याख्यात्मक टिप्पणियां दिखाता है और कीबोर्ड-इनपुट का अनुकरण करता है, जो उपयोगकर्ता सामान्य रूप से करता है।
जो कोई भी आत्मनिर्भरता करना चाहता है या उसके साथ शिक्षण करना चाहता है, वह इसे मेरे छोटे सॉफ्टवेयर पेजों के अंदर से डाउनलोड कर सकता है- (R) .zip केवल डॉस-बॉक्स द्वारा सुलभ डायरेक्टरी में ज़िप में फाइलों का विस्तार करें और "Demoall.bat" पर कॉल करें। "डेमो" के तीसरे भाग में मैंने एक प्रदर्शन शुरू किया है कि कैसे शुरू में पी-सेट से घूर्णन द्वारा आइटम की त्रुटियों को मॉडल किया जाए ...


आपके कार्यक्रम का R पोर्ट दिलचस्प होगा। वैसे, मेरी पहली प्रोग्रामिंग भाषा (और पसंदीदा में से एक) [टर्बो] पास्कल थी। मैंने इसे अपने बीएस डिप्लोमा कार्य के लिए सॉफ्टवेयर लिखने के लिए भी इस्तेमाल किया। फिर, कुछ समय बाद, मैंने अन्य भाषाओं और प्रणालियों के साथ थोड़ी देर के लिए डेल्फी का उपयोग किया। :-)
विलेनो ब्लेक नोव

1
@ एलेक्ज़ेंडर: ठीक है, इस तरह के एक आयात निश्चित रूप से एक अच्छा विचार होगा; हालाँकि ... इस बीच मुझे स्थानीय ट्रैफ़िक सिस्टम के लिए "वरिष्ठ टिकट" मिलता है, और, हालांकि अभी तक फिर से थका नहीं है, मैं प्रोग्रामिंग से थोड़ा थक गया हूं ... मुझे लगता है कि "डेल्फी" टर्बो पास्कल के लिए एक प्राकृतिक प्रतिस्थापन था ; मैंने डेल्फी 6 का उपयोग करते हुए मैट्रिक्स-कैलकुलेटर "MatMate" तक के अंदर- [r] में सुधार किया है जिसमें मैंने एक सहायक उपकरण के रूप में अंदर [[r] को शामिल किया है। हालाँकि, कभी-कभी मुझे लगता है, कि वास्तव में अच्छी सुविधा के साथ बिंदु और क्लिक के अंदर- [r] भी फिर से एहसास होना चाहिए - किसी भी परिष्कृत स्क्रिप्ट के अलावा- या दुभाषिया ...
Gottfried Helms

2

@ अमीबा के लंबे (और वास्तव में महान) के लिए केवल एक अतिरिक्त टिप्पणी _ अंतरंग के चरित्र पर जवाब देती है। Ψ

अपने प्रारंभिक वक्तव्यों में आपके पास तीन : PCA के लिए , PPCA के लिए और FA के लिए आपने अनिश्चित बना दिया है। Ψ = 0 Ψ = σ 2 मैं ΨΨΨ=0Ψ=σ2IΨ

लेकिन यह उल्लेख किया जाना चाहिए, कि विभिन्न संभावित (निश्चित रूप से प्रतिबंधित) की एक अनंत संख्या है, लेकिन वास्तव में एक एकल है जो कारक मैट्रिक्स के रैंक को कम करता है। चलिए इस । ) के लिए मानक (स्वचालित) अनुमान SMC के आधार पर विकर्ण है, इसलिए हम इसे (और भी कुछ सॉफ्टवेयर (प्रतीत होता है) से नीचे का अनुकूलन करने का प्रयास नहीं करते हैं, जबकि ( ) है (आमतौर पर) हेवुड-मामलों / नकारात्मक-निश्चितता को रोकने के लिए आवश्यक है)। और इसके अलावा, ऐसे अनुकूलितΨΨoptΨstdΨstd=α2Dsmcα1α<1 α2शेष सह- न्यूनतम रैंक की गारंटी नहीं होगी, इस प्रकार आमतौर पर हमारे पास यह नहीं है: सामान्य रूप से । वास्तव में को एक बहुत ही मुश्किल खेल है, और जहाँ तक मुझे पता है (लेकिन यह "अब तक" नहीं है, जैसा कि, 20 साल पहले, जब मैं अधिक शामिल था और किताबों के करीब था) यह अभी भी है एक अनसुलझी समस्या। ΨstdΨopt
Ψopt


खैर यह समस्या के आदर्श, गणितीय पक्ष को दर्शाता है, और और बीच का अंतर भी वास्तव में छोटा हो सकता है। एक अधिक सामान्य चेतावनी यह है कि, यह इस तथ्य से पूरे फैक्टरिज़ेशन मशीनरी पर चर्चा करता है कि मैं केवल अपने नमूने का अध्ययन करता हूं या पूरी आबादी का डेटा है ; हीन सांख्यिकी के मॉडल में, जहां मैं जनसंख्या पर अपूर्ण नमूने से अनुमान लगाता हूं, मेरा अनुभवजन्य सहसंयोजक- और इस प्रकार भी तथ्यात्मकता केवल एक अनुमान है, यह केवल "सत्य" सहसंयोजिका- तथ्यात्मकता की छाया है। इस प्रकार ऐसे ढांचे / मॉडल में हमें यह भी विचार करना चाहिए कि हमारी "त्रुटियां" आदर्श नहीं हैंΨstdΨopt, और इस तरह स्वाभाविक रूप से सहसंबद्ध हो सकता है। तो वास्तव में इस तरह के मॉडल में हमें किसी भी तरह की असंबंधित त्रुटि की आदर्शवादी धारणा को छोड़ना चाहिए, और इस प्रकार कड़ाई से विकर्ण रूप को हमारे पीछे छोड़ देना चाहिए।Ψ


नमस्ते, मुझे यकीन नहीं है कि मैं यहां आपकी टिप्पणी का पूरी तरह से पालन कर सकता हूं। क्या मैं सही तरीके से समझता हूं कि आप का मतलब ऐसे विकर्ण मैट्रिक्स से है जिसमें सकारात्मक तत्व हैं में सबसे कम संभव रैंक है (जहां / कोर मैट्रिक्स है)? मुझे लगता है कि सामान्य के लिए आकार यह सबसे कम संभव रैंक (शायद या कुछ) से बहुत छोटा नहीं है , इसलिए बहुत दिलचस्प नहीं लगता है। मैं अपना जवाब इस धारणा पर आधारित कर रहा था कि एफए और को खोजने की कोशिश करता है ( दिए गए लिए आकार का।ΨoptCΨoptCCn×nnn1ΨoptΨWn×kk) को कम करने के लिए। CWWΨ
अमीबा

दो मापदंडों जो एक दूसरे पर निर्भर हैं, का अनुमान लगाने के लिए समस्या को हल करने के चरणों के क्रम के आधार पर दृष्टिकोण का अंतर हो सकता है। अपनी टिप्पणी में, मैं इस बिंदु से शुरू करता हूं, कि एक , जिसके लिए शेष रैंक, , न्यूनतम है और , जबकि यह हो सकता है कि हमारे पास कुछ कारकों की संख्या साथ है मन में। यदि हम को minres-position में घुमाते हैं, तो को काटे गए कारकों में से कोई भी संख्या केवल न्यूनतम (आंशिक) सहसंयोजक को निकाल देती है। ...ΨoptrC=CΨopt||CWrWr||=0kk<rWrr+1k
गॉटफ्रीड हेल्स

(...) यदि आप इसके बजाय करते हैं, तो में सामान्य रूप से कम से कम एक रैंक अधिक होता है और इस तरह से कारकों की संख्या । फिर कारकों (पीसी या मिनेरेस जैसे कुछ मानदंडों द्वारा रोटेशन के बाद) को काटकर हटाने योग्य कोवरिएंस की न्यूनतम संभव राशि को खोजना होगा। डिस्क्लेमर : यह अभी भी एक परिकल्पना है - लिए को खोजना मुश्किल है , जिसकी संरचना स्व-गढ़ी हुई नहीं है और स्व-गढ़े हुए उदाहरणों के साथ सभी छद्म आयामी प्रयोग कम विश्वसनीय हैं तो अनुभवजन्य मामले हैं। ΨstdCstds>rs+1kΨopt
गॉटफ्रीड हेल्स

ठीक है, मैं समझता हूं कि आप क्या कह रहे हैं। मेरा कहना यह है कि अधिकांश वास्तविक लिए का रैंक लगभग के समान ही होगा , अर्थात । अगर कोई बस को घुमाता है, तो यह संभवतः लगभग बराबर या पर PCA करने के करीब और FA के साथ परेशान नहीं करता है। सी * = सी - Ψ पी टी सी आर n » कश्मीर डब्ल्यू आर सीCC=CΨoptCrnkWrC
अमीबा

सच। खैर, मैंने सोचा कि इसे सबसे अधिक खोजा जा सकता है जहां "आदर्श" मामले को ढूंढना है जहां से हम व्यावहारिक रूप से गणना करने के लिए कम करते हैं। <br> और अब PCA के पक्ष में और भी अधिक; ;-): त्रुटि में एप्लिकेशन (ह्रासमान आँकड़ों के दूसरे मोड में) के संबंध में गंभीर सहसंबंध के कारण परिणाम फिर से एक प्रकार के पास आने देता है जो पीसी-निष्कर्षण के साथ शुरू हुआ ...
हेल्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.