इसमें मेरा उत्तर (एक दूसरा और मेरा अन्य के लिए अतिरिक्त ) मैं चित्रों में यह दिखाने की कोशिश करूंगा कि पीसीए किसी सहसंयोजक को किसी भी तरह से पुनर्स्थापित नहीं करता है (जबकि यह पुनर्स्थापित करता है - अधिकतम रूप से - विचरण को बेहतर बनाता है)।
जैसा कि पीसीए या फैक्टर विश्लेषण पर मेरे जवाब के एक नंबर में मैं विषय स्थान में चर के वेक्टर प्रतिनिधित्व को चालू कर दूंगा । इस उदाहरण में यह एक लोडिंग प्लॉट है जिसमें चर और उनके घटक लोडिंग दिखाए जाते हैं। इसलिए हमें और मिला (चर में हमारे पास केवल दो थे), उनके 1 प्रमुख घटक, जिसमें लोडिंग और । चरों के बीच का कोण भी चिह्नित होता है। वेरिएबल्स प्रारंभिक केंद्रित थे, इसलिए उनकी वर्ग लंबाई, और उनके संबंधित हैं।एक्स 2 एफ ए 1 ए 2 एच 2 1 एच 2 2X1X2Fa1a2h21h22
और बीच है - यह उनका स्केलर उत्पाद है - (यह कोसाइन सहसंबंध मूल्य है, वैसे)। पीसीए की , ज़ाहिर है, समग्र भिन्नता की अधिकतम by , घटक का भिन्नता।X1X2h1h2cosϕh21+h22a21+a22F
अब, covariance , जहां चर पर चर का प्रक्षेपण है (प्रक्षेपण जो पहले से दूसरे के प्रतिगमन भविष्यवाणी है)। और इसलिए की परिमाण नीचे आयत के क्षेत्र (पक्षों और ) द्वारा प्रदान की जा सकती है ।h1h2cosϕ=g1h2g1X1X2g1h2
तथाकथित "फैक्टर प्रमेय" के अनुसार (यह जान सकते हैं कि क्या आप कारक विश्लेषण पर कुछ पढ़ते हैं), चर के बीच सहसंयोजक (ओं) को (बारीकी से, यदि बिल्कुल नहीं) निकाले गए अक्षांश चर (ओं) के भार के गुणन द्वारा पुन: प्रस्तुत किया जाना चाहिए ( पढ़ें )। अर्थात्, हमारे विशेष मामले में ( , (यदि मुख्य घटक को हमारे अव्यक्त चर होने के लिए पहचाना जाए)। उस मूल्य को एक आयताकार क्षेत्र द्वारा पक्षों के साथ और साथ प्रस्तुत किया जा सकता है । तुलना करने के लिए, पिछली आयत द्वारा संरेखित आयत को आकर्षित करते हैं। उस आयत को नीचे की ओर झुका हुआ दिखाया गया है, और इसका क्षेत्र उपनाम cov * (पुनरुत्पादित कोव ) है।a1a2a1a2
यह स्पष्ट है कि दो क्षेत्रों में बहुत भिन्नता है, कोव * हमारे उदाहरण में काफी बड़ा है। , 1 प्रमुख घटक के लोडिंग द्वारा कोवरियन को ओवरस्टीमेट किया गया । यह किसी ऐसे व्यक्ति के विपरीत है जो उम्मीद कर सकता है कि पीसीए, दो संभावित घटकों में से अकेले 1 घटक द्वारा, कोवरियन के मनाया मूल्य को बहाल करेगा।F
प्रजनन को मुग्ध करने के लिए हम अपने कथानक के साथ क्या कर सकते हैं? उदाहरण के लिए, हम किरण को दक्षिणावर्त थोड़ा घुमा सकते हैं, यहां तक कि जब तक यह साथ । जब उनकी रेखाएँ मेल खाती हैं, तो इसका मतलब है कि हमने को अपने अव्यक्त चर के लिए मजबूर किया है । फिर ( पर प्रक्षेपण ) हो जाएगा , और लोडिंग ( पर प्रक्षेपण ) होगा । फिर दो आयतें एक समान हैं - एक जिसे कोव लेबल किया गया था , और इसलिए कोवरियन को पूरी तरह से पुन: पेश किया जाता है। हालाँकि, , नया "अव्यक्त चर" द्वारा समझाया गया विचरण, इससे छोटा हैFX2X2a2X2h2a1X1g1g21+h22a21+a22 , पुराने अव्यक्त चर द्वारा समझाया गया विचरण, 1 प्रमुख घटक (वर्ग और चित्र पर दो आयतों में से प्रत्येक के पक्षों की तुलना करें)। ऐसा प्रतीत होता है कि हम सहसंयोजक को पुन: उत्पन्न करने में कामयाब रहे, लेकिन विचरण की मात्रा को समझाने की कीमत पर। पहले प्रमुख घटक के बजाय एक अन्य अव्यक्त अक्ष का चयन करके।
हमारी कल्पना या अनुमान सुझाव दे सकता है (मैं गणित द्वारा इसे साबित नहीं कर सकता हूं, मैं गणितज्ञ नहीं हूं) कि अगर हम और द्वारा परिभाषित स्थान से अव्यक्त अक्ष को , तो विमान इसे स्विंग करने की अनुमति देता है हमारे प्रति बिट, हम इसकी कुछ इष्टतम स्थिति पा सकते हैं - इसे कॉल करें, कह सकते हैं, - जिससे सहसंयोजक फिर से उभरती हुई लोडिंग ( ) द्वारा पूरी तरह से पुन: पेश किया जाता है, जबकि विचरण समझाया गया ( ) से बड़ा होगा , यद्यपि का मुख्य घटक जितना बड़ा नहीं होगा ।X1X2F∗a∗1a∗2a∗21+a∗22g21+h22a21+a22F
मुझे विश्वास है कि इस हालत है प्राप्त है, जब अव्यक्त अक्ष विशेष रूप से उस मामले में इस तरह से हवाई जहाज से बाहर का विस्तार के रूप में एक दो व्युत्पन्न orthogonal विमानों के "डाकू", एक धुरी और युक्त खींचने के लिए तैयार हो जाता है और अक्ष और वाले अन्य । फिर इस अव्यक्त धुरी को हम सामान्य कारक कहेंगे , और हमारी संपूर्ण "मौलिकता पर प्रयास" को कारक विश्लेषण का नाम दिया जाएगा ।F∗X1X2
PCA के संबंध में @ अमीबा के "अपडेट 2" का उत्तर।
@amoeba Eckart-Young प्रमेय को याद करने के लिए सही और प्रासंगिक है जो एसवीडी या ईजन-अपघटन पर आधारित पीसीए और इसके congeneric तकनीकों (PCoA, biplot, पत्राचार विश्लेषण) के लिए मौलिक है। इसके अनुसार, पहले प्रिंसिपल ऑफ़ कम से कम - बराबर एक मात्रा , - साथ ही । यहाँ प्रिंसिपल द्वारा पुन: प्रस्तुत किए गए डेटा के लिए है । को बराबर जाना जाता है , जिसमें का परिवर्तनशील भार होता है।kX||X−Xk||2tr(X′X)−tr(X′kXk)||X′X−X′kXk||2XkkX′kXkWkW′kWkk अवयव।
क्या इसका मतलब यह है कि सही रहते हैं अगर हम दोनों सममित मैट्रिसेस के केवल ऑफ- पर विचार करते हैं? आइए इसे प्रयोग करके देखें।||X′X−X′kXk||2
500 यादृच्छिक 10x6
मेट्रिसेस उत्पन्न हुए (समान वितरण)। प्रत्येक के लिए, अपने कॉलम केंद्रित होने पर, पीसीए प्रदर्शन किया गया था, और दो पुनर्निर्मित डेटा मैट्रिक्स अभिकलन: एक के रूप में 3 के माध्यम से घटकों 1 द्वारा पुनर्निर्मित ( पहले पीसीए में हमेशा की तरह), और अन्य के रूप में घटकों 1, 2 द्वारा पुनर्निर्मित , और 4 (अर्थात, घटक 3 को एक कमजोर घटक 4 द्वारा बदल दिया गया था)। पुनर्निर्माण त्रुटि (चुकता अंतर की राशि = इयूक्लिडियन दूरी चुकता) फिर एक के लिए गणना की गई थी , दूसरे के लिए । ये दो मूल्य स्कैल्पलोट पर दिखाने के लिए एक जोड़ी है।XXkk||X′X−X′kXk||2XkXk
पुनर्निर्माण त्रुटि हर बार दो संस्करणों में गणना की गई थी: (ए) की तुलना में पूरी और ; (बी) की तुलना में दो मैट्रिसेस के केवल ऑफ-विकर्ण। इस प्रकार, हमारे पास दो स्कैप्लेट हैं, जिनमें से प्रत्येक में 500 अंक हैं।X′XX′kXk
हम देखते हैं, कि "पूरे मैट्रिक्स" प्लॉट पर सभी बिंदु y=x
रेखा के ऊपर स्थित हैं । जिसका अर्थ है कि पूरे स्केलर-उत्पाद मैट्रिक्स के लिए पुनर्निर्माण हमेशा "1, 2, 4 घटकों" की तुलना में "3 घटकों के माध्यम से" अधिक सटीक होता है। यह एकार्ट-यंग प्रमेय के अनुरूप है: पहला प्रिंसिपल घटक सबसे अच्छा फिटर हैं।k
हालांकि, जब हम "ऑफ-डायग्नोनल केवल" प्लॉट देखते हैं, तो हम y=x
लाइन के नीचे कई बिंदुओं को नोटिस करते हैं । ऐसा प्रतीत होता है कि कभी-कभी "1 से 3 घटकों" द्वारा ऑफ-विकर्ण भागों का पुनर्निर्माण "1, 2, 4 घटकों" से भी बदतर था। जो स्वचालित रूप से इस निष्कर्ष पर पहुंचता है कि पहले प्रमुख घटक पीसीए में उपलब्ध फिटर के बीच नियमित रूप से ऑफ-विकर्ण स्केलर उत्पादों का सबसे अच्छा फ़िटर नहीं हैं। उदाहरण के लिए, मजबूत के बजाय कमजोर घटक लेने से कभी-कभी पुनर्निर्माण में सुधार हो सकता है।k
इसलिए, यहां तक कि पीसीए के डोमेन में भी , वरिष्ठ प्रिंसिपल कंपोनेंट्स - जो लगभग समग्र विचरण करते हैं, जैसा कि हम जानते हैं, और यहां तक कि पूरे सहसंयोजक मैट्रिक्स, भी, - जरूरी नहीं कि ऑफ-विकर्ण सहसंयोजक । इसलिए उन लोगों के बेहतर अनुकूलन की आवश्यकता है; और हम जानते हैं कि कारक विश्लेषण (या) तकनीक है जो इसे पेश कर सकता है।
@ अमीबा के "अपडेट 3" का अनुवर्ती: क्या पीसीए एफए के रूप में होता है क्योंकि चर की संख्या बढ़ती है? क्या PCA FA का एक वैध विकल्प है?
मैंने सिमुलेशन अध्ययन का एक जाली का आयोजन किया है। जनसंख्या कारक संरचनाओं की कुछ संख्या, मेट्रिसेस को लोड करना यादृच्छिक संख्याओं का निर्माण किया गया और उनकी संबंधित जनसंख्या सहसंयोजक मैट्रिसेस को रूप में परिवर्तित किया गया , साथ एक विकर्ण शोर (अद्वितीय) प्रसरण)। ये सहसंयोजक matrices सभी variances 1 के साथ बनाए गए थे, इसलिए वे उनके सहसंबंध matrices के बराबर थे।AR=AA′+U2U2
दो प्रकार के कारक संरचना तैयार किए गए थे - तेज और फैलाना । तीव्र संरचना एक स्पष्ट सरल संरचना है: लोडिंग या तो "उच्च" "कम", कोई मध्यवर्ती नहीं है; और (मेरे डिज़ाइन में) प्रत्येक चर एक कारक द्वारा बिल्कुल लोड किया जाता है। इसी इसलिए noticebly ब्लॉक की तरह है। डिफ्यूज़ संरचना उच्च और निम्न लोडिंग के बीच अंतर नहीं करती है: वे एक सीमा के भीतर किसी भी यादृच्छिक मूल्य हो सकते हैं; और लोडिंग के भीतर कोई पैटर्न की कल्पना नहीं की गई है। नतीजतन, संबंधित चिकना आता है। जनसंख्या मैट्रिसेस के उदाहरण:RR
कारकों की संख्या या । चर की संख्या अनुपात k = प्रति कारक चर की संख्या से निर्धारित की गई थी ; k ने अध्ययन में मानों को चलाया ।264,7,10,13,16
कुछ निर्मित जनसंख्या प्रत्येक के लिए , Wishart वितरण (नमूना आकार के तहत ) से इसकी यादृच्छिक प्रतीति उत्पन्न की गई थी। ये सैंपल कोवरियन मैट्रिस थे । प्रत्येक का एफए (प्रमुख अक्ष निष्कर्षण द्वारा) और साथ ही पीसीए द्वारा कारक-विश्लेषण किया गया था । इसके अतिरिक्त, प्रत्येक ऐसे सहसंयोजक मैट्रिक्स को संबंधित नमूना सहसंबंध मैट्रिक्स में परिवर्तित किया गया था जो समान तरीके से कारक-विश्लेषण (तथ्यपूर्ण) भी था। अन्त में, मैंने स्वयं "जनक", जनसंख्या सहसंयोजक (= सहसंबंध) मैट्रिक्स की फैक्टरिंग भी की। कैसर-मेयर-ओल्किन के नमूने की पर्याप्तता हमेशा 0.7 से ऊपर थी।50R50n=200
2 कारकों के साथ डेटा के लिए, विश्लेषण 2 निकाले गए, और 1 के साथ-साथ 3 कारक ("कम करके आंका जाना" और कारकों की सही संख्या के "overestimation")। 6 कारकों के साथ डेटा के लिए, विश्लेषण इसी तरह 6 निकाले गए, और 4 के साथ-साथ 8 कारक भी।
अध्ययन का उद्देश्य एफए बनाम पीसीए के सहसंयोजक / सहसंबंध बहाली गुण थे। इसलिए ऑफ-विकर्ण तत्वों के अवशेष प्राप्त किए गए थे। मैंने पुनरुत्पादित तत्वों और जनसंख्या मैट्रिक्स तत्वों के बीच अवशेषों को पंजीकृत किया, साथ ही पूर्व और विश्लेषण किए गए नमूना मैट्रिक्स तत्वों के बीच अवशेष भी। 1 प्रकार के अवशेष वैचारिक रूप से अधिक रोचक थे।
नमूना सहसंयोजक और नमूना सहसंबंध matrices पर किए गए विश्लेषण के बाद प्राप्त परिणाम में कुछ अंतर थे, लेकिन सभी प्रमुख निष्कर्ष समान होने का अनुमान लगाया गया। इसलिए मैं केवल "सहसंबंध-मोड" विश्लेषण पर चर्चा कर रहा हूं (परिणाम दिखा रहा हूं)।
1. पीसीए बनाम एफए द्वारा कुल मिलाकर विकर्ण फिट
नीचे दिए गए ग्राफिक्स, विभिन्न कारकों की संख्या और अलग-अलग k के विरुद्ध, माध्य के अनुपात को नापा जाता है, जो कि PCA में समान मात्रा में एफए में उपजता है । यह उसी तरह है जैसा @amoeba ने "अपडेट 3" में दिखाया था। भूखंड पर स्थित रेखाएं 50 सिमुलेशन (मैं उन पर त्रुटि पट्टी दिखाती है) को पार करने की औसत प्रवृत्ति का प्रतिनिधित्व करती है।
(नोट: परिणाम यादृच्छिक नमूना सहसंबंध मैट्रिक्स के फैक्टरिंग के बारे में हैं, न कि उनके बारे में जनसंख्या मैट्रिक्स पैरेन्टल फैक्टरिंग के बारे में: यह एफए के साथ पीसीए की तुलना करने के लिए मूर्खतापूर्ण है कि वे जनसंख्या मैट्रिक्स को कितनी अच्छी तरह समझाते हैं - एफए हमेशा जीतेंगे, और यदि कारकों की सही संख्या निकाली जाती है, इसके अवशिष्ट लगभग शून्य होंगे, और इसलिए अनुपात अनंत की ओर बढ़ेगा।)
इन भूखंडों पर टिप्पणी करना:
- सामान्य प्रवृत्ति: जैसा कि k (प्रति कारक चर की संख्या) PCA / FA समग्र सबफ़िट अनुपात को 1 की ओर बढ़ाता है। यानी, अधिक चर के साथ PCA ऑफ-विकर्ण सहसंबंधों / सहसंबंधों को समझाने में FA के पास आता है। (उनके उत्तर में @amoeba द्वारा प्रलेखित।) संभवत: घटता अनुमान लगाने वाला कानून = 0 से b0 के करीब = एक्सप (b0 + b1 / k) है।
- अनुपात अधिक है अवशिष्ट अवशिष्ट "नमूना माइनस पुन: प्रस्तुत नमूना" (बाएं प्लॉट) से अवशिष्ट अवशिष्ट "जनसंख्या माइनस पुन: पेश नमूना" (दायां प्लॉट)। यह (तुच्छ रूप से) है, पीसीए को मैट्रिक्स में तुरंत विश्लेषण किया जा रहा है फिटिंग में अवर है। हालांकि, बाएं भूखंड पर लाइनों में तेजी से कमी होती है, इसलिए k = 16 द्वारा अनुपात 2 से नीचे है, साथ ही, यह सही भूखंड पर है।
- अवशिष्ट के साथ "जनसंख्या माइनस रिप्रोडक्टेड नमूना", रुझान हमेशा उत्तल या यहां तक कि मोनोटोनिक नहीं होते हैं (असामान्य कोहनी को परिचालित दिखाया गया है)। तो, जब तक भाषण एक गुणन के माध्यम से गुणांक के एक जनसंख्या मैट्रिक्स को समझाने के बारे में है, तब तक चर की संख्या बढ़ने से नियमित रूप से पीसीए को उसके फिटकिन गुणवत्ता में एफए के करीब नहीं लाया जाता है, हालांकि प्रवृत्ति है।
- जनसंख्या में m = 6 कारकों की तुलना में m = 2 कारकों के लिए अनुपात अधिक है (बोल्ड रेड लाइन्स बोल्ड ग्रीन लाइन्स से नीचे हैं)। जिसका अर्थ है कि डेटा में अभिनय करने वाले अधिक कारकों के साथ पीसीए जल्द ही एफए के साथ पकड़ लेता है। उदाहरण के लिए, दाएं भूखंड पर k = 4 उपज 6 कारकों के लिए 1.7 के अनुपात में है, जबकि 2 कारकों के लिए समान मूल्य k = 7 पर पहुंच गया है।
- यदि हम अधिक कारकों को निकालते हैं, तो अनुपात अधिक होता है, जो कारकों की वास्तविक संख्या के सापेक्ष होता है। अर्थात्, पीसीए केवल एफए की तुलना में थोड़ा खराब है यदि निष्कर्षण पर हम कारकों की संख्या को कम आंकते हैं; और कारकों की संख्या सही होने या कम होने (बोल्ड लाइनों के साथ पतली रेखाओं की तुलना) करने पर यह इसे और अधिक खो देता है।
- कारक संरचना के तीखेपन का एक दिलचस्प प्रभाव है जो केवल तब दिखाई देता है जब हम अवशेषों पर विचार करते हैं "जनसंख्या शून्य से नमूना पुन: नमूना": दाईं ओर ग्रे और पीले भूखंडों की तुलना करें। यदि जनसंख्या कारक भिन्न रूप से चर को लोड करते हैं, तो लाल रेखाएँ (m = 6 कारक) नीचे तक डूब जाती हैं। अर्थात्, विसरित संरचना (जैसे अराजक संख्याओं का भार) PCA (एक नमूने पर प्रदर्शन) जनसंख्या सहसंबंधों के पुनर्निर्माण में FA की तुलना में कुछ ही खराब है- यहां तक कि छोटे कश्मीर के तहत, बशर्ते कि जनसंख्या में कारकों की संख्या नहीं है बहुत छोटा। शायद यही वह स्थिति है जब पीसीए एफए के सबसे करीब है और इसके शेपर विकल्प के रूप में सबसे अधिक वारंट है। जबकि तेज कारक संरचना की उपस्थिति में पीसीए जनसंख्या सहसंबंधों (या सहसंयोजक) के पुनर्निर्माण में इतना आशावादी नहीं है: यह एफए केवल बड़े कश्मीर परिप्रेक्ष्य में दृष्टिकोण करता है।
2. पीसीए बनाम एफए द्वारा तत्व-स्तर फिट: अवशिष्ट का वितरण
प्रत्येक सिमुलेशन प्रयोग के लिए जहां जनसंख्या मैट्रिक्स से 50 यादृच्छिक नमूना मैट्रिसेस के फैक्टरिंग (पीसीए या एफए) द्वारा किया गया था, प्रत्येक ऑफ-डायगोनल सहसंबंध तत्व से प्राप्त अवशिष्ट "जनसंख्या सहसंबंध माइनस (फैक्टरिंग द्वारा) नमूना सहसंबंध" का वितरण प्राप्त किया गया था। वितरण स्पष्ट पैटर्न का पालन करते हैं, और विशिष्ट वितरण के उदाहरणों को नीचे दर्शाया गया है। पीसीए फैक्टरिंग के बाद परिणाम ब्लू लेफ्ट साइड होते हैं और एफए फैक्टरिंग के बाद परिणाम ग्रीन राइट साइड होते हैं।
प्रिंसिपल खोज वह है
- उच्चारण, निरपेक्ष परिमाण के अनुसार, जनसंख्या सहसंबंधों को पीसीए द्वारा अपर्याप्त रूप से बहाल किया जाता है: पुनरुत्पादित मूल्य परिमाण द्वारा overestimates हैं।
- लेकिन पूर्वाग्रह k के रूप में लुप्त हो जाता है (कारकों की संख्या के लिए चर की संख्या) बढ़ जाती है। तस्वीर पर, जब प्रति कारक केवल k = 4 चर होता है, तो PCA के अवशेष 0. से ऑफसेट में फैल जाते हैं। यह तब देखा जाता है जब 2 कारक और 6 कारक मौजूद होते हैं। लेकिन k = 16 के साथ ऑफसेट बहुत मुश्किल से देखा जाता है - यह लगभग गायब हो गया और पीसीए फिट एफए फिट के पास पहुंच गया। पीसीए और एफए के बीच अवशिष्टों के प्रसार (विचरण) में कोई अंतर नहीं देखा गया है।
इसी तरह की तस्वीर तब भी देखी जाती है जब निकाले गए कारकों की संख्या कारकों की सही संख्या से मेल नहीं खाती है: केवल अवशिष्ट के विचरण कुछ हद तक बदलते हैं।
ग्रे पृष्ठभूमि पर ऊपर दिखाए गए वितरण जनसंख्या में मौजूद तेज (सरल) कारक संरचना के प्रयोगों से संबंधित हैं । जब सभी विश्लेषण विसरित जनसंख्या कारक संरचना की स्थिति में किए गए , तो यह पाया गया कि पीसीए का पूर्वाग्रह न केवल कश्मीर के उदय के साथ मिटता है, बल्कि मीटर (कारकों की संख्या) के उदय के साथ भी होता है । कृपया "6 कारकों, के = 4" कॉलम के नीचे पीले-पीले अनुलग्नकों को देखें: पीसीए परिणामों के लिए देखे गए 0 से लगभग कोई ऑफसेट नहीं है (ऑफसेट अभी तक एम = 2 के साथ मौजूद है, जिसे तस्वीर पर नहीं दिखाया गया है )।
यह सोचते हुए कि वर्णित निष्कर्ष महत्वपूर्ण हैं, मैंने उन अवशिष्ट वितरणों का गहराई से निरीक्षण करने का निर्णय लिया और तत्व (जनसंख्या सहसंबंध) मूल्य (एक्स अक्ष) के खिलाफ अवशिष्ट (वाई अक्ष) के बिखराव को प्लॉट किया । ये स्कैप्लेट्स प्रत्येक के सभी (50) सिमुलेशन / विश्लेषणों के परिणामों को जोड़ते हैं। LOESS फिट लाइन (उपयोग करने के लिए 50% स्थानीय बिंदु, एपनेनिकोव कर्नेल) पर प्रकाश डाला गया है। भूखंडों में तेज कारक संरचना के मामले के लिए भूखंडों का पहला सेट है (सहसंबंध मूल्यों की त्रिमूर्ति स्पष्ट है इसलिए):
टिप्पणी करते हुए:
- हम स्पष्ट रूप से (ऊपर वर्णित) पुनर्गठन पूर्वाग्रह को देखते हैं जो कि तिरछी, नकारात्मक प्रवृत्ति लोस लाइन के रूप में पीसीए की विशेषता है: निरपेक्ष मूल्य जनसंख्या सहसंबंधों में बड़ा नमूना डेटासेट के पीसीए द्वारा overestimated हैं। एफए निष्पक्ष (क्षैतिज लूप) है।
- जैसे ही k बढ़ता है, PCA का पूर्वाग्रह कम हो जाता है।
- पीसीए इस बात से बेपरवाह है कि जनसंख्या में कितने कारक हैं: 6 कारकों के साथ (और विश्लेषण में 6 निकाले गए) यह उसी तरह से दोषपूर्ण है जैसे 2 कारक अस्तित्व में (2 निकाले गए)।
नीचे दिए गए भूखंडों का दूसरा सेट आबादी में फैक्टर कारक संरचना के मामले के लिए है:
फिर से हम पीसीए द्वारा पूर्वाग्रह का निरीक्षण करते हैं। हालांकि, तेज कारक संरचना के मामले के विपरीत, पूर्वाग्रह कारकों की संख्या बढ़ने के रूप में फीका हो जाता है: 6 जनसंख्या कारकों के साथ, पीसीए की लोस लाइन केवल कश्मीर के नीचे क्षैतिज होने से बहुत दूर नहीं है। 4. यह वही है जो हमने व्यक्त किया है " पीला हिस्टोग्राम "पहले।
स्कैल्प्लॉट्स के दोनों सेटों पर एक दिलचस्प घटना यह है कि पीसीए के लिए लूप लाइनें एस-घुमावदार हैं। यह वक्रता अन्य जनसंख्या कारक संरचनाओं (लोडिंग) के तहत बेतरतीब ढंग से मेरे द्वारा निर्मित (मैंने जाँच की) से पता चलता है, हालांकि इसकी डिग्री बदलती है और अक्सर कमजोर होती है। यदि एस-आकार से अनुसरण किया जाता है, तो पीसीए 0 से उछलता है (विशेष रूप से छोटे कश्मीर के तहत), लेकिन कुछ मूल्य से - लगभग .30 या .40 - से उछाल को सहसंबंधी रूप से विकृत करना शुरू कर देता है। मैं इस समय उस व्यवहार के संभावित कारण के लिए अटकल नहीं लगाऊंगा, हालांकि मुझे विश्वास है कि "साइनसॉइड" सहसंबंध के त्रिकोणमितीय प्रकृति से उपजा है।
पीसीए बनाम एफए द्वारा फ़िट: निष्कर्ष
एक सहसंबंध / सहसंयोजक मैट्रिक्स के ऑफ-विकर्ण भाग के समग्र फिटर के रूप में , पीसीए - जब एक जनसंख्या से एक नमूना मैट्रिक्स का विश्लेषण करने के लिए लागू किया जाता है - कारक विश्लेषण के लिए एक काफी अच्छा विकल्प हो सकता है। यह तब होता है जब चर / अपेक्षित कारकों की संख्या का अनुपात पर्याप्त बड़ा होता है। (अनुपात के लाभकारी प्रभाव के लिए ज्यामितीय कारण नीचे Footnote में समझाया गया है ।) अधिक कारक मौजूद होने के साथ अनुपात केवल कुछ कारकों से कम हो सकता है। एफए की गुणवत्ता का दृष्टिकोण करने के लिए तेज कारक संरचना (सरल संरचना आबादी में मौजूद है) पीसीए की उपस्थिति।1
पीसीए की समग्र फिट क्षमता पर तेज कारक संरचना का प्रभाव केवल तब तक स्पष्ट होता है जब तक अवशेष "जनसंख्या माइनस रिप्रोड्यूस्ड सैंपल" पर विचार नहीं किया जाता है। इसलिए एक सिमुलेशन अध्ययन सेटिंग के बाहर इसे पहचानने में चूक हो सकती है - एक नमूना के अवलोकन अध्ययन में हमारे पास इन महत्वपूर्ण अवशिष्टों तक पहुंच नहीं है।
कारक विश्लेषण के विपरीत, पीसीए जनसंख्या सहसंबंधों (या सहसंयोजकों) के परिमाण का (सकारात्मक) पक्षपाती अनुमानक है जो शून्य से दूर हैं। पीसीए की पक्षपातपूर्णता हालांकि घट जाती है क्योंकि चर / अनुपात की अपेक्षित संख्या बढ़ती है। पक्षपात भी घटता है क्योंकि जनसंख्या में कारकों की संख्या बढ़ती है, लेकिन यह बाद की प्रवृत्ति एक तेज कारक कारक के तहत बाधा है।
मैं टिप्पणी करता हूं कि पीसीए फिट पूर्वाग्रह और उस पर तेज संरचना के प्रभाव को अवशिष्ट "नमूना माइनस पुन: पेश नमूना" पर विचार करने में भी उजागर किया जा सकता है; मैंने केवल ऐसे परिणाम दिखाना छोड़ दिया क्योंकि वे नए इंप्रेशन नहीं जोड़ते हैं।
अंत में मेरी बहुत ही अस्थायी, व्यापक सलाह हो सकती है कि आप विशिष्ट के लिए एफए के बजाय पीसीए का उपयोग करने से बचना चाहिए (यानी आबादी में 10 या उससे कम कारकों के साथ) कारक विश्लेषणात्मक उद्देश्यों जब तक कि आपके पास कारकों की तुलना में कुछ 10+ गुना अधिक चर न हों। और जितने कम कारक हैं, उतना ही आवश्यक अनुपात है। मैं एफए के स्थान पर पीसीए उपयोग की अनुशंसा नहीं आगे हैं सब पर जब भी अच्छी तरह से स्थापित, तेज कारक संरचना के साथ डेटा का विश्लेषण किया जाता है - जैसे कि जब कारक विश्लेषण मान्य करने के लिए किया जाता है के रूप में विकसित या पहले से ही व्यक्त निर्माणों / तराजू के साथ मनोवैज्ञानिक परीक्षण या प्रश्नावली शुरू किया जा रहा । पीसीए का उपयोग एक साइकोमेट्रिक इंस्ट्रूमेंट के लिए प्रारंभिक, प्रारंभिक वस्तुओं के चयन के उपकरण के रूप में किया जा सकता है।
अध्ययन की सीमाएँ । 1) मैंने कारक निष्कर्षण की केवल पीएएफ पद्धति का उपयोग किया। 2) नमूना आकार तय किया गया था (200)। 3) नमूना मैट्रिसेस के नमूने में सामान्य आबादी को मान लिया गया था। 4) तेज संरचना के लिए, प्रति कारक चर की समान संख्या मॉडलिंग की गई थी। 5) जनसंख्या कारक लोडिंग का निर्माण करना, मैंने उन्हें लगभग एक समान (तेज संरचना के लिए - त्रिमोदल, यानी 3-टुकड़ा वर्दी) वितरण से उधार लिया। 6) इस तात्कालिक परीक्षा में, निश्चित रूप से, कहीं भी हो सकता है।
पाद । पीसीए एफए के परिणामों की नकल करेगा और जब - जैसा कि यहां कहा गया है - समान मॉडल के त्रुटि चर, अनूठे कारक कहे जाने वाले सहसंबंधों के बराबर फिटर बन जाएंगे। एफए उन्हें असंबद्ध बनाने का प्रयास करता है, लेकिन पीसीए नहीं करता है, वे पीसीए में असंबद्ध हो सकते हैं । जब यह हो सकती है तो प्रमुख स्थिति तब होती है जब सामान्य कारकों (प्रत्येक घटक के रूप में रखे गए घटकों) की संख्या प्रति चर की संख्या बड़ी हो।1
निम्नलिखित चित्रों पर विचार करें (यदि आपको उन्हें समझने के लिए पहले जानने की आवश्यकता है, तो कृपया इस उत्तर को पढ़ें ):
कारक विश्लेषण की आवश्यकता के लिए कुछ m
सामान्य कारकों, अद्वितीय कारकों साथ सफलतापूर्वक सहसंबंधों को बहाल करने में सक्षम होने के लिए , प्रकट चर सांख्यिकीय रूप से अद्वितीय भागों को चिह्नित करना, असंबंधित होना चाहिए। जब पीसीए का उपयोग किया जाता है, तो को एस द्वारा फैलाए गए -स्पेस के उप-स्थान पर झूठ बोलना पड़ता है क्योंकि पीसीए विश्लेषण किए गए चर के स्थान को नहीं छोड़ता है। इस प्रकार - बाईं तस्वीर देखें - (मुख्य घटक निकाले गए कारक है) और ( , ) का विश्लेषण, अद्वितीय कारक ,X U X P 1 X 1 X 2 U 1 U 2 r = - 1Up
Xp
Up-m
p
Xm=1
P1p=2
X1X2U1U2शेष दूसरे घटक (विश्लेषण की त्रुटि के रूप में सेवारत) पर अनिवार्य रूप से सुपरइम्पोज़ करें। फलस्वरूप उन्हें सहसंबद्ध होना पड़ता है । (तस्वीर पर, वैक्टर के बीच कोणों के बराबर कोरिलेशन।) आवश्यक ओर्थोगोनलिटी असंभव है, और चर के बीच मनाया सहसंबंध कभी भी बहाल नहीं किया जा सकता है (जब तक कि अद्वितीय कारक शून्य वैक्टर नहीं हैं, एक तुच्छ मामले)।r=−1
लेकिन अगर आप एक और चर ( ), सही तस्वीर , और अभी भी एक पीआर निकालते हैं। सामान्य कारक के रूप में घटक, तीन एस को एक विमान में झूठ बोलना पड़ता है (शेष दो पीआर घटकों द्वारा परिभाषित)। तीन तीर एक विमान को इस तरह से फैला सकते हैं कि उनके बीच के कोण 180 डिग्री से छोटे हैं। वहाँ कोणों के लिए स्वतंत्रता उभरती है। एक संभव विशेष मामले के रूप में, कोण सकता है बराबर, 120 डिग्री के बारे में हो सकता है। यह पहले से ही 90 डिग्री से बहुत अधिक नहीं है, अर्थात, असंबद्धता से। यही स्थिति तस्वीर पर दिखाई गई है। यूX3U
जैसे ही हम 4th वेरिएबल जोड़ते हैं, 4 s 3 डी स्पेस फैलेगा। 5, 5 से 5 वें स्पैन के साथ, 90 डिग्री के करीब पाने के लिए एक साथ बहुत सारे कोणों के लिए कक्ष का विस्तार होगा। जिसका अर्थ है कि पीसीए के लिए एफए के अप -विकर्ण त्रिकोण फिट करने की क्षमता में एफए से संपर्क करने के लिए कमरे का भी विस्तार होगा।U
लेकिन सच्चा एफए आमतौर पर छोटे अनुपात "चर की संख्या / कारकों की संख्या" के तहत भी सहसंबंधों को बहाल करने में सक्षम होता है, क्योंकि, जैसा कि यहां बताया गया है (और दूसरी तस्वीर देखें) कारक विश्लेषण सभी कारक वैक्टर (सामान्य कारक) और अद्वितीय की अनुमति देता है लोगों के चर स्थान में झूठ बोलने से बचना। इसलिए केवल 2 चर और एक कारक के साथ s की रूढ़िवादिता के लिए जगह है।एक्सUX
तस्वीरें ऊपर भी क्यों पीसीए के लिए स्पष्ट संकेत दे overestimates सहसंबंध। बाईं पिक, उदाहरण के लिए, पर , जहां के अनुमानों हैं पर रों (की लोडिंग ) और एस के समान नहीं हैं एस (की लोडिंग )। लेकिन उस सहसंबंध के रूप में द्वारा पुनर्निर्मित अकेले बस के बराबर होती है , यानी से बड़े । एक एक्स पी 1 पी 1 यू यू पी 2 पी 1 एक 1 एक 2 आर एक्स 1 एक्स 2rX1X2=a1a2−u1u2aXP1P1uUP2P1a1a2rX1X2