पीसीए में लोडिंग बनाम ईजेनवेक्टर: एक या दूसरे का उपयोग कब करें?


67

प्रमुख घटक विश्लेषण (पीसीए) में, हम eigenvectors (यूनिट वैक्टर) और eigenvalues ​​प्राप्त करते हैं। अब, हम लोडिंग को रूप में परिभाषित करते हैं

Loadings=EigenvectorsEigenvalues.

मुझे पता है कि eigenvectors सिर्फ दिशाएं और लोडिंग हैं (जैसा कि ऊपर परिभाषित किया गया है) में इन दिशाओं के साथ विचरण भी शामिल है। लेकिन मेरी बेहतर समझ के लिए, मैं यह जानना चाहूंगा कि मुझे आइजनवेक्टर के बजाय लोडिंग का उपयोग कहां करना चाहिए? एक उदाहरण एकदम सही होगा!

मैंने आम तौर पर केवल लोगों को आइजनवेक्टर का उपयोग करते हुए देखा है, लेकिन हर बार एक समय में वे लोडिंग का उपयोग करते हैं (जैसा कि ऊपर परिभाषित किया गया है) और फिर मुझे यह महसूस करना छोड़ दिया जाता है कि मैं वास्तव में अंतर को नहीं समझता हूं।

जवाबों:


66

पीसीए में, आप कोवरियन (या सहसंबंध) मैट्रिक्स को स्केल पार्ट (ईजेनवेल्यूज) और दिशा भाग (ईजेनवेक्टर) में विभाजित करते हैं। फिर आप स्केल के साथ आईजेनवेक्टर को लोड कर सकते हैं: लोडिंग । इसलिए, लोडिंग इस प्रकार तुलनात्मक हो जाते हैं कि चर के बीच देखे गए सहसंयोजक / सहसंबंधों के साथ परिमाण के साथ, - क्योंकि चर से जो निकाला गया था, वह अब वापस लौटता है - चर और प्रमुख घटकों के बीच सहसंयोजक के रूप में। वास्तव में, लोडिंग कर रहे हैं मूल चर और इकाई बढ़ाया घटकों के बीच सहप्रसरण / सह-संबंधयह उत्तर ज्यामितीय रूप से दिखाता है कि पीसीए या कारक विश्लेषण में चर के साथ घटक जोड़ने वाले लोडिंग क्या हैं और क्या गुणांक हैं।

लोडिंग :

  1. मुख्य घटकों या कारकों की व्याख्या करने में आपकी सहायता करें; क्योंकि वे रेखीय संयोजन भार (गुणांक) हैं, जिससे इकाई-स्केल किए गए घटक या कारक एक चर को "लोड" या परिभाषित करते हैं ।

    (Eigenvector सिर्फ ऑर्थोगोनल परिवर्तन या प्रक्षेपण का एक गुणांक है , यह "इसके मूल्य के भीतर लोड" से रहित है। "लोड" भिन्नता, परिमाण की जानकारी है)। चर के संशोधन को समझाने के लिए पीसी निकाले जाते हैं। Eigenvalues। पीसी के (= द्वारा समझाया गया) के रूपांतरों में। जब हम eigenvector को गुणा करते हैं, तो eivenvalue के वर्ग में हम विचरण की मात्रा से नंगे गुणांक को "लोड" करते हैं। उस गुण के आधार पर, हम संघ के माप के सह- गुणांक बनाते हैं। परिवर्तनशीलता।)

  2. लोडिंग कभी-कभी व्याख्यात्मकता को सुविधाजनक बनाने के लिए "घुमाया जाता है" (जैसे varimax) बाद में ( यह भी देखें );

  3. यह लोडिंग है जो मूल सहसंयोजक / सहसंबंध मैट्रिक्स को "पुनर्स्थापित" करता है (यह भी देखें कि यह धागा उस संबंध में पीसीए और एफए की बारीकियों पर चर्चा कर रहा है);

  4. पीसीए में आप घटक के मूल्यों की गणना eigenvectors और लोडिंग दोनों से कर सकते हैं, कारक विश्लेषण में आप लोडिंग से बाहर कारक स्कोर की गणना करते हैं

  5. और, इन सबसे ऊपर, लोडिंग मैट्रिक्स सूचनात्मक है: इसके वर्टिकल सोम्स ऑफ़ स्क्वॉयर, आइगेनवैल्यूज़, कंपोनेंट्स के वेरिएंस हैं, और इसके हॉरिज़ॉन्टल स्क्वॉयर्स वेरिएबल्स के वेरिएंट्स को "कंप्लीट" कर रहे हैं।

  6. रीकॉल या मानकीकृत लोडिंग, चर के सेंट द्वारा विभाजित लोडिंग है। विचलन; यह सहसंबंध है। (यदि आपका पीसीए सहसंबंध आधारित पीसीए है, तो लोडिंग रिसलेस्ड एक के बराबर है, क्योंकि सहसंबंध आधारित पीसीए मानकीकृत चर पर पीसीए है।) पुनर्गठित लोडिंग वर्ग में एक पीआर के योगदान का अर्थ है। एक चर में घटक; यदि यह उच्च है (1 के करीब) तो चर अकेले उस घटक द्वारा परिभाषित किया गया है।

पीसीए और एफए में किया आप के लिए संगणना का एक उदाहरण देख

Eigenvectors इकाई-स्केल लोडिंग हैं; और वे मुख्य घटकों या पीठ में चर के ऑर्थोगोनल परिवर्तन (रोटेशन) के गुणांक (कोजाइन) हैं। इसलिए उनके साथ घटकों के मूल्यों (मानकीकृत नहीं) की गणना करना आसान है। इसके अलावा उनका उपयोग सीमित है। Eigenvector मान चुकता एक चर में एक पीआर में योगदान का अर्थ है। घटक; यदि यह उच्च है (1 के करीब) तो घटक उस चर को अच्छी तरह से परिभाषित करता है।

हालांकि eigenvectors और लोडिंग बस को दो भिन्न तरीके हैं एक ही अंक के निर्देशांक को सामान्य एक पर डेटा के स्तंभों (चर) का प्रतिनिधित्व करने biplot , यह एक अच्छा विचार दो शब्दों का मिश्रण न है। यह उत्तर क्यों बताया गया है। यह भी देखें


3
क्या यह संभव है कि यहां अलग-अलग क्षेत्रों में अलग-अलग सम्मेलन हों? मैं इस सवाल पर अड़ गया, क्योंकि मेरे क्षेत्र में (केमोमेट्रिक्स) सामान्य तरीके से ओर्थोनॉमिक लोडिंग है। दूसरे शब्दों में, स्केल / परिमाण / स्कोर में जाता है, लोडिंग में नहीं। लोडिंग व्युत्क्रम मैट्रिक्स के विपरीत = ट्रांसजेन के बराबर है। मैंने इसे "हैंडबुक ऑफ़ केमोमेट्रिक्स एंड क्वालमेट्रिक्स" और "कॉम्प्रिहेंसिव केमोमेटिक्स" दोनों के साथ चेक किया, जो कि मैं केमोमेट्रिक्स के लिए 2 सबसे महत्वपूर्ण संदर्भ कार्यों पर विचार करता हूं। eigenvalues
cbeleites

1
साइड नोट: केमोमेट्रिक्स में, मूल डेटा से स्कोर की गणना करना बहुत महत्वपूर्ण है, क्योंकि पूर्व-प्रसंस्करण के लिए बहुत सारे भविष्य कहनेवाला मॉडल पीसीए रोटेशन (!) का उपयोग करते हैं, इसलिए लोडिंग का सीमित उपयोग पीसीओ के लिए हमारा मुख्य उपयोग है।
cbeleites

2
@ कल्बेलाइट्स, यह केवल संभव नहीं है कि पीसीए / एफए टर्मिनोलॉजिकल कन्वेंशन अलग-अलग क्षेत्रों (या अलग-अलग सॉफ़्टवेयर या पुस्तकों में) में भिन्न हो सकते हैं - मैं कहता हूं कि वे अलग-अलग हैं। मनोविज्ञान और मानव व्यवहार में "लोडिंग" आमतौर पर मुझे नाम से लेबल किया जाता है (उन क्षेत्रों में लोडिंग बहुत महत्वपूर्ण है क्योंकि अक्षांशों की व्याख्या लंबित है, जबकि स्कोर को छोटा किया जा सकता है, मानकीकृत किया जा सकता है, और कोई परवाह नहीं करता है)। दूसरी ओर, Rइस साइट पर कई उपयोगकर्ताओं ने पीसीए के ईजीनवेक्टर्स को "लोडिंग" कहा है जो संभवतः फ़ंक्शन प्रलेखन से आ सकता है।
ttnphns

(cont।) सबसे बुरा यह है कि शब्द "लोडिंग" का उपयोग अन्य तकनीकों (एलडीए, विहित कार्मिक, और इसी तरह) में किया जा रहा है, पीसीए के समान अर्थ में नहीं। तो, शब्द ही समझौता है। मैं @amoeba से सहमत हूं, जो इसे पूरी तरह से छोड़ने के लिए मानती है और सांख्यिकीय रूप से सटीक शब्दों जैसे "सहसंबंध" या "गुणांक" द्वारा प्रतिस्थापित किया जाता है। दूसरी ओर, "eigenvectors" svd / eigen अपघटन और मंद के कुछ तरीकों तक ही सीमित प्रतीत होते हैं। कमी उन सभी पर या उनके क्लासिक रूप में प्रदर्शन नहीं करती है।
ttnphns

1
आप मिश्रण कर रहे होंगे। जब आप लोडिंग की मदद से पीसी स्कोर की गणना करते हैं, तो आप बस मानकीकृत घटकों के साथ समाप्त होते हैं। आप इन अंकों की गणना उसी फॉर्मूले से नहीं करते हैं जैसा कि आप eigenvectors के साथ करते हैं; बल्कि, आपको मेरे # 4 के लिंक में वर्णित सूत्रों का उपयोग करना चाहिए।
ttnphns

3

वहाँ लोडिंग, गुणांक और eigenvectors के बारे में बहुत भ्रम की स्थिति प्रतीत होती है। लोडिंग शब्द फैक्टर एनालिसिस से आया है और यह कारकों पर डेटा मैट्रिक्स के प्रतिगमन के गुणांक को संदर्भित करता है। वे कारकों को परिभाषित करने वाले गुणांक नहीं हैं। उदाहरण के लिए देखें मर्डिया, बिब्बी और केंट या अन्य बहुभिन्नरूपी आंकड़े पाठ्यपुस्तकें।

हाल के वर्षों में पीसी गुणांक को इंगित करने के लिए लोडिंग शब्द का उपयोग किया गया है। यहां ऐसा लगता है कि यह मैट्रिक्स के आइगेनवेल्यूज के वर्गर्ट द्वारा गुणांक को इंगित करता था। ये आमतौर पर पीसीए में उपयोग की जाने वाली मात्रा नहीं हैं। मुख्य घटकों को यूनिट मानक गुणांक के साथ भारित चर के योग के रूप में परिभाषित किया गया है। इस तरह पीसी में संबंधित आइजनवेल के बराबर मानदंड होते हैं, जो बदले में घटक द्वारा बताए गए विचरण के बराबर होते हैं।

यह फैक्टर एनालिसिस में है कि कारकों को यूनिट नॉर्म्स की आवश्यकता है। लेकिन एफए और पीसीए पूरी तरह से अलग हैं। पीसी के गुणांक को घुमाते हुए बहुत कम ही किया जाता है क्योंकि यह घटकों की अनुकूलता को नष्ट कर देता है।

एफए में कारकों को विशिष्ट रूप से परिभाषित नहीं किया गया है और विभिन्न तरीकों से अनुमान लगाया जा सकता है। महत्वपूर्ण मात्रा लोडिंग (सही वाले) और सांप्रदायिकता हैं जो कोवरियन मैट्रिक्स की संरचना का अध्ययन करने के लिए उपयोग की जाती हैं। पीसीए या पीएलएस का उपयोग घटकों का अनुमान लगाने के लिए किया जाना चाहिए।


2
यह जवाब, विशेष पहलुओं (+1) में सही है, यह अनदेखी करता है कि एफए और पीसीए दोनों को देखा जा सकता है और तुलनात्मक (हालांकि विशिष्ट हैं) कारकों / घटकों (बाद में ली गई इकाई स्केल) द्वारा प्रकट चर की भविष्यवाणी के रूप में। लोडिंग उस भविष्यवाणी के गुणांक हैं। तो लोडिंग का उपयोग किया जाता है और मान्य शब्द हैं, जिसका अर्थ है एक ही बात, एफए और पीसीए दोनों क्षेत्रों में।
ttnphns

3
इसके अलावा, यह अफ़सोस की बात है कि कुछ स्रोत (विशेष रूप से, आर प्रलेखन) लापरवाह eigenvectorcoefficients "लोडिंग" कहते हैं - उनमें कोई लोड नहीं है।
ttnphns

यह सिर्फ इतना है कि एफए और पीसीए एक अलग मॉडल का अनुमान लगा रहे हैं। एफए में त्रुटियां पीसीए में ऑर्थोगोनल हैं वे नहीं हैं। जब तक कोई एक मॉडल के लिए मछली पकड़ता है, मैं परिणामों की तुलना करने में बहुत अधिक बिंदु नहीं देखता। लोडिंग मैट्रिक्स के कॉलम हैं जो कोविरियस मैट्रिक्स Lको लिखने के लिए उपयोग किया जाता है S = LL' + Cजहां Cएक विकर्ण मैट्रिक्स है। उन्हें पीसी के गुणांकों से कोई लेना-देना नहीं है।
मार्को स्टैमज़ा

they have nothing to do with the PCs' coefficientsहम पीसीए में लोडिंग की गणना करते हैं जैसे हम एफए में करते हैं। मॉडल अलग-अलग हैं लेकिन लोडिंग का अर्थ दोनों तरीकों में समान है।
ttnphns

0
In Factor Analysis (using PCA for extraction), we get orthonormal eigen vectors (unit vectors) and corresponding eigenvalues. Now, loadings are defined as 

Loadings = Orthonormal Eigenvectors⋅ (Absolute Eigen मान) का वर्गमूल यहाँ orthonormal eigen vectors (अर्थात Orthonormal Eigenvectors शब्द) एक दिशा प्रदान करता है और (Absolute Eigen मान) का वर्गमूल मूल्य प्रदान करता है।

आमतौर पर लोग कहते हैं कि लोडिंग में संकेतों का महत्व नहीं है लेकिन इसकी परिमाण महत्वपूर्ण है। लेकिन अगर हम एक ईजन वैक्टर की दिशा को उलट देते हैं (अन्य ईजेन वैक्टर की निशानी रखते हुए) तो कारक स्कोर बदल दिए जाएंगे। इसलिए आगे का विश्लेषण काफी प्रभावित होगा।

मुझे अब तक इस अस्पष्टता का संतोषजनक समाधान नहीं मिल सका।


0

इस मामले पर कुछ भ्रम प्रतीत होता है, इसलिए मैं कुछ टिप्पणियों और एक संकेतक प्रदान करूंगा जहां साहित्य में एक उत्कृष्ट उत्तर मिल सकता है।

सबसे पहले, पीसीए और फैक्टर विश्लेषण (एफए) कर रहे हैं से संबंधित। सामान्य तौर पर, प्रमुख घटक परिभाषा के अनुसार ऑर्थोगोनल हैं जबकि कारक - एफए में अनुरूप इकाई - नहीं हैं। सीधे शब्दों में, प्रमुख घटक कारक अंतरिक्ष को एक मनमाने ढंग से फैलाते हैं, लेकिन जरूरी नहीं कि डेटा के शुद्ध ईजेनैलिसिस से उत्पन्न होने के कारण उपयोगी तरीका हो। दूसरी ओर कारक वास्तविक दुनिया की संस्थाओं का प्रतिनिधित्व करते हैं जो केवल संयोग से (यानी असंबंधित या स्वतंत्र) हैं।

हम ले कहो रों में से प्रत्येक से टिप्पणियों एल विषयों। ये एक डेटा मैट्रिक्स में व्यवस्थित किया जा सकता डी होने रों पंक्तियों और एल कॉलम। डी को एक स्कोर मैट्रिक्स एस और एक लोडिंग मैट्रिक्स एल में विघटित किया जा सकता है जैसे कि डी = एसएलएस होगा रों पंक्तियाँ, और एल होगा एल कॉलम, प्रत्येक कारकों की संख्या होने के दूसरे आयाम एन । कारक विश्लेषण का उद्देश्य डी को विघटित करना हैइस तरह से अंतर्निहित स्कोर और कारकों को प्रकट करना। एल में लोडिंग हमें प्रत्येक स्कोर के अनुपात को बताता है जो डी में टिप्पणियों को बनाते हैं ।

PCA में, L के स्तंभ के रूप में D के सहसंबंध या सहसंयोजक मैट्रिक्स के eigenvectors हैं। ये पारंपरिक रूप से संबंधित आइगेनवेल्स के अवरोही क्रम में व्यवस्थित होते हैं। N का मूल्य - अर्थात विश्लेषण में बनाए रखने के लिए महत्वपूर्ण प्रमुख घटकों की संख्या, और इसलिए एल की पंक्तियों की संख्या - आमतौर पर आइजनवेल्स के एक डरावनी साजिश के उपयोग के माध्यम से निर्धारित की जाती है या कई अन्य तरीकों में से एक में पाया जा सकता है द लिट्रेचर। पीसीए में एस के कॉलम एन अमूर्त प्रमुख घटक स्वयं बनाते हैं। N का मान डेटा सेट की अंतर्निहित गतिशीलता है।

कारक विश्लेषण का उद्देश्य एक परिवर्तन मैट्रिक्स टी के उपयोग के माध्यम से सार घटकों को सार्थक कारकों में बदलना है जैसे कि डी = एसटीटी -1 एल । ( ST ) परिवर्तित स्कोर मैट्रिक्स है, और ( T -1 L ) परिवर्तित लोडिंग मैट्रिक्स है।

उपरोक्त व्याख्या रसायन विज्ञान में अपने उत्कृष्ट कारक विश्लेषण से एडमंड आर। मालिनोवस्की की धारणा का अनुसरण करती है । मैं विषय के लिए एक परिचय के रूप में शुरुआती अध्यायों की अत्यधिक अनुशंसा करता हूं।


इस उत्तर में कई समस्याएं हैं। सबसे पहले, अपने सूत्रों की जाँच करें, कृपया, वे सही नहीं हैं। दूसरा, आप एफए और पीसीए के बीच मतभेदों पर चर्चा करने की कोशिश कर रहे हैं। हमारे पास CV पर एक अलग लंबा धागा है, जबकि वर्तमान धागा लोडिंग बनाम ईजेनवेक्टर के बारे में है, इसलिए उत्तर गलत है। तीसरा, एफए की आपकी तस्वीर विकृत है, विशेष रूप से वाक्यांशों में जैसे "एफए का उद्देश्य डी को विघटित करना है" या "एफए का उद्देश्य सार घटकों को सार्थक कारकों में बदलना है"।
tnnphns

मैं इस थ्रेड में चर्चा के लिए प्रासंगिक होने के लिए मेरे द्वारा पोस्ट की गई सामग्री पर विचार करता हूं, और यह लोडिंग और आईजेनट्रैक्टर्स के बीच संबंध का एक विवरण प्रदान करता है।
मैट वेनहम

इस विषय पर मेरे शोध को इस पत्र में संक्षेपित किया गया है: onlinelibrary.wiley.com/doi/10.1002/sia.740231303/full
मैट वेनहम

ठीक है, हो सकता है कि आपका खाता एक विशेष अभी भी मान्य हो - मैं आपके द्वारा दिए गए स्रोतों को पढ़ने के लिए w / o नहीं कह सकता। फिर भी, मैं टिप्पणी करता हूं कि पीसीए में लोडिंग और ईजेनवेक्टर के बीच "संबंध" अपने सभी प्रश्न में रखा गया सूत्र है; इसलिए "व्याख्या" करने के लिए शायद ही कुछ है (समझाया जाना चाहिए कि उनकी अलग उपयोगिता है)। टिप्पणी करने के लिए एक और बात यह है कि क्यू मुख्य रूप से पीसीए के बारे में है, न कि एफए। और, अंत में, हर एफए विधि eigenvectors के साथ बिल्कुल भी व्यवहार नहीं करती है, जबकि यह आवश्यक रूप से लोडिंग से संबंधित है।
ttnphns

क्षमा याचना, मुझे नहीं लगता कि मेरे पेपर का सार्वजनिक रूप से उपलब्ध संस्करण है, हालांकि आप दो सप्ताह के परीक्षण के साथ Deepdyve.com के माध्यम से पहुँच प्राप्त कर सकते हैं। मालिनोवस्की की पुस्तक का पहला अध्याय ऊपर दिए गए लिंक से उपलब्ध है। यह ईजेननलिसिस का उल्लेख किए बिना मूल बातें शामिल करता है। मुझे यह स्वीकार करना चाहिए कि मैं इस बात से अनजान था कि कारक विश्लेषण ईजेनानालिसिस के बिना किया जा सकता है, क्योंकि मैंने जिस संस्करण का उपयोग किया है - लक्ष्य कारक विश्लेषण - करता है।
मैट वेनहम

-1

मैं उन नामों से थोड़ा भ्रमित हूं, और मैंने "सांख्यिकीय विधियों को एटमॉस्फेरिक साइंस" नामक पुस्तक में खोजा, और इसने मुझे पीसीए के विभिन्न शब्दावली का सारांश दिया, यहां पुस्तक में स्क्रीनशॉट हैं, आशा है कि यह मदद करेगा।

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.