प्रमुख घटक स्कोर क्या हैं?


71

जवाबों:


66

पहले, चलो एक स्कोर को परिभाषित करते हैं।

जॉन, माइक और केट को मैथ्स, साइंस, इंग्लिश और म्यूजिक की परीक्षाओं के लिए निम्न प्रतिशत मिलते हैं।

      Maths    Science    English    Music    
John  80        85          60       55  
Mike  90        85          70       45
Kate  95        80          40       50

इस मामले में कुल 12 अंक हैं। प्रत्येक अंक किसी विशेष विषय में प्रत्येक व्यक्ति के लिए परीक्षा परिणाम का प्रतिनिधित्व करता है। तो इस मामले में एक अंक बस एक पंक्ति और स्तंभ प्रतिच्छेद का प्रतिनिधित्व है।

अब अनौपचारिक रूप से एक प्रधान घटक को परिभाषित करते हैं।

उपरोक्त तालिका में, क्या आप आसानी से डेटा को 2D ग्राफ़ में प्लॉट कर सकते हैं? नहीं, क्योंकि चार विषय हैं (जिसका अर्थ है चार चर: गणित, विज्ञान, अंग्रेजी और संगीत), अर्थात:

  • आप दो विषयों को ठीक उसी तरह से प्लॉट कर सकते हैं जैसे आप एक 2 डी ग्राफ में और को-ऑर्डिनेट्स के साथ करेंगे ।xy
  • आप तीन विषयों को भी उसी तरह से प्लॉट कर सकते हैं जैसे आप एक 3 डी ग्राफ में , और प्लॉट करेंगे (हालांकि यह आम तौर पर बुरा अभ्यास है, क्योंकि 3 डी डेटा के 2 डी प्रतिनिधित्व में कुछ विरूपण अपरिहार्य है)।y zxyz

लेकिन आप 4 विषयों की साजिश कैसे करेंगे?

फिलहाल हमारे पास चार चर हैं जो प्रत्येक एक विषय का प्रतिनिधित्व करते हैं। तो इसके आस-पास की एक विधि किसी भी तरह से विषयों को केवल दो नए चर में संयोजित करना हो सकती है जिसे हम बाद में प्लॉट कर सकते हैं। यह बहुआयामी स्केलिंग के रूप में जाना जाता है ।

प्रधान घटक विश्लेषण बहुआयामी स्केलिंग का एक रूप है। यह चर का एक कम आयामी स्थान में एक रैखिक परिवर्तन है जो चर की अधिकतम जानकारी को बनाए रखता है। उदाहरण के लिए, इसका मतलब यह होगा कि हम उन विषयों के प्रकारों को देख सकते हैं जो प्रत्येक छात्र शायद अधिक अनुकूल हैं।

एक प्रमुख घटक इसलिए रैखिक परिवर्तन के बाद मूल चर का एक संयोजन है। आर में, यह है:

DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)

जो आपको कुछ इस तरह देगा (केवल सरलता के लिए पहले दो प्रमुख घटक):

                PC1         PC2
Maths    0.27795606  0.76772853 
Science -0.17428077 -0.08162874 
English -0.94200929  0.19632732 
Music    0.07060547 -0.60447104 

यहाँ पहला कॉलम रैखिक संयोजन के गुणांक दिखाता है जो मुख्य घटक # 1 को परिभाषित करता है, और दूसरा स्तंभ मुख्य घटक # 2 के लिए गुणांक दिखाता है।

तो एक प्रधान घटक स्कोर क्या है?

यह इस पोस्ट के अंत में तालिका से एक अंक है (नीचे देखें)।

आर से उपरोक्त आउटपुट का मतलब है कि अब हम एक व्यक्ति के सभी विषयों को 2 डी ग्राफ़ में निम्नानुसार प्लॉट कर सकते हैं। सबसे पहले, हमें मूल प्रकारों को मेरे घटाव स्तंभ के केंद्र में रखने की आवश्यकता है:

      Maths    Science    English    Music    
John  -8.33       1.66       3.33       5  
Mike   1.66       1.66      13.33      -5
Kate   6.66       -3.33    -16.66       0

और फिर PC1 और PC2 स्कोर पाने के लिए रैखिक संयोजन बनाएं :

      x                                                    y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33  + 0.07*5   -0.77*8.33 + -0.08*1.66 + 0.19*3.33   + -0.60*5 
Mike 0.28*1.66  + -0.17*1.66 + -0.94*13.33 + -0.07*5   0.77*1.66 + -0.08*1.66 + 0.19*13.33  + -0.60*5
Kate 0.28*6.66  + 0.17*3.33  + 0.94*16.66  + 0.07*0    0.77*6.66 +  0.08*3.33 + -0.19*16.66 + -0.60*0

जो सरल करता है:

        x       y
John   -5.39   -8.90
Mike  -12.74    6.78
Kate   18.13    2.12

कर रहे हैं छह प्रमुख घटक स्कोर उपरोक्त तालिका में। अब आप एक 2D ग्राफ में प्राप्तांकों की साजिश कर सकते हैं ताकि उन विषयों के प्रकार का बोध हो सके जो प्रत्येक छात्र शायद अधिक अनुकूल हैं।

टाइप करके R में समान आउटपुट प्राप्त किया जा सकता है prcomp(DF, scale = FALSE)$x

संपादित करें 1: हम्म, मैं शायद एक बेहतर उदाहरण सोच सकता था, और जो मैंने यहां रखा है, उससे कहीं अधिक है, लेकिन मुझे आशा है कि आपको यह विचार मिलेगा।

EDIT 2: इस उत्तर को बेहतर बनाने में उनकी टिप्पणी के लिए @drpaulbrewer को पूरा श्रेय।


10
प्रयास सराहनीय है - लेकिन - न तो पीसी 1 और न ही पीसी 2 आपको बताता है कि सभी विषयों में सबसे अच्छा किसने किया। ऐसा करने के लिए पीसी विषय के गुणांक सभी को सकारात्मक होना चाहिए। PC1 में मैथ और म्यूजिक के लिए पॉजिटिव वेट है लेकिन साइंस और इंग्लिश के लिए नेगेटिव है। PC2 में मैथ और इंग्लिश के लिए पॉजिटिव वेट है लेकिन साइंस और म्यूजिक के लिए नेगेटिव है। पीसी आपको क्या बताता है कि डेटासेट में सबसे बड़ा विचरण कहां है। तो PC1 में गुणांकों द्वारा विषयों को भारित करके और छात्रों को स्कोर करने के लिए, आपको सबसे बड़ा विचरण मिलता है या छात्र व्यवहार में फैल जाते हैं। यह प्रकारों को वर्गीकृत कर सकता है लेकिन प्रदर्शन नहीं।
पॉल

+1 अच्छी टिप्पणी, चीयर्स। आप निश्चित रूप से सही हैं, मुझे लिखा जाना चाहिए था कि बेहतर और अब यह स्पष्ट करने के लिए आपत्तिजनक लाइन को संपादित किया है मुझे आशा है।
टोनी बेयरल

आप var का मानकीकरण कर सकते हैं, इसलिए योग की गणना करें, यह देखने के लिए कि कौन सबसे अच्छा है, या यदि आप पसंद करते हैं, तो R में:apply(dtf, 1, function(x) sum(scale(x)))
aL3xa

2
@ जॉनफर चार चर (स्तंभ) गणित, विज्ञान, अंग्रेजी और संगीत हैं, और पंक्तियाँ व्यक्तियों का प्रतिनिधित्व करती हैं। शब्द "विषय" कई बार अस्पष्ट हो जाता है क्योंकि पांच साल पहले मैंने एक उत्तर के लिए एक भयानक उदाहरण चुना था।
टोनी बेयरल

1
@ पहले, मैं आगे गया और अंकों की गणना करने से पहले चर जवाब देने के लिए आपके उत्तर को संपादित किया। अब गणना स्कोर क्या prcompआउटपुट के लिए फिट है । इससे पहले ऐसा नहीं था।
अमीबा

23

प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) एक लोकप्रिय तरीका है, जब आप मल्टीवेरिएट डेटा के साथ काम कर रहे हैं, तो विचरण का विश्लेषण करते हैं। आपके पास यादृच्छिक चर X1, X2, ... Xn हैं जो सभी डिग्री (सकारात्मक या नकारात्मक) अलग-अलग डिग्री के हैं, और आप चाहते हैं कि क्या हो रहा है की बेहतर समझ प्राप्त करें। पीसीए मदद कर सकता है

PCA आपको जो देता है वह Y1, Y2, ..., Yn (यानी वैरिएबल की समान संख्या) में परिवर्तनशील होता है, जो कि Xs का रैखिक संयोजन है। उदाहरण के लिए, आपके पास Y1 = 2.1 X1 - 1.76 X2 + 0.2 X3 हो सकता है ...

Ys अच्छी संपत्ति है कि इनमें से प्रत्येक एक दूसरे के साथ शून्य सहसंबंध है। बेहतर अभी भी, आप उन्हें विचरण के घटते क्रम में प्राप्त करते हैं। तो, वाई 1 "मूल चर के संस्करण का एक बड़ा हिस्सा" समझाता है, वाई 2 थोड़ा कम और इसी तरह। आमतौर पर पहले कुछ Ys के बाद, चर कुछ हद तक अर्थहीन हो जाते हैं। किसी भी शी के लिए पीसीए स्कोर सिर्फ यस में से प्रत्येक में गुणांक है। मेरे पहले उदाहरण में, पहले प्रमुख घटक (Y1) में X2 का स्कोर 1.76 है।

जिस तरह से पीसीए इस जादू को करता है वह कोवरियन मैट्रिक्स के आइजनवेक्टरों की गणना करता है।

एक ठोस उदाहरण देने के लिए, कल्पना कीजिए कि X1, ... X10 1 साल, 2 साल, ..., 10 साल के ट्रेजरी बांड पैदावार में कुछ समय अवधि में बदलाव है। जब आप पीसीए की गणना करते हैं, तो आप आमतौर पर पाते हैं कि पहले घटक में एक ही चिह्न के प्रत्येक बांड के लिए और एक ही संकेत के बारे में स्कोर होते हैं। यह आपको बताता है कि बांड पैदावार में अधिकांश विचरण सब कुछ उसी तरह से आगे बढ़ने से होता है: ऊपर या नीचे "समानांतर बदलाव"। दूसरा घटक आम तौर पर वक्र की "खड़ी" और "सपाट" दिखाता है और इसमें X1 और X10 के विपरीत संकेत होते हैं।


उच्चतर Y मान किस प्रकार विचरण का एक बड़ा हिस्सा "समझाता" है? क्या यह है कि पीसीए की गणना कैसे की जाती है? अगर मुझे लगता है कि मुझे पोस्ट करने का एक और सवाल है;)
vrish88

1
यह सही है - यदि पीसी का संस्करण विचरण 3.5 है, तो वह पीसी प्रारंभिक सेट से 3.5 चर की "परिवर्तनशीलता" बताता है। चूंकि पीसी एडिटिव होते हैं PC1 > PC2 > ... > PCn, और उनके वेरिएंट्स का योग प्रारंभिक वेरिएबल सेट के वेरिएंस के योग के बराबर होता है, क्योंकि पीसीए की गणना कोविर्सियस मैट्रिक्स पर की जाती है, अर्थात वेरिएबल्स को मानकीकृत किया जाता है (एसडी = 1, वीएआर = 1)।
एएल

6

मान लीजिए कि आपके पास एन पॉइंट्स का एक बादल है, जैसे कि 3D (जिसे 100x3 सरणी में सूचीबद्ध किया जा सकता है)। फिर, प्रमुख घटक विश्लेषण (पीसीए) डेटा में एक मनमाने ढंग से उन्मुख दीर्घवृत्ताकार फिट बैठता है। मुख्य घटक स्कोर दीर्घवृत्त के व्यास की लंबाई है।

जिस दिशा में व्यास बड़ा होता है, उस दिशा में डेटा बहुत भिन्न होता है, जबकि जिस दिशा में व्यास छोटा होता है, वह डेटा अलग-अलग होता है। यदि आप एनडी डेटा को 2-डी स्कैटर प्लॉट में प्रोजेक्ट करना चाहते हैं, तो आप उन्हें दो सबसे बड़े प्रिंसिपल कंपोनेंट्स के साथ प्लॉट करते हैं, क्योंकि उस एप्रोच के साथ आप डेटा में अधिकांश वेरिएशन प्रदर्शित करते हैं।


क्या कोई लाभ होगा या आप उन्हें 3-डी स्कैटर प्लॉट पर प्लॉट कर सकते हैं?
वृष

6

मुझे प्रिंसिपल कंपोनेंट स्कोर को "मूल रूप से अर्थहीन" समझना पसंद है जब तक कि आप वास्तव में उन्हें कुछ अर्थ नहीं देते। "वास्तविकता" के संदर्भ में पीसी स्कोर की व्याख्या करना एक मुश्किल व्यवसाय है - और वास्तव में इसे करने का कोई अनूठा तरीका नहीं हो सकता है। यह इस बात पर निर्भर करता है कि आप पीसीए में जाने वाले विशेष चरों के बारे में क्या जानते हैं, और वे व्याख्या के संदर्भ में एक दूसरे से कैसे संबंधित हैं।

जहां तक ​​गणित जाता है, मुझे मुख्य घटक अक्षों के संबंध में प्रत्येक बिंदु के समन्वय के रूप में पीसी स्कोर की व्याख्या करना पसंद है। तो कच्चे चर में आपके पास जो p- आयामी स्थान में एक "बिंदु" है। इन निर्देशांक में, इसका अर्थ है अक्ष के साथ बिंदु मूल से दूरी है। अब एक पीसीए मूल रूप से इस "बिंदु" का वर्णन करने का एक अलग तरीका है - "प्रमुख चर अक्ष" के बजाय "कच्चे चर" अक्ष के संबंध में। तो हमारे पास , जहां हैxi =(x1i,x2i,,xpi)x1x1izi =(z1i,z2i,,zpi)=A(xix¯)Ap×pप्रमुख घटक भार (अर्थात प्रत्येक पंक्ति में eigenvectors) का मैट्रिक्स, और डेटा का "सेंट्रोइड" (या डेटा बिंदुओं का मतलब वेक्टर) है।x¯

तो आप आइजनवेक्टरों के बारे में सोच सकते हैं कि पीसी का वर्णन करने वाली "सीधी रेखाएं" कहां हैं। फिर प्रिंसिपल कंपोनेंट स्कोर का वर्णन करता है कि प्रत्येक डेटा बिंदु डेटा के "सेंट्रीओड" के सापेक्ष प्रत्येक सीधी रेखा पर स्थित है। आप मूल डेटा बिंदुओं में से प्रत्येक के लिए रैंक 1 भविष्यवाणियों की एक श्रृंखला के रूप में वजन / eigenvectors के साथ संयोजन में पीसी स्कोर के बारे में भी सोच सकते हैं:

x^ji(k)=x¯j+zkiAkj

जहाँ वें अवलोकन के लिए भविष्यवाणी है , वें पीसी का उपयोग करके वें चर के लिए ।x^ji(k)ijk


4

एक डेटा मैट्रिक्स के प्रमुख घटक इसके विचरण-सहसंयोजक मैट्रिक्स के eigenvector-eigenvalue जोड़े हैं। संक्षेप में, वे विचरण के सजावटी टुकड़े हैं। प्रत्येक एक अवलोकन के लिए चर का एक रैखिक संयोजन है - मान लीजिए कि आप प्रत्येक विषय पर w, x, y, z मापते हैं। आपका पहला पीसी कुछ इस तरह से काम कर सकता है

0.5w + 4x + 5y - 1.5z

यहाँ लोडिंग (eigenvectors) हैं (0.5, 4, 5, -1.5)। प्रत्येक अवलोकन के लिए स्कोर (eigenvalue) परिणामी मूल्य है जब आप अवलोकन (w, x, y, z) में स्थानापन्न करते हैं और कुल की गणना करते हैं।

यह तब काम आता है जब आप चीजों को उनके प्रमुख घटकों (जैसे, बाहर का पता लगाना) के लिए प्रोजेक्ट करते हैं, क्योंकि आप हर किसी पर स्कोर को प्लॉट करते हैं जैसे आप किसी अन्य डेटा को। यह आपके डेटा के बारे में बहुत कुछ प्रकट कर सकता है यदि बहुत अधिक प्रसरण सहसंबंधित हो (पहले कुछ पीसी में ==)।


स्पष्टता के लिए, जब आप कहते हैं "मान लीजिए कि आप प्रत्येक के विषयों पर w, x, y, z को मापते हैं", तो आप @TonyBreyal के उत्तर में "विषयों" का उल्लेख नहीं कर रहे हैं? आप "विषयों" शब्द का उपयोग "टिप्पणियों" / "रिकॉर्ड" / "डेटा की पंक्तियों" का पर्याय बनने के लिए कर रहे हैं?
रयान चेस

4

चलो सूचकांक पंक्तियों और सूचकांक कॉलम। मान लीजिए कि आप चर (कॉलम) के संयोजन को रैखिक करते हैं:i=1,,Nj=1,,M

Zi,1=ci,1Yi,1+ci,2Yi,2+...+ci,MYi,M

उपर्युक्त सूत्र मूल रूप से एक निश्चित मूल्य (लोडिंग) के साथ पंक्ति तत्वों को गुणा करने और स्तंभों द्वारा उन्हें योग करने के लिए कहता है । परिणामी मान ( लोडिंग के समय मान) स्कोर हैं।वाईcY

एक प्रमुख घटक (पीसी) एक रैखिक संयोजन ) है (स्तंभों द्वारा मान जिन्हें स्कोर कहा जाता है)। संक्षेप में, पीसी को चर (कॉलम) की सबसे महत्वपूर्ण विशेषताएं प्रस्तुत करनी चाहिए। एर्गो, आप कई पीसी निकाल सकते हैं क्योंकि चर (या कम) हैं।Z1=(Z1,1,...,ZN,1

पीसीए पर आर से एक आउटपुट (एक नकली उदाहरण) इस तरह दिखता है। PC1, PC2 ... प्रमुख घटक हैं 1, 2 ... नीचे दिया गया उदाहरण केवल पहले 8 प्रमुख घटक (17 में से) दिखा रहा है। आप पीसीए से अन्य तत्वों को भी निकाल सकते हैं, जैसे लोडिंग और स्कोर।

Importance of components:
                          PC1    PC2    PC3    PC4    PC5    PC6    PC7    PC8
Standard deviation     1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion  0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129

1
क्षमा करें, लेकिन लोडिंग क्या है (आपके सूत्र में सी) और आप उन्हें कैसे निर्धारित करते हैं?
वृष v

@ vrish88 मुझे विश्वास है कि सी eigenvectors के "लोडिंग" हैं। मेरी समझ यह है कि ये अनिवार्य रूप से केवल भार हैं जो आप प्रत्येक चर को दे रहे हैं। टिम अपने जवाब में यह अच्छी तरह से समझाता है।
रयान चेस

3

प्रिंसिपल कंपोनेंट स्कोर एक प्रिंसिपल कंपोनेंट्स एनालिसिस (पीसीए) के बाद प्राप्त होने वाले अंकों का एक समूह होता है। पीसीए में अंकों के समूह के बीच संबंधों का विश्लेषण इस तरह किया जाता है कि समान संख्या में नए "काल्पनिक" चर (उर्फ सिद्धांत घटक) बनाए जाते हैं। इन नए काल्पनिक चर में से सबसे पहले मूल रूप से चर के सभी मूल समूह के साथ सहसंबद्ध है। अगला कुछ हद तक कम सहसंबद्ध है, और इस बिंदु तक यह है कि यदि आप प्रारंभिक समूह के किसी भी दिए गए चर की भविष्यवाणी करने के लिए सभी प्रमुख घटक स्कोर का उपयोग करते हैं, तो आप इसके सभी संस्करण की व्याख्या करने में सक्षम होंगे। जिस तरह से पीसीए आय जटिल है और इसमें कुछ प्रतिबंध हैं। इनमें से यह प्रतिबंध है कि किसी भी दो प्रमुख घटकों (यानी काल्पनिक चर) के बीच संबंध शून्य है; इस प्रकार यह नहीं है '

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.