प्रमुख घटक स्कोर (पीसी स्कोर, पीसीए स्कोर) क्या हैं?
प्रमुख घटक स्कोर (पीसी स्कोर, पीसीए स्कोर) क्या हैं?
जवाबों:
पहले, चलो एक स्कोर को परिभाषित करते हैं।
जॉन, माइक और केट को मैथ्स, साइंस, इंग्लिश और म्यूजिक की परीक्षाओं के लिए निम्न प्रतिशत मिलते हैं।
Maths Science English Music
John 80 85 60 55
Mike 90 85 70 45
Kate 95 80 40 50
इस मामले में कुल 12 अंक हैं। प्रत्येक अंक किसी विशेष विषय में प्रत्येक व्यक्ति के लिए परीक्षा परिणाम का प्रतिनिधित्व करता है। तो इस मामले में एक अंक बस एक पंक्ति और स्तंभ प्रतिच्छेद का प्रतिनिधित्व है।
अब अनौपचारिक रूप से एक प्रधान घटक को परिभाषित करते हैं।
उपरोक्त तालिका में, क्या आप आसानी से डेटा को 2D ग्राफ़ में प्लॉट कर सकते हैं? नहीं, क्योंकि चार विषय हैं (जिसका अर्थ है चार चर: गणित, विज्ञान, अंग्रेजी और संगीत), अर्थात:
लेकिन आप 4 विषयों की साजिश कैसे करेंगे?
फिलहाल हमारे पास चार चर हैं जो प्रत्येक एक विषय का प्रतिनिधित्व करते हैं। तो इसके आस-पास की एक विधि किसी भी तरह से विषयों को केवल दो नए चर में संयोजित करना हो सकती है जिसे हम बाद में प्लॉट कर सकते हैं। यह बहुआयामी स्केलिंग के रूप में जाना जाता है ।
प्रधान घटक विश्लेषण बहुआयामी स्केलिंग का एक रूप है। यह चर का एक कम आयामी स्थान में एक रैखिक परिवर्तन है जो चर की अधिकतम जानकारी को बनाए रखता है। उदाहरण के लिए, इसका मतलब यह होगा कि हम उन विषयों के प्रकारों को देख सकते हैं जो प्रत्येक छात्र शायद अधिक अनुकूल हैं।
एक प्रमुख घटक इसलिए रैखिक परिवर्तन के बाद मूल चर का एक संयोजन है। आर में, यह है:
DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)
जो आपको कुछ इस तरह देगा (केवल सरलता के लिए पहले दो प्रमुख घटक):
PC1 PC2
Maths 0.27795606 0.76772853
Science -0.17428077 -0.08162874
English -0.94200929 0.19632732
Music 0.07060547 -0.60447104
यहाँ पहला कॉलम रैखिक संयोजन के गुणांक दिखाता है जो मुख्य घटक # 1 को परिभाषित करता है, और दूसरा स्तंभ मुख्य घटक # 2 के लिए गुणांक दिखाता है।
तो एक प्रधान घटक स्कोर क्या है?
यह इस पोस्ट के अंत में तालिका से एक अंक है (नीचे देखें)।
आर से उपरोक्त आउटपुट का मतलब है कि अब हम एक व्यक्ति के सभी विषयों को 2 डी ग्राफ़ में निम्नानुसार प्लॉट कर सकते हैं। सबसे पहले, हमें मूल प्रकारों को मेरे घटाव स्तंभ के केंद्र में रखने की आवश्यकता है:
Maths Science English Music
John -8.33 1.66 3.33 5
Mike 1.66 1.66 13.33 -5
Kate 6.66 -3.33 -16.66 0
और फिर PC1 और PC2 स्कोर पाने के लिए रैखिक संयोजन बनाएं :
x y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33 + 0.07*5 -0.77*8.33 + -0.08*1.66 + 0.19*3.33 + -0.60*5
Mike 0.28*1.66 + -0.17*1.66 + -0.94*13.33 + -0.07*5 0.77*1.66 + -0.08*1.66 + 0.19*13.33 + -0.60*5
Kate 0.28*6.66 + 0.17*3.33 + 0.94*16.66 + 0.07*0 0.77*6.66 + 0.08*3.33 + -0.19*16.66 + -0.60*0
जो सरल करता है:
x y
John -5.39 -8.90
Mike -12.74 6.78
Kate 18.13 2.12
कर रहे हैं छह प्रमुख घटक स्कोर उपरोक्त तालिका में। अब आप एक 2D ग्राफ में प्राप्तांकों की साजिश कर सकते हैं ताकि उन विषयों के प्रकार का बोध हो सके जो प्रत्येक छात्र शायद अधिक अनुकूल हैं।
टाइप करके R में समान आउटपुट प्राप्त किया जा सकता है prcomp(DF, scale = FALSE)$x
।
संपादित करें 1: हम्म, मैं शायद एक बेहतर उदाहरण सोच सकता था, और जो मैंने यहां रखा है, उससे कहीं अधिक है, लेकिन मुझे आशा है कि आपको यह विचार मिलेगा।
EDIT 2: इस उत्तर को बेहतर बनाने में उनकी टिप्पणी के लिए @drpaulbrewer को पूरा श्रेय।
apply(dtf, 1, function(x) sum(scale(x)))
prcomp
आउटपुट के लिए फिट है । इससे पहले ऐसा नहीं था।
प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) एक लोकप्रिय तरीका है, जब आप मल्टीवेरिएट डेटा के साथ काम कर रहे हैं, तो विचरण का विश्लेषण करते हैं। आपके पास यादृच्छिक चर X1, X2, ... Xn हैं जो सभी डिग्री (सकारात्मक या नकारात्मक) अलग-अलग डिग्री के हैं, और आप चाहते हैं कि क्या हो रहा है की बेहतर समझ प्राप्त करें। पीसीए मदद कर सकता है
PCA आपको जो देता है वह Y1, Y2, ..., Yn (यानी वैरिएबल की समान संख्या) में परिवर्तनशील होता है, जो कि Xs का रैखिक संयोजन है। उदाहरण के लिए, आपके पास Y1 = 2.1 X1 - 1.76 X2 + 0.2 X3 हो सकता है ...
Ys अच्छी संपत्ति है कि इनमें से प्रत्येक एक दूसरे के साथ शून्य सहसंबंध है। बेहतर अभी भी, आप उन्हें विचरण के घटते क्रम में प्राप्त करते हैं। तो, वाई 1 "मूल चर के संस्करण का एक बड़ा हिस्सा" समझाता है, वाई 2 थोड़ा कम और इसी तरह। आमतौर पर पहले कुछ Ys के बाद, चर कुछ हद तक अर्थहीन हो जाते हैं। किसी भी शी के लिए पीसीए स्कोर सिर्फ यस में से प्रत्येक में गुणांक है। मेरे पहले उदाहरण में, पहले प्रमुख घटक (Y1) में X2 का स्कोर 1.76 है।
जिस तरह से पीसीए इस जादू को करता है वह कोवरियन मैट्रिक्स के आइजनवेक्टरों की गणना करता है।
एक ठोस उदाहरण देने के लिए, कल्पना कीजिए कि X1, ... X10 1 साल, 2 साल, ..., 10 साल के ट्रेजरी बांड पैदावार में कुछ समय अवधि में बदलाव है। जब आप पीसीए की गणना करते हैं, तो आप आमतौर पर पाते हैं कि पहले घटक में एक ही चिह्न के प्रत्येक बांड के लिए और एक ही संकेत के बारे में स्कोर होते हैं। यह आपको बताता है कि बांड पैदावार में अधिकांश विचरण सब कुछ उसी तरह से आगे बढ़ने से होता है: ऊपर या नीचे "समानांतर बदलाव"। दूसरा घटक आम तौर पर वक्र की "खड़ी" और "सपाट" दिखाता है और इसमें X1 और X10 के विपरीत संकेत होते हैं।
PC1 > PC2 > ... > PCn
, और उनके वेरिएंट्स का योग प्रारंभिक वेरिएबल सेट के वेरिएंस के योग के बराबर होता है, क्योंकि पीसीए की गणना कोविर्सियस मैट्रिक्स पर की जाती है, अर्थात वेरिएबल्स को मानकीकृत किया जाता है (एसडी = 1, वीएआर = 1)।
मान लीजिए कि आपके पास एन पॉइंट्स का एक बादल है, जैसे कि 3D (जिसे 100x3 सरणी में सूचीबद्ध किया जा सकता है)। फिर, प्रमुख घटक विश्लेषण (पीसीए) डेटा में एक मनमाने ढंग से उन्मुख दीर्घवृत्ताकार फिट बैठता है। मुख्य घटक स्कोर दीर्घवृत्त के व्यास की लंबाई है।
जिस दिशा में व्यास बड़ा होता है, उस दिशा में डेटा बहुत भिन्न होता है, जबकि जिस दिशा में व्यास छोटा होता है, वह डेटा अलग-अलग होता है। यदि आप एनडी डेटा को 2-डी स्कैटर प्लॉट में प्रोजेक्ट करना चाहते हैं, तो आप उन्हें दो सबसे बड़े प्रिंसिपल कंपोनेंट्स के साथ प्लॉट करते हैं, क्योंकि उस एप्रोच के साथ आप डेटा में अधिकांश वेरिएशन प्रदर्शित करते हैं।
मुझे प्रिंसिपल कंपोनेंट स्कोर को "मूल रूप से अर्थहीन" समझना पसंद है जब तक कि आप वास्तव में उन्हें कुछ अर्थ नहीं देते। "वास्तविकता" के संदर्भ में पीसी स्कोर की व्याख्या करना एक मुश्किल व्यवसाय है - और वास्तव में इसे करने का कोई अनूठा तरीका नहीं हो सकता है। यह इस बात पर निर्भर करता है कि आप पीसीए में जाने वाले विशेष चरों के बारे में क्या जानते हैं, और वे व्याख्या के संदर्भ में एक दूसरे से कैसे संबंधित हैं।
जहां तक गणित जाता है, मुझे मुख्य घटक अक्षों के संबंध में प्रत्येक बिंदु के समन्वय के रूप में पीसी स्कोर की व्याख्या करना पसंद है। तो कच्चे चर में आपके पास जो p- आयामी स्थान में एक "बिंदु" है। इन निर्देशांक में, इसका अर्थ है अक्ष के साथ बिंदु मूल से दूरी है। अब एक पीसीए मूल रूप से इस "बिंदु" का वर्णन करने का एक अलग तरीका है - "प्रमुख चर अक्ष" के बजाय "कच्चे चर" अक्ष के संबंध में। तो हमारे पास , जहां है प्रमुख घटक भार (अर्थात प्रत्येक पंक्ति में eigenvectors) का मैट्रिक्स, और डेटा का "सेंट्रोइड" (या डेटा बिंदुओं का मतलब वेक्टर) है।
तो आप आइजनवेक्टरों के बारे में सोच सकते हैं कि पीसी का वर्णन करने वाली "सीधी रेखाएं" कहां हैं। फिर प्रिंसिपल कंपोनेंट स्कोर का वर्णन करता है कि प्रत्येक डेटा बिंदु डेटा के "सेंट्रीओड" के सापेक्ष प्रत्येक सीधी रेखा पर स्थित है। आप मूल डेटा बिंदुओं में से प्रत्येक के लिए रैंक 1 भविष्यवाणियों की एक श्रृंखला के रूप में वजन / eigenvectors के साथ संयोजन में पीसी स्कोर के बारे में भी सोच सकते हैं:
जहाँ वें अवलोकन के लिए भविष्यवाणी है , वें पीसी का उपयोग करके वें चर के लिए ।
एक डेटा मैट्रिक्स के प्रमुख घटक इसके विचरण-सहसंयोजक मैट्रिक्स के eigenvector-eigenvalue जोड़े हैं। संक्षेप में, वे विचरण के सजावटी टुकड़े हैं। प्रत्येक एक अवलोकन के लिए चर का एक रैखिक संयोजन है - मान लीजिए कि आप प्रत्येक विषय पर w, x, y, z मापते हैं। आपका पहला पीसी कुछ इस तरह से काम कर सकता है
0.5w + 4x + 5y - 1.5z
यहाँ लोडिंग (eigenvectors) हैं (0.5, 4, 5, -1.5)। प्रत्येक अवलोकन के लिए स्कोर (eigenvalue) परिणामी मूल्य है जब आप अवलोकन (w, x, y, z) में स्थानापन्न करते हैं और कुल की गणना करते हैं।
यह तब काम आता है जब आप चीजों को उनके प्रमुख घटकों (जैसे, बाहर का पता लगाना) के लिए प्रोजेक्ट करते हैं, क्योंकि आप हर किसी पर स्कोर को प्लॉट करते हैं जैसे आप किसी अन्य डेटा को। यह आपके डेटा के बारे में बहुत कुछ प्रकट कर सकता है यदि बहुत अधिक प्रसरण सहसंबंधित हो (पहले कुछ पीसी में ==)।
चलो सूचकांक पंक्तियों और सूचकांक कॉलम। मान लीजिए कि आप चर (कॉलम) के संयोजन को रैखिक करते हैं:
उपर्युक्त सूत्र मूल रूप से एक निश्चित मूल्य (लोडिंग) के साथ पंक्ति तत्वों को गुणा करने और स्तंभों द्वारा उन्हें योग करने के लिए कहता है । परिणामी मान ( लोडिंग के समय मान) स्कोर हैं।वाई
एक प्रमुख घटक (पीसी) एक रैखिक संयोजन ) है (स्तंभों द्वारा मान जिन्हें स्कोर कहा जाता है)। संक्षेप में, पीसी को चर (कॉलम) की सबसे महत्वपूर्ण विशेषताएं प्रस्तुत करनी चाहिए। एर्गो, आप कई पीसी निकाल सकते हैं क्योंकि चर (या कम) हैं।
पीसीए पर आर से एक आउटपुट (एक नकली उदाहरण) इस तरह दिखता है। PC1, PC2 ... प्रमुख घटक हैं 1, 2 ... नीचे दिया गया उदाहरण केवल पहले 8 प्रमुख घटक (17 में से) दिखा रहा है। आप पीसीए से अन्य तत्वों को भी निकाल सकते हैं, जैसे लोडिंग और स्कोर।
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
Standard deviation 1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion 0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129
प्रिंसिपल कंपोनेंट स्कोर एक प्रिंसिपल कंपोनेंट्स एनालिसिस (पीसीए) के बाद प्राप्त होने वाले अंकों का एक समूह होता है। पीसीए में अंकों के समूह के बीच संबंधों का विश्लेषण इस तरह किया जाता है कि समान संख्या में नए "काल्पनिक" चर (उर्फ सिद्धांत घटक) बनाए जाते हैं। इन नए काल्पनिक चर में से सबसे पहले मूल रूप से चर के सभी मूल समूह के साथ सहसंबद्ध है। अगला कुछ हद तक कम सहसंबद्ध है, और इस बिंदु तक यह है कि यदि आप प्रारंभिक समूह के किसी भी दिए गए चर की भविष्यवाणी करने के लिए सभी प्रमुख घटक स्कोर का उपयोग करते हैं, तो आप इसके सभी संस्करण की व्याख्या करने में सक्षम होंगे। जिस तरह से पीसीए आय जटिल है और इसमें कुछ प्रतिबंध हैं। इनमें से यह प्रतिबंध है कि किसी भी दो प्रमुख घटकों (यानी काल्पनिक चर) के बीच संबंध शून्य है; इस प्रकार यह नहीं है '