सहसंबंध या covariance पर पीसीए?


153

सहसंबंध मैट्रिक्स पर और सहसंयोजक मैट्रिक्स पर प्रमुख घटक विश्लेषण (पीसीए) करने के बीच मुख्य अंतर क्या हैं? क्या वे समान परिणाम देते हैं?


2
एक देर से जवाब, लेकिन आप ल्योन के जैव सूचना विज्ञान विभाग पर मल्टीवाइरेट डेटा विश्लेषण "आ ला फ्रैंकेइस" पर बहुत उपयोगी हैंडआउट्स पा सकते हैं । ये आर एडी 4 पैकेज के लेखकों से आते हैं । यह फ्रेंच में है, हालांकि।
chl

3
अतिरिक्त चर्चा के लिए, कृपया आंकड़े . stackexchange.com/questions/62677/… पर जाएं
whuber

जवाबों:


130

जब आप चर पैमाने समान होते हैं और सहसंबंध मैट्रिक्स तब भिन्न होते हैं जब चर अलग-अलग पैमाने पर होते हैं।

सहसंबंध मैट्रिक्स का उपयोग करना चर के प्रत्येक मानकीकरण के बराबर है (मतलब 0 और मानक विचलन 1)। सामान्य तौर पर, मानकीकरण के साथ और बिना पीसीए अलग परिणाम देगा। खासकर जब तराजू अलग हो।

एक उदाहरण के रूप में, इस आर heptathlonडेटा सेट पर एक नज़र डालें । कुछ चरों का औसत मान लगभग 1.8 (ऊंची छलांग) है, जबकि अन्य चर (800 मी) रन 120 के आसपास हैं।

library(HSAUR)
heptathlon[,-8]      # look at heptathlon data (excluding 'score' variable)

यह आउटपुट:

                   hurdles highjump  shot run200m longjump javelin run800m
Joyner-Kersee (USA)   12.69     1.86 15.80   22.56     7.27   45.66  128.51
John (GDR)            12.85     1.80 16.23   23.65     6.71   42.56  126.12
Behmer (GDR)          13.20     1.83 14.20   23.10     6.68   44.54  124.20
Sablovskaite (URS)    13.61     1.80 15.23   23.92     6.25   42.78  132.24
Choubenkova (URS)     13.51     1.74 14.76   23.93     6.32   47.46  127.90
...

अब चलो covariance और सहसंबंध पर पीसीए करते हैं:

# scale=T bases the PCA on the correlation matrix
hep.PC.cor = prcomp(heptathlon[,-8], scale=TRUE)
hep.PC.cov = prcomp(heptathlon[,-8], scale=FALSE)

biplot(hep.PC.cov)
biplot(hep.PC.cor)  

सहसंबंध या सहसंयोजक पर पीसीए

run800mjavelinrun800m82%javelin97%64%71%

सूचना यह भी है कि सहकर्मी या सहसंबंध मैट्रिक्स का उपयोग किए जाने के बावजूद, इस व्यक्ति ( इस डेटा सेट में) आउटलेयर हैं।


अगर मैं पहले चर को z- स्कोर में परिवर्तित करता हूं, तो स्थिति क्या है?
Jirka-X1

9
@ Jirka-X1 मानकीकृत चर (यानी z स्कोर) के सहसंयोजक मैट्रिक्स सहसंबंध मैट्रिक्स के बराबर है।
एलेक्सिस

@ अलेक्सिस इसलिए यह अनुमान लगाया जा सकता है कि मानकीकृत चर का सहसंयोजक मैट्रिक्स मानकीकृत चर के सहसंबंध मैट्रिक्स के बराबर है?
jb

1
ΣRR=RXYrXYX=aX+bY=aY+b XYrXY)।
एलेक्सिस

एक महत्वपूर्ण सूचना: आपके पीसीए में सहसंयोजक का उपयोग करते समय, आपके पीसी एक दूसरे के बीच सहसंबद्ध नहीं होंगे, जो सहसंबंध आधारित पीसीए के लिए सही नहीं है। यह विशेष रूप से महत्वपूर्ण है जब व्याख्यात्मक चर के एक बहुस्तरीय सेट में प्रतिगमन से पहले पीसीए प्रदर्शन करने का इरादा है। हालाँकि इसके पीछे का सिद्धांत स्पष्ट नहीं है। क्या कोई इस अंतर पर कुछ प्रकाश डाल सकता है?
Ouranos

54

बर्नार्ड फ्लुरी ने अपनी उत्कृष्ट पुस्तक में बहुभिन्नरूपी विश्लेषण की शुरुआत करते हुए इसे प्रधान घटकों का एक विरोधी गुण बताया। यह वास्तव में सहसंबंध या सह-अस्तित्व के बीच चयन करने से भी बदतर है। यदि आपने इकाइयाँ बदल दी हैं (जैसे यूएस स्टाइल गैलन, इंच आदि और यूरोपीय संघ शैली लीटर, सेंटीमीटर) तो आपको डेटा के अलग-अलग अनुमान मिलेंगे।

सहसंबंध मैट्रिक्स का उपयोग करने के खिलाफ तर्क यह है कि यह आपके डेटा को मानकीकृत करने का एक बहुत ही क्रूर तरीका है। स्वचालित रूप से सहसंयोजक मैट्रिक्स का उपयोग करने के साथ समस्या, जो कि हेप्टाथलॉन डेटा के साथ बहुत स्पष्ट है, यह है कि उच्चतम विचरण वाले चर पहले प्रमुख घटक (वैरिएशन अधिकतम संपत्ति) पर हावी होंगे।

तो "सबसे अच्छा" विधि का उपयोग करने के लिए एक व्यक्तिपरक विकल्प, सावधान सोचा और कुछ अनुभव पर आधारित है।


46

UNTRANSFORMED (RAW) DATA: यदि आपके पास कच्चे, अनियंत्रित डेटा के लिए व्यापक रूप से भिन्न पैमानों के साथ चर हैं, अर्थात, प्रति दिन कैलोरी की मात्रा, जीन अभिव्यक्ति, कुरूप / dl, इकाइयों के एलिसा / ल्यूमिनेक्स में कई आदेशों के आधार पर, प्रोटीन अभिव्यक्ति की भयावहता, तो पीसीए के इनपुट के रूप में सहसंबंध का उपयोग करें। हालाँकि, यदि आपके सभी डेटा समान रेंज और स्केल के साथ एक ही प्लेटफ़ॉर्म से उदाहरण के लिए जीन एक्सप्रेशन पर आधारित हैं, या आप लॉग इक्विटी एसेट रिटर्न के साथ काम कर रहे हैं, तो सहसंबंध का उपयोग करके जानकारी का एक जबरदस्त मात्रा में फेंक दिया जाएगा।

आरCCR10010C1R

Zसी

Rसी

(P<0.05)n=100

  1. Ri=1,2,,100.
  2. pcti=Ri/(n+1)
  3. N(0,1)ZZi=Φ1(pcti)

pcti1.96=Φ1(0.025)pcti=0.9751.96=Φ1(0.975)

VDW स्कोर का उपयोग आनुवंशिकी में बहुत लोकप्रिय है, जहां कई चर VDW स्कोर में बदल जाते हैं, और फिर विश्लेषण में इनपुट होते हैं। वीडीडब्ल्यू स्कोर का उपयोग करने का लाभ यह है कि डेटा से तिरछापन और बाहरी प्रभाव को हटा दिया जाता है, और इसका उपयोग तब किया जा सकता है यदि लक्ष्य सामान्यता के संदर्भों के तहत एक विश्लेषण करने के लिए है - और प्रत्येक चर को बिना किसी तिरछेपन के विशुद्ध रूप से मानक सामान्य वितरित करने की आवश्यकता है या आउटलेयर।


7
यह अब तक का सबसे समझदार उत्तर है, क्योंकि यह वास्तव में एक उचित दृष्टिकोण देता है कि उपयुक्त होने पर कोवरियस जीतता है। यहाँ और बहुत से उत्तर कहीं और सामान्य रूप से "यह निर्भर करता है" का उल्लेख करते हैं कि वास्तव में एक कठिन आधार देने के लिए कि क्यों संभव हो तो सहसंयोजक को प्राथमिकता दें । यहाँ लैप करता है: सहसंयोजक जानकारी के किसी भी बाहर चक नहीं करता है जो सहसंबंध करता है। स्टॉक डेटा उदाहरण एक अच्छा है: उच्च बीटा स्टॉक में निश्चित रूप से उच्च लोडिंग होगी, लेकिन उन्हें संभवतः किसी भी विश्लेषण के किसी भी पहलू की तरह होना चाहिए , जो अधिक अस्थिर है आमतौर पर अधिक दिलचस्प होता है (कारण के भीतर)।
थॉमस ब्राउन

3
निश्चित रूप से हाथ में समस्या का विश्लेषण किया जाना चाहिए कि क्या उच्च विचरण विश्लेषण का एक दिलचस्प पहलू है या नहीं। यदि यह नहीं है, तो निश्चित रूप से सहसंबंध बेहतर है, और यदि निश्चित रूप से इकाइयां भिन्न हैं, तो यह निश्चित है।
थॉमस ब्राउन

शानदार जवाब +1। मुझे लगता है कि वित्त में बांड पैदावार पर संरचना विश्लेषण के लिए पीसीए लागू करने का एक और उदाहरण हो सकता है। विभिन्न परिपक्वताओं पर पैदावार की मात्रा भिन्न होती है, लेकिन चूंकि वे सभी पैदावार हैं, इसलिए अलग-अलग तराजू आमतौर पर अस्वीकार्य रूप से व्यापक नहीं होते हैं। वास्तव में, कुछ परिपक्वता उपज की अधिक / कम अस्थिरता ही समृद्ध जानकारी प्रदान करती है।
निकोलस

11

एक सामान्य उत्तर यह सुझाव देना है कि कोवरियन का उपयोग तब किया जाता है जब चर एक ही पैमाने पर होते हैं, और उनके तराजू अलग होने पर सहसंबंध। हालाँकि, यह केवल तभी सत्य है जब चरों का पैमाना कोई कारक नहीं है। अन्यथा, कोई भी कभी भी पीसीए कोवरियन क्यों करेगा? यह हमेशा संबंध पीसीए प्रदर्शन करने के लिए सुरक्षित होगा।

कल्पना कीजिए कि आपके चर में माप की अलग-अलग इकाइयाँ हैं, जैसे कि मीटर और किलोग्राम। इससे कोई फर्क नहीं पड़ता कि आप इस मामले में मीटर या सेंटीमीटर का उपयोग करते हैं, इसलिए आप तर्क दे सकते हैं कि सहसंबंध मैट्रिक्स का उपयोग किया जाना चाहिए।

अब विभिन्न राज्यों में लोगों की जनसंख्या पर विचार करें। माप की इकाइयां समान हैं - लोगों की संख्या (संख्या)। अब, तराजू अलग हो सकता है: डीसी में 600K और CA - 38M लोग हैं। क्या हमें यहाँ सहसंबंध मैट्रिक्स का उपयोग करना चाहिए? निर्भर करता है। कुछ अनुप्रयोगों में हम राज्य के आकार के लिए समायोजित करना चाहते हैं। सहसंयोजक मैट्रिक्स का उपयोग करना उन कारकों के निर्माण का एक तरीका है जो राज्य के आकार के लिए जिम्मेदार हैं।

इसलिए, मेरा उत्तर यह है कि जब मूल चर का विचलन महत्वपूर्ण हो, तो सहसंयोजक मैट्रिक्स का उपयोग करें और जब यह न हो तो सहसंबंध का उपयोग करें।


2

मैं व्यक्तिगत रूप से अधिकतम-संभावित प्रमुख घटक विश्लेषण मॉडल (MLPCA) [1,2] के प्रकाश में इन विकल्पों पर चर्चा करना बहुत मूल्यवान समझता हूं। MLPCA में एक स्केलिंग (या यहां तक ​​कि एक रोटेशन) लागू होता है जैसे कि मापित चर में माप त्रुटियां स्वतंत्र और मानक सामान्य वितरण के अनुसार वितरित की जाती हैं। इस स्केलिंग को अधिकतम संभावना स्केलिंग (MALS) [3] के रूप में भी जाना जाता है। कुछ मामलों में, PCA मॉडल और MALS स्केलिंग / रोटेशन को परिभाषित करने वाले पैरामीटर का एक साथ अनुमान लगाया जा सकता है [4]।

सहसंबंध-आधारित और सह-आधारित पीसीए की व्याख्या करने के लिए, कोई भी यह तर्क दे सकता है कि:

  1. Covariance- आधारित PCA, MLPCA के बराबर होता है, जब भी माप त्रुटियों के विचरण-सहसंयोजक मैट्रिक्स को इसके विकर्ण पर समान तत्वों के साथ विकर्ण मान लिया जाता है। तब माप त्रुटि विचरण पैरामीटर का अनुमान संभाव्य प्रधान घटक विश्लेषण (PPCA) मॉडल [5] लगाकर लगाया जा सकता है। मुझे लगता है कि मैंने कई मामलों में इसका उचित अनुमान लगाया है, खासकर जब सभी माप एक ही प्रकार के चर के होते हैं (जैसे सभी प्रवाह, सभी तापमान, सभी सांद्रता, या सभी अवशोषण माप)। वास्तव में, यह मान लेना सुरक्षित हो सकता है कि इस तरह के चरों के लिए माप त्रुटियों को स्वतंत्र और पहचान के रूप में वितरित किया जाता है।
  2. सहसंबंध आधारित पीसीए MLPCA के बराबर होता है जब भी माप त्रुटियों के विचरण-सहसंयोजक मैट्रिक्स को प्रत्येक तत्व के साथ विकर्ण पर इसी मापा चर के समग्र रूपांतर के लिए आनुपातिक माना जाता है। हालांकि यह एक लोकप्रिय तरीका है, मैं व्यक्तिगत रूप से उन अधिकांश मामलों में आनुपातिक धारणा को अनुचित मानता हूं जिनका मैं अध्ययन करता हूं। एक परिणाम के रूप में, इसका मतलब है कि मैं एक MLPCA मॉडल के रूप में सहसंबंध-आधारित PCA की व्याख्या नहीं कर सकता। उन मामलों में जहां (1) सहसंयोजक-आधारित PCA की निहित धारणाएं लागू नहीं होती हैं और (2) एक MLPCA व्याख्या मूल्यवान है, मैं इसके बजाय 1-1] MLPCA विधियों में से एक का उपयोग करने की सलाह देता हूं।
  3. सहसंबंध-आधारित और सहसंयोजक-आधारित PCA एक स्केलर गुणक से सटीक एक ही परिणाम -पार्ट उत्पन्न करेगा- जब प्रत्येक चर के लिए अलग-अलग संस्करण सभी एक-दूसरे के बिल्कुल समान होते हैं। जब ये अलग-अलग संस्करण समान हैं, लेकिन समान नहीं हैं, तो दोनों विधियां समान परिणाम उत्पन्न करेंगी।

जैसा कि पहले ही ऊपर बताया गया है, अंतिम विकल्प आपके द्वारा की जा रही मान्यताओं पर निर्भर करता है। इसके अलावा, किसी विशेष मॉडल की उपयोगिता आपके विश्लेषण के संदर्भ और उद्देश्य पर भी निर्भर करती है। जॉर्ज ईपी बॉक्स को उद्धृत करने के लिए: "सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं"।

[1] वेन्त्ज़ेल, पीडी, एंड्रयूज, डीटी, हैमिल्टन, डीसी, फेबर, के। और कोवाल्स्की, बीआर (१ ९९ z)। अधिकतम संभावना प्रधान घटक विश्लेषण। केमोमेट्रिक्स जर्नल, 11 (4), 339-366।

[२] वेन्त्ज़ेल, पीडी और लोहन्स, एमटी (१ ९९९)। सहसंबद्ध माप त्रुटियों के साथ अधिकतम संभावना प्रधान घटक विश्लेषण: सैद्धांतिक और व्यावहारिक विचार। केमोमेट्रिक्स और इंटेलिजेंट लेबोरेटरी सिस्टम, 45 (1-2), 65-85।

[३] होफ़्सलोत, एचसी, वेरौडेन, एमपी, वेस्टरहुइस, जेए, और स्मिल्ड, एके (२००६)। अधिकतम संभावना स्केलिंग (MALS)। केमोमेट्रिक्स जर्नल, 20 (3‐4), 120-127।

[४] नरसिम्हन, एस।, और शाह, एसएल (२००))। पीसीए का उपयोग करके शोर डेटा से मॉडल की पहचान और त्रुटि सहसंयोजक मैट्रिक्स का अनुमान। नियंत्रण इंजीनियरिंग अभ्यास, 16 (1), 146-155।

[५] टिपिंग, एमई, और बिशप, सीएम (१ ९९९)। संभाव्य प्रमुख घटक विश्लेषण। रॉयल स्टैटिस्टिकल सोसाइटी का जर्नल: सीरीज़ बी (सांख्यिकी पद्धति), 61 (3), 611-622।


-1

सीधे और सरल: यदि तराजू समान उपयोग कोव-पीसीए हैं, यदि नहीं, तो कॉर-पीसीए का उपयोग करें; अन्यथा, आपके पास बेहतर नहीं के लिए एक रक्षा है। यदि संदेह है, तो variances (ANOVA) की समानता के लिए एक एफ-परीक्षण का उपयोग करें। यदि यह एफ-परीक्षण में विफल रहता है, तो क्रॉस का उपयोग करें; अन्यथा, कोव का उपयोग करें।


2
-1। मैं यह नहीं देखता कि एफ-टेस्ट चलाना यहाँ प्रासंगिक क्यों हो सकता है। पीसीए एक खोजपूर्ण विधि है, न कि एक पुष्टिकारक (जैसा कि सांख्यिकीय परीक्षण हैं)।
अमीबा

-5

बड़े पैमाने पर आधारित तर्क (समान भौतिक इकाइयों में व्यक्त चर के लिए) बल्कि कमजोर लगते हैं। (आयाम रहित) चर के एक सेट की कल्पना करें, जिसका मानक विचलन 0.001 और 0.1 के बीच भिन्न होता है। 1 के मानकीकृत मूल्य की तुलना में, ये दोनों 'छोटे' लगते हैं और उतार-चढ़ाव के तुलनीय स्तर होते हैं। हालाँकि, जब आप उन्हें डेसीबल में व्यक्त करते हैं, तो यह क्रमशः -60 डीबी के खिलाफ -10 और 0 डीबी की सीमा देता है। तब यह संभवत: तब एक 'बड़ी श्रेणी' के रूप में वर्गीकृत किया जाएगा - खासकर यदि आप 0 के करीब एक मानक विचलन शामिल करेंगे, अर्थात, माइनस इन्फिनिटी डीबी।

मेरा सुझाव होगा कि बीओटीएच एक सहसंबंध- और सह-आधारित पीसीए करे। यदि दोनों एक ही (या बहुत समान, जो भी इसका मतलब हो सकता है) पीसी देते हैं, तो आपको आश्वस्त किया जा सकता है कि आपको एक उत्तर मिला है जो अर्थपूर्ण है। यदि वे व्यापक रूप से अलग-अलग पीसी देते हैं तो पीसीए का उपयोग न करें, क्योंकि एक समस्या के दो अलग-अलग उत्तर प्रश्नों को हल करने का समझदार तरीका नहीं है।


9
(-1) "एक ही समस्या के लिए दो अलग-अलग उत्तर" प्राप्त करना अक्सर इसका मतलब है कि आप बिना किसी सोच-विचार के दूर कर रहे हैं कि इस विश्लेषणात्मक उद्देश्य के लिए कौन सी तकनीक उपयुक्त है। इसका मतलब यह नहीं है कि एक या (जैसा कि आप कहते हैं) दोनों तकनीक समझदार नहीं हैं, लेकिन केवल यह कि समस्या या डेटा के लिए कम से कम एक उपयुक्त नहीं हो सकता है। इसके अलावा, कई मामलों में आप अनुमान लगा सकते हैं कि सह-आधारित पीसीए और सहसंबंध आधारित पीसीए अलग - अलग उत्तर देने चाहिए । आखिरकार, वे डेटा के विभिन्न पहलुओं को माप रहे हैं। डिफ़ॉल्ट रूप से दोनों करने का कोई मतलब नहीं होगा।
whuber

वास्तव में पीसीए का सहसंबंध और सहूलियत के साथ उपयोग करते समय 2 अलग-अलग उत्तर प्राप्त करना बहुत उचित है। स्टॉक के मामले में, यह एक सवाल है कि क्या आपको betas (या मानक विचलन) को ध्यान में रखना चाहिए
Juancentro
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.