सहसंबंध मैट्रिक्स पर और सहसंयोजक मैट्रिक्स पर प्रमुख घटक विश्लेषण (पीसीए) करने के बीच मुख्य अंतर क्या हैं? क्या वे समान परिणाम देते हैं?
सहसंबंध मैट्रिक्स पर और सहसंयोजक मैट्रिक्स पर प्रमुख घटक विश्लेषण (पीसीए) करने के बीच मुख्य अंतर क्या हैं? क्या वे समान परिणाम देते हैं?
जवाबों:
जब आप चर पैमाने समान होते हैं और सहसंबंध मैट्रिक्स तब भिन्न होते हैं जब चर अलग-अलग पैमाने पर होते हैं।
सहसंबंध मैट्रिक्स का उपयोग करना चर के प्रत्येक मानकीकरण के बराबर है (मतलब 0 और मानक विचलन 1)। सामान्य तौर पर, मानकीकरण के साथ और बिना पीसीए अलग परिणाम देगा। खासकर जब तराजू अलग हो।
एक उदाहरण के रूप में, इस आर heptathlon
डेटा सेट पर एक नज़र डालें । कुछ चरों का औसत मान लगभग 1.8 (ऊंची छलांग) है, जबकि अन्य चर (800 मी) रन 120 के आसपास हैं।
library(HSAUR)
heptathlon[,-8] # look at heptathlon data (excluding 'score' variable)
यह आउटपुट:
hurdles highjump shot run200m longjump javelin run800m
Joyner-Kersee (USA) 12.69 1.86 15.80 22.56 7.27 45.66 128.51
John (GDR) 12.85 1.80 16.23 23.65 6.71 42.56 126.12
Behmer (GDR) 13.20 1.83 14.20 23.10 6.68 44.54 124.20
Sablovskaite (URS) 13.61 1.80 15.23 23.92 6.25 42.78 132.24
Choubenkova (URS) 13.51 1.74 14.76 23.93 6.32 47.46 127.90
...
अब चलो covariance और सहसंबंध पर पीसीए करते हैं:
# scale=T bases the PCA on the correlation matrix
hep.PC.cor = prcomp(heptathlon[,-8], scale=TRUE)
hep.PC.cov = prcomp(heptathlon[,-8], scale=FALSE)
biplot(hep.PC.cov)
biplot(hep.PC.cor)
run800m
javelin
run800m
javelin
सूचना यह भी है कि सहकर्मी या सहसंबंध मैट्रिक्स का उपयोग किए जाने के बावजूद, इस व्यक्ति ( इस डेटा सेट में) आउटलेयर हैं।
बर्नार्ड फ्लुरी ने अपनी उत्कृष्ट पुस्तक में बहुभिन्नरूपी विश्लेषण की शुरुआत करते हुए इसे प्रधान घटकों का एक विरोधी गुण बताया। यह वास्तव में सहसंबंध या सह-अस्तित्व के बीच चयन करने से भी बदतर है। यदि आपने इकाइयाँ बदल दी हैं (जैसे यूएस स्टाइल गैलन, इंच आदि और यूरोपीय संघ शैली लीटर, सेंटीमीटर) तो आपको डेटा के अलग-अलग अनुमान मिलेंगे।
सहसंबंध मैट्रिक्स का उपयोग करने के खिलाफ तर्क यह है कि यह आपके डेटा को मानकीकृत करने का एक बहुत ही क्रूर तरीका है। स्वचालित रूप से सहसंयोजक मैट्रिक्स का उपयोग करने के साथ समस्या, जो कि हेप्टाथलॉन डेटा के साथ बहुत स्पष्ट है, यह है कि उच्चतम विचरण वाले चर पहले प्रमुख घटक (वैरिएशन अधिकतम संपत्ति) पर हावी होंगे।
तो "सबसे अच्छा" विधि का उपयोग करने के लिए एक व्यक्तिपरक विकल्प, सावधान सोचा और कुछ अनुभव पर आधारित है।
UNTRANSFORMED (RAW) DATA: यदि आपके पास कच्चे, अनियंत्रित डेटा के लिए व्यापक रूप से भिन्न पैमानों के साथ चर हैं, अर्थात, प्रति दिन कैलोरी की मात्रा, जीन अभिव्यक्ति, कुरूप / dl, इकाइयों के एलिसा / ल्यूमिनेक्स में कई आदेशों के आधार पर, प्रोटीन अभिव्यक्ति की भयावहता, तो पीसीए के इनपुट के रूप में सहसंबंध का उपयोग करें। हालाँकि, यदि आपके सभी डेटा समान रेंज और स्केल के साथ एक ही प्लेटफ़ॉर्म से उदाहरण के लिए जीन एक्सप्रेशन पर आधारित हैं, या आप लॉग इक्विटी एसेट रिटर्न के साथ काम कर रहे हैं, तो सहसंबंध का उपयोग करके जानकारी का एक जबरदस्त मात्रा में फेंक दिया जाएगा।
VDW स्कोर का उपयोग आनुवंशिकी में बहुत लोकप्रिय है, जहां कई चर VDW स्कोर में बदल जाते हैं, और फिर विश्लेषण में इनपुट होते हैं। वीडीडब्ल्यू स्कोर का उपयोग करने का लाभ यह है कि डेटा से तिरछापन और बाहरी प्रभाव को हटा दिया जाता है, और इसका उपयोग तब किया जा सकता है यदि लक्ष्य सामान्यता के संदर्भों के तहत एक विश्लेषण करने के लिए है - और प्रत्येक चर को बिना किसी तिरछेपन के विशुद्ध रूप से मानक सामान्य वितरित करने की आवश्यकता है या आउटलेयर।
एक सामान्य उत्तर यह सुझाव देना है कि कोवरियन का उपयोग तब किया जाता है जब चर एक ही पैमाने पर होते हैं, और उनके तराजू अलग होने पर सहसंबंध। हालाँकि, यह केवल तभी सत्य है जब चरों का पैमाना कोई कारक नहीं है। अन्यथा, कोई भी कभी भी पीसीए कोवरियन क्यों करेगा? यह हमेशा संबंध पीसीए प्रदर्शन करने के लिए सुरक्षित होगा।
कल्पना कीजिए कि आपके चर में माप की अलग-अलग इकाइयाँ हैं, जैसे कि मीटर और किलोग्राम। इससे कोई फर्क नहीं पड़ता कि आप इस मामले में मीटर या सेंटीमीटर का उपयोग करते हैं, इसलिए आप तर्क दे सकते हैं कि सहसंबंध मैट्रिक्स का उपयोग किया जाना चाहिए।
अब विभिन्न राज्यों में लोगों की जनसंख्या पर विचार करें। माप की इकाइयां समान हैं - लोगों की संख्या (संख्या)। अब, तराजू अलग हो सकता है: डीसी में 600K और CA - 38M लोग हैं। क्या हमें यहाँ सहसंबंध मैट्रिक्स का उपयोग करना चाहिए? निर्भर करता है। कुछ अनुप्रयोगों में हम राज्य के आकार के लिए समायोजित करना चाहते हैं। सहसंयोजक मैट्रिक्स का उपयोग करना उन कारकों के निर्माण का एक तरीका है जो राज्य के आकार के लिए जिम्मेदार हैं।
इसलिए, मेरा उत्तर यह है कि जब मूल चर का विचलन महत्वपूर्ण हो, तो सहसंयोजक मैट्रिक्स का उपयोग करें और जब यह न हो तो सहसंबंध का उपयोग करें।
मैं व्यक्तिगत रूप से अधिकतम-संभावित प्रमुख घटक विश्लेषण मॉडल (MLPCA) [1,2] के प्रकाश में इन विकल्पों पर चर्चा करना बहुत मूल्यवान समझता हूं। MLPCA में एक स्केलिंग (या यहां तक कि एक रोटेशन) लागू होता है जैसे कि मापित चर में माप त्रुटियां स्वतंत्र और मानक सामान्य वितरण के अनुसार वितरित की जाती हैं। इस स्केलिंग को अधिकतम संभावना स्केलिंग (MALS) [3] के रूप में भी जाना जाता है। कुछ मामलों में, PCA मॉडल और MALS स्केलिंग / रोटेशन को परिभाषित करने वाले पैरामीटर का एक साथ अनुमान लगाया जा सकता है [4]।
सहसंबंध-आधारित और सह-आधारित पीसीए की व्याख्या करने के लिए, कोई भी यह तर्क दे सकता है कि:
जैसा कि पहले ही ऊपर बताया गया है, अंतिम विकल्प आपके द्वारा की जा रही मान्यताओं पर निर्भर करता है। इसके अलावा, किसी विशेष मॉडल की उपयोगिता आपके विश्लेषण के संदर्भ और उद्देश्य पर भी निर्भर करती है। जॉर्ज ईपी बॉक्स को उद्धृत करने के लिए: "सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं"।
[1] वेन्त्ज़ेल, पीडी, एंड्रयूज, डीटी, हैमिल्टन, डीसी, फेबर, के। और कोवाल्स्की, बीआर (१ ९९ z)। अधिकतम संभावना प्रधान घटक विश्लेषण। केमोमेट्रिक्स जर्नल, 11 (4), 339-366।
[२] वेन्त्ज़ेल, पीडी और लोहन्स, एमटी (१ ९९९)। सहसंबद्ध माप त्रुटियों के साथ अधिकतम संभावना प्रधान घटक विश्लेषण: सैद्धांतिक और व्यावहारिक विचार। केमोमेट्रिक्स और इंटेलिजेंट लेबोरेटरी सिस्टम, 45 (1-2), 65-85।
[३] होफ़्सलोत, एचसी, वेरौडेन, एमपी, वेस्टरहुइस, जेए, और स्मिल्ड, एके (२००६)। अधिकतम संभावना स्केलिंग (MALS)। केमोमेट्रिक्स जर्नल, 20 (3‐4), 120-127।
[४] नरसिम्हन, एस।, और शाह, एसएल (२००))। पीसीए का उपयोग करके शोर डेटा से मॉडल की पहचान और त्रुटि सहसंयोजक मैट्रिक्स का अनुमान। नियंत्रण इंजीनियरिंग अभ्यास, 16 (1), 146-155।
[५] टिपिंग, एमई, और बिशप, सीएम (१ ९९९)। संभाव्य प्रमुख घटक विश्लेषण। रॉयल स्टैटिस्टिकल सोसाइटी का जर्नल: सीरीज़ बी (सांख्यिकी पद्धति), 61 (3), 611-622।
सीधे और सरल: यदि तराजू समान उपयोग कोव-पीसीए हैं, यदि नहीं, तो कॉर-पीसीए का उपयोग करें; अन्यथा, आपके पास बेहतर नहीं के लिए एक रक्षा है। यदि संदेह है, तो variances (ANOVA) की समानता के लिए एक एफ-परीक्षण का उपयोग करें। यदि यह एफ-परीक्षण में विफल रहता है, तो क्रॉस का उपयोग करें; अन्यथा, कोव का उपयोग करें।
बड़े पैमाने पर आधारित तर्क (समान भौतिक इकाइयों में व्यक्त चर के लिए) बल्कि कमजोर लगते हैं। (आयाम रहित) चर के एक सेट की कल्पना करें, जिसका मानक विचलन 0.001 और 0.1 के बीच भिन्न होता है। 1 के मानकीकृत मूल्य की तुलना में, ये दोनों 'छोटे' लगते हैं और उतार-चढ़ाव के तुलनीय स्तर होते हैं। हालाँकि, जब आप उन्हें डेसीबल में व्यक्त करते हैं, तो यह क्रमशः -60 डीबी के खिलाफ -10 और 0 डीबी की सीमा देता है। तब यह संभवत: तब एक 'बड़ी श्रेणी' के रूप में वर्गीकृत किया जाएगा - खासकर यदि आप 0 के करीब एक मानक विचलन शामिल करेंगे, अर्थात, माइनस इन्फिनिटी डीबी।
मेरा सुझाव होगा कि बीओटीएच एक सहसंबंध- और सह-आधारित पीसीए करे। यदि दोनों एक ही (या बहुत समान, जो भी इसका मतलब हो सकता है) पीसी देते हैं, तो आपको आश्वस्त किया जा सकता है कि आपको एक उत्तर मिला है जो अर्थपूर्ण है। यदि वे व्यापक रूप से अलग-अलग पीसी देते हैं तो पीसीए का उपयोग न करें, क्योंकि एक समस्या के दो अलग-अलग उत्तर प्रश्नों को हल करने का समझदार तरीका नहीं है।