सहसंबंध या सहसंयोजन पर पीसीए: क्या सहसंबंध पर पीसीए कभी समझ में आता है? [बन्द है]


32

प्रमुख घटक विश्लेषण (पीसीए) में, कोई भी घटकों को खोजने के लिए सहसंयोजक मैट्रिक्स या सहसंबंध मैट्रिक्स चुन सकता है (अपने संबंधित eigenvectors से)। ये अलग-अलग परिणाम (पीसी लोडिंग और स्कोर) देते हैं, क्योंकि दोनों मैट्रिसेस के बीच आइजनवेक्टर समान नहीं हैं। मेरी समझ यह है कि यह इस तथ्य के कारण होता है कि एक कच्चा डेटा वेक्टर और इसका मानकीकरण जेड एक ऑर्थोगोनल परिवर्तन के माध्यम से संबंधित नहीं हो सकता है। गणितीय रूप से, समान मेट्रिसेस (अर्थात ऑर्थोगोनल ट्रांसफॉर्मेशन से संबंधित) में एक ही आइजनवायुल्स होते हैं, लेकिन जरूरी नहीं कि एक ही आइजनवेक्टर हों।XZ

यह मेरे मन में कुछ कठिनाइयों को जन्म देता है:

  1. क्या पीसीए वास्तव में समझ में आता है, यदि आप एक ही शुरुआती डेटा सेट के लिए दो अलग-अलग उत्तर प्राप्त कर सकते हैं, दोनों एक ही चीज़ को प्राप्त करने की कोशिश कर रहे हैं (= अधिकतम विचरण के दिशा-निर्देश)?

  2. सहसंबंध मैट्रिक्स के दृष्टिकोण का उपयोग करते समय, पीसी की गणना करने से पहले, प्रत्येक चर को अपने व्यक्तिगत मानक विचलन द्वारा मानकीकृत (स्केल) किया जा रहा है। कैसे, फिर भी, यह अभी भी अधिकतम विचरण की दिशाओं को खोजने के लिए समझ में आता है अगर डेटा पहले से ही अलग / पहले से स्केल किया गया हो? मुझे पता है कि पीसीए आधारित सहसंबंध बहुत सुविधाजनक है (मानकीकृत चर आयामहीन हैं, इसलिए उनके रैखिक संयोजनों को जोड़ा जा सकता है; अन्य फायदे व्यावहारिकता पर भी आधारित हैं), लेकिन क्या यह सही है?

यह मेरे लिए प्रतीत होता है कि कोवरियन आधारित पीसीए एकमात्र सही मायने में सही है (यहां तक ​​कि जब चर के अंतर बहुत भिन्न होते हैं), और यह कि जब भी इस संस्करण का उपयोग नहीं किया जा सकता है, तो सहसंबंध आधारित पीसीए का उपयोग नहीं किया जाना चाहिए।

मुझे पता है कि यह धागा है: सहसंबंध या covariance पर पीसीए? - लेकिन यह केवल एक व्यावहारिक समाधान खोजने पर ध्यान केंद्रित करता है, जो बीजगणितीय रूप से सही हो भी सकता है और नहीं भी।


4
मैं ईमानदार होने जा रहा हूं और आपको बताता हूं कि मैंने आपके प्रश्न को किसी बिंदु पर पढ़ना छोड़ दिया है। पीसीए समझ में आता है। हां, आप सहसंबंध या विचरण / सहसंयोजक मैट्रिक्स का उपयोग करने के लिए चुनते हैं, इसके आधार पर परिणाम भिन्न हो सकते हैं। यदि आपके चर को विभिन्न पैमानों पर मापा जाता है, तो सहसंबंध आधारित पीसीए को प्राथमिकता दी जाती है, लेकिन आप नहीं चाहते कि यह परिणाम पर हावी हो। कल्पना कीजिए कि यदि आपके पास चर की एक श्रृंखला है जो 0 से 1 तक है और फिर कुछ ऐसे हैं जिनमें बहुत बड़े मूल्य हैं (अपेक्षाकृत बोलना, जैसे 0 से 1000), चर के दूसरे समूह के साथ जुड़ा हुआ बड़ा विचरण हावी होगा।
पैट्रिक

4
लेकिन यह कई अन्य तकनीकों के साथ भी है और मुझे लगता है कि पैट्रिक की बात उचित है। इसके अलावा यह महज एक टिप्पणी थी, आक्रामक बनने की जरूरत नहीं। आम तौर पर, आप यह क्यों मानेंगे कि समस्या से निपटने के लिए एक सही "बीजगणितीय" सही तरीका होना चाहिए?
गाला

5
शायद आप पीसीए के बारे में गलत तरीके से सोच रहे हैं: यह सिर्फ एक परिवर्तन है, इसलिए इसके सही या गलत होने, या डेटा मॉडल के बारे में मान्यताओं पर निर्भर होने का कोई सवाल नहीं है - इसके विपरीत, कहें, प्रतिगमन या कारक विश्लेषण।
Scortchi - को पुनः स्थापित मोनिका

5
इस मामले की क्रूरता इस बात की गलतफहमी है कि मानकीकरण क्या करता है और पीसीए कैसे काम करता है। यह समझने योग्य है, क्योंकि पीसीए की एक अच्छी समझ के लिए उच्च-आयामी आकृतियों के दृश्य की आवश्यकता होती है। मैं यह सुनिश्चित करूंगा कि यह प्रश्न, किसी प्रकार की गलतफहमी के आधार पर कई अन्य प्रश्नों की तरह है, इसलिए यह एक अच्छा है और इसे खुला रहना चाहिए, क्योंकि इसका उत्तर उन सच्चाईयों को प्रकट कर सकता है, जो कई लोगों को पहले पूरी तरह से पसंद नहीं आई होंगी।
whuber

6
पीसीए कुछ भी "दावा" नहीं करता है। लोग पीसीए के बारे में दावे करते हैं और वास्तव में इसका उपयोग क्षेत्र के आधार पर बहुत अलग तरीके से करते हैं। इनमें से कुछ उपयोग मूर्खतापूर्ण या संदिग्ध हो सकते हैं, लेकिन यह मानने के लिए बहुत ज्ञानवर्धक नहीं लगता है कि तकनीक के एक एकल संस्करण को "बीजगणितीय रूप से सही" होना चाहिए, जो विश्लेषण के संदर्भ या लक्ष्य के संदर्भ में नहीं है।
गाला

जवाबों:


29

मुझे उम्मीद है कि आपके दो सवालों के ये जवाब आपकी चिंता को शांत करेंगे:

  1. एक सहसंबंध मैट्रिक्स मानकीकृत का एक सहसंयोजक मैट्रिक्स है (यानी न केवल केंद्रित, बल्कि rescaled) डेटा; वह है, दूसरे के विभेदक डेटासेट का एक सहसंयोजक मैट्रिक्स (मानो) । इसलिए यह स्वाभाविक है और यह आपको परेशान नहीं करना चाहिए कि परिणाम अलग हैं।
  2. हाँ यह मानकीकृत डेटा के साथ अधिकतम विचरण की दिशाओं को खोजने के लिए समझ में आता है - वे दिशाएं हैं - इसलिए बोलने के लिए - "सहसंबंध", "नहीं" सहानुभूति "; यह है कि, असमान परिवर्तन के प्रभाव के बाद - मूल चर - मल्टीवेरेट डेटा के आकार पर क्लाउड को हटा दिया गया था।

अगला पाठ और तस्वीरें @whuber द्वारा जोड़ी गईं (मैं उन्हें धन्यवाद देता हूं। इसके अलावा, मेरी टिप्पणी नीचे देखें)

यहां एक दो-आयामी उदाहरण दिखाया गया है कि यह अभी भी मानकीकृत डेटा के प्रमुख अक्षों (सही पर दिखाया गया है) का पता लगाने के लिए क्यों समझ में आता है। ध्यान दें कि दाहिने हाथ में प्लॉट अभी भी एक "आकार" है, भले ही समन्वय अक्षों के साथ variances अब बिल्कुल समान हैं (1.0)। इसी तरह, उच्च आयामों में मानकीकृत बिंदु बादल का एक गैर-गोलाकार आकार होगा, भले ही सभी अक्षों के साथ संस्करण बिल्कुल बराबर (1.0) हैं। प्रिंसिपल ऐक्सिस (उनके संबंधित आइगेनवेल्स के साथ) उस आकृति का वर्णन करते हैं। इसे समझने का एक और तरीका यह है कि सभी rescaling और shifting जो चर को मानकीकृत करते समय चलते हैं, केवल निर्देशांक अक्षों की दिशाओं में होते हैं और स्वयं प्रमुख दिशाओं में नहीं होते हैं।

आकृति

यहां जो कुछ हो रहा है वह ज्यामितीय रूप से इतना सहज और स्पष्ट है कि इसे "ब्लैक-बॉक्स ऑपरेशन" के रूप में चिह्नित करना एक खिंचाव होगा: इसके विपरीत, मानकीकरण और पीसीए कुछ सबसे बुनियादी और नियमित चीजें हैं जो हम डेटा के साथ करते हैं। उन्हें समझने के लिए।


@Ttnphns द्वारा जारी

जब एक पीसीए (या कारक विश्लेषण या विश्लेषण के अन्य इसी तरह के प्रकार) पर करने के लिए पसंद करेंगे सहसंबंध (यानी z-मानकीकृत चर पर) के बजाय पर यह कर की सहप्रसरण (यानी केंद्रित चर पर)?

  1. जब चर माप की विभिन्न इकाइयाँ होती हैं। समझ गए।
  2. जब कोई चाहता है कि विश्लेषण केवल और केवल रैखिक संघों को प्रतिबिंबित करे । पियरसन आर न केवल असंबद्ध (विचरण = 1) चर के बीच सहसंयोजक है; यह अचानक रैखिक संबंध की ताकत का माप है, जबकि सामान्य रूप से सहसंयोजक गुणांक रैखिक और अखंड दोनों संबंधों के लिए ग्रहणशील है।
  3. जब कोई चाहता है कि संघ कच्चे सह-विचलन के बजाय सापेक्ष सह-विचलन (मतलब से) को प्रतिबिंबित करें । सहसंबंध वितरण, उनके प्रसार पर आधारित है, जबकि सहसंयोजक मूल माप पैमाने पर आधारित है। अगर मैं लिकर-प्रकार की वस्तुओं से युक्त कुछ नैदानिक ​​प्रश्नावली पर रोगियों के मनोचिकित्सा प्रोफाइल को मनोचिकित्सकों द्वारा बताए गए कारकों का विश्लेषण करने के लिए था, तो मैं सहकर्मियों को पसंद करूंगा। क्योंकि पेशेवरों से उम्मीद नहीं की जाती है कि वे रेटिंग स्केल को अंत: रूप से विकृत कर सकते हैं। यदि, दूसरी ओर, मैं उसी प्रश्नावली द्वारा रोगियों के आत्म-चित्र का विश्लेषण करने के लिए था, तो मैं शायद सहसंबंध चुनूंगा। क्योंकि आम आदमी का मूल्यांकन "अन्य लोगों", "बहुसंख्यक" "अनुमेय विचलन" के सापेक्ष होने की उम्मीद है जोर से जो "सिकुड़ता" या एक के लिए रेटिंग पैमाने को "फैला" करता है।

1
1. क्षमा करें, लेकिन यह बहुत परेशान करता है। एक बाहरी व्यक्ति के लिए, मानकीकरण एक ब्लैक-बॉक्स ऑपरेशन है, डेटा के पीसीए प्री-कंडीशनिंग का हिस्सा (आईसीए में भी)। वह अपने (कच्चे) इनपुट डेटा के लिए एक जवाब चाहता है, खासकर अगर यह भौतिक (आयामित) डेटा से संबंधित है, जिसके लिए पीसीए आउटपुट को भौतिक रूप से व्याख्या करना होगा (यानी, अनियंत्रित चर के संदर्भ में)।
लुकोजादे

1
आपका नवीनतम संशोधन फिर से दावा करता है कि "कोवरियनस पीसीए एकमात्र सही मायने में सही है"। जैसा कि अब तक की प्रतिक्रियाओं की संपूर्णता में है "नहीं, इसके बारे में सोचने का गलत तरीका; और यहाँ क्यों" यह जानना मुश्किल है कि आप इस तरह की भारी असहमति के खिलाफ चर्चा की उम्मीद कैसे करते हैं।
निक कॉक्स

4
@Lucozade: मैं आपके आवेदन के आपके विवरण के बारे में उलझन में था: - PCA कुछ भी कैसे सुझा रहा है? आपने प्रदर्शन कैसे मापा ? इसी तरह आपकी अंतिम टिप्पणी के लिए: - किसके लिए इष्टतम ?
Scortchi - को पुनः स्थापित मोनिका

5
@ लुकोज़ेड: वास्तव में, कृपया सुनें कि स्कोर्टची ने क्या कहा था, आपको लगता है कि नीचे spooks का पीछा करना जारी रहेगा। पीसीए अंतरिक्ष में घूमने वाले डेटा का एक विशेष रूप है। यह हमेशा इनपुट डेटा के साथ क्या करता है, इसे बेहतर तरीके से करता है। कोव-कॉर दुविधा एक व्यावहारिक है, जो डेटा प्री-प्रोसेसिंग में निहित है और उस स्तर पर हल किया जा रहा है, न कि पीसीए स्तर पर।
ttnphns

1
@Lucozade: यह मेरी (गैर-विशेषज्ञ) राय होगी जो आपके उत्तर के आधार पर होगी कि आपकी विशिष्ट आवश्यकता में, आपको कोवा-आधारित पीसीए चाहिए। फिर, आपके चर डेटा / माप प्रकार (समान मशीन प्रकार, और वोल्ट में सभी डेटा) के संदर्भ में सभी सजातीय हैं। मेरे लिए आपका उदाहरण स्पष्ट रूप से एक ऐसा मामला है जहां कोव-पीसीए सही है, लेकिन कृपया ध्यान दें कि यह हमेशा ऐसा नहीं होता है, और मुझे लगता है कि थ्रेड (कोर वी। कोव की पसंद) यह विशिष्ट बिंदु है और मामला विशिष्ट है और इसकी जरूरत है। उस व्यक्ति द्वारा निर्धारित किया जाना चाहिए जो डेटा और एप्लिकेशन को सबसे अच्छा समझता है)। आपको अनुसंधान में सफलता मिले!
पैट्रिक

6

एक व्यावहारिक दृष्टिकोण से बोलते हुए - संभवतः यहां अलोकप्रिय - यदि आपके पास विभिन्न पैमानों पर मापा गया डेटा है, तो सहसंबंध के साथ जाएं ('यूवी स्केलिंग' यदि आप एक केमिस्ट्रीशियन हैं), लेकिन अगर चर एक ही पैमाने पर हैं और उनका आकार मायने रखता है। (जैसे स्पेक्ट्रोस्कोपिक डेटा के साथ), फिर कोवरियन (केवल डेटा को केंद्रित करना) अधिक समझ में आता है। पीसीए एक स्केल-डिपेंडेंट विधि है और लॉग ट्रांसफॉर्मेशन में अत्यधिक तिरछे डेटा की मदद ली जा सकती है।

20 साल के केमोमीट्रिक्स के व्यावहारिक अनुप्रयोग पर आधारित मेरी विनम्र राय में आपको थोड़ा प्रयोग करना होगा और देखना होगा कि आपके प्रकार के डेटा के लिए सबसे अच्छा काम क्या है। दिन के अंत में आपको अपने परिणामों को पुन: पेश करने में सक्षम होने और अपने निष्कर्षों की भविष्यवाणी को साबित करने की कोशिश करने की आवश्यकता है। आप कैसे प्राप्त करते हैं, अक्सर परीक्षण और त्रुटि का मामला होता है लेकिन यह बात मायने रखती है कि आप जो करते हैं वह दस्तावेज और प्रतिलिपि प्रस्तुत करने योग्य है।


4
जिस व्यावहारिक दृष्टिकोण की आप यहाँ वकालत करते हैं, वह उबलता है - जब दोनों सहसंबंधों और सहसंबंधों को वारंट किया जाता है - "दोनों का प्रयास करें और देखें कि क्या सबसे अच्छा काम करता है"। यह विशुद्ध अनुभवजन्य रुख इस तथ्य की नकल करता है कि कोई भी विकल्प वास्तविकता के बारे में अपनी मान्यताओं या प्रतिमान के साथ जाता है जिसे शोधकर्ता को पहले से जागरूक होना चाहिए, भले ही वह समझता हो कि वह उनमें से एक को पूरी तरह से मनमाने ढंग से पसंद करता है। "जो सबसे अच्छा काम करता है" का चयन करना आनंद की भावना को भुनाने का काम है।
ttnphns

-2

xis2(x1/s1)+(x2/s2)=(x1+x2)/sx1+x2s1s2डिग्री कम है। वहाँ थोड़ा बिंदु तो उनके रैखिक संयोजन के विचरण को अधिकतम करने के लिए लगता है। उस मामले में, पीसीए डेटा के एक अलग सेट के लिए एक समाधान देता है, जिसके तहत प्रत्येक चर को अलग तरीके से बढ़ाया जाता है। यदि आप बाद में अस्वास्थ्यकर करते हैं (जब corr_PCA का उपयोग करते हैं) तो यह ठीक और आवश्यक हो सकता है; लेकिन अगर आप कच्चे कॉरपोरेशन_केसीए समाधान को यथायोग्य लेते हैं और वहीं रुक जाते हैं, तो आपको एक गणितीय समाधान प्राप्त होगा, लेकिन भौतिक डेटा से संबंधित नहीं। इसके बाद के रूप में अस्थिरता तब न्यूनतम (यानी उलटा मानक विचलन द्वारा कुल्हाड़ियों को 'खोलना') के रूप में अनिवार्य लगती है, cov_PCA के साथ शुरू करने के लिए इस्तेमाल किया जा सकता था। यदि आप अभी तक पढ़ रहे हैं, तो मैं प्रभावित हूँ! अभी के लिए, मैं जोलीफे की पुस्तक, पी से उद्धृत करके समाप्त करता हूं। 42, जो हिस्सा है जो मुझे चिंतित करता है:'हालांकि, यह नहीं भूलना चाहिए कि सहसंबंध मैट्रिक्स पीसी, जब मूल चर के संदर्भ में फिर से व्यक्त किए जाते हैं, तो अभी भी x के रैखिक कार्य हैं जो मानकीकृत चर के संबंध में अधिकतम विचरण करते हैं और मूल चर के संबंध में नहीं।' अगर आपको लगता है कि मैं इसे या इसके निहितार्थ को गलत तरीके से व्याख्या कर रहा हूं, तो यह अंश आगे की चर्चा के लिए एक अच्छा फोकस बिंदु हो सकता है।


3
यह बहुत ही मनोरंजक है कि आपका खुद का जवाब, जो कि यहां उन सभी लोगों के साथ है, जो आपके बारे में बताने की कोशिश कर रहे थे, आपके लिए अनसुलझी बनी हुई है। आप अभी भी There seems little pointपीसीए में सहसंबंधों पर बहस करते हैं । ठीक है, अगर आपको कच्चे डेटा ("भौतिक डेटा", जैसा कि आप इसे अजीब कहते हैं) के करीब रहने की आवश्यकता है, तो आपको वास्तव में सहसंबंधों का उपयोग नहीं करना चाहिए क्योंकि वे दूसरे ("विकृत") डेटा के अनुरूप हैं।
ttnphns

2
(कंट।) जोलिफ़ के उद्धरण में कहा गया है, कि सहसंबंधों पर प्राप्त पीसी कभी भी स्वयं होंगे और कोवरियों पर पीसी में "वापस" नहीं हो सकते, भले ही आप उन्हें मूल चर के रैखिक संयोजनों के रूप में फिर से व्यक्त कर सकें। इस प्रकार, जोलिफ ने इस विचार पर जोर दिया कि पीसीए परिणाम पूरी तरह से उपयोग किए गए पूर्व-प्रसंस्करण के प्रकार पर निर्भर हैं और यह कि कोई "सच", "वास्तविक" या "सार्वभौमिक" पीसी मौजूद नहीं है ...
ttnphns

2
(कंट।) और वास्तव में, जोलिफ के नीचे की कई लाइनें X'Xमैट्रिक्स पर पीसीए - पीसीए के एक और "रूप" की बात करती हैं । यह फ़ॉर्म कोव-पीसीए की तुलना में मूल डेटा के लिए "करीब" है क्योंकि चर का कोई भी केंद्र नहीं किया जा रहा है। और परिणाम आम तौर पर पूरी तरह से अलग हैं । आप कोसाइन पर पीसीए भी कर सकते हैं। लोग एसएससीपी मैट्रिक्स के सभी संस्करणों पर पीसीए करते हैं , यद्यपि सहसंयोजक या सहसंबंध सबसे अधिक उपयोग किए जाते हैं।
ttnphns

3
इस उत्तर को समझना एक निहित धारणा है कि जिन इकाइयों में डेटा मापा जाता है उनका आंतरिक अर्थ होता है। यह शायद ही कभी मामला है: हम डेटा एक iota के अर्थ में बदलाव के बिना, Angstroms, parsecs या कुछ और, और picoseconds या सहस्राब्दी में समय को मापने के लिए चुन सकते हैं । सहसंयोजकता से सहसंबंध तक जाने में किए गए परिवर्तन केवल इकाइयों के परिवर्तन हैं (जो, वैसे, विशेष रूप से डेटा के प्रति संवेदनशील हैं)। इससे पता चलता है कि यह मुद्दा सहसंबंध बनाम सहसंबंध नहीं है, बल्कि विश्लेषण के लिए डेटा को व्यक्त करने के लिए उपयोगी तरीके खोजने के लिए है।
whuber

3
@ttnphns मैं "केवल," धन्यवाद से चिपक जाऊंगा। या तो निहितार्थ "गहरा" हैं, तथ्य यह है कि एक चर का मानकीकरण शाब्दिक रूप से इसके मूल्यों की एक पुन: अभिव्यक्ति है: इसकी माप की इकाइयों में बदलाव। इस थ्रेड में प्रदर्शित होने वाले कुछ दावों के लिए इस अवलोकन का महत्व इसके निहितार्थ में है, जिनमें से सबसे प्रमुख है "कोवरियन-आधारित पीसीए एकमात्र सही मायने में सही है।" शुद्धता का कोई भी अनुमान जो अंततः डेटा के अनिवार्य रूप से मनमाने ढंग से पहलू पर निर्भर करता है - हम उन्हें कैसे लिखते हैं - सही नहीं हो सकता।
व्हीबर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.