एक पीसीए द्विध्रुव पर तीर की स्थिति


18

मैं जावास्क्रिप्ट में प्रिंसिपल कंपोनेंट एनालिसिस (PCA) के लिए एक बाइपोलॉट लागू करना चाहता हूँ। मेरा सवाल है, मैं डेटा मैट्रिक्स के सिंगुलर वेक्टर अपघटन (एसवीडी) के तीर के निर्देशांक का निर्धारण कैसे करूं ?U,V,D

यहाँ R द्वारा निर्मित एक उदाहरण biplot है:

biplot(prcomp(iris[,1:4]))

आइरिस डाटासेट के Biplot

मैंने इसे बीप्लॉट पर विकिपीडिया लेख में देखने की कोशिश की लेकिन यह बहुत उपयोगी नहीं है। या सही है। जो निश्चित नहीं है।


3
Biplot एक ओवरले स्कैल्पलोट है जो U मान और V मान दोनों दिखाता है। या यूडी और वी। या यू और वीडी '। या यूडी और वीडी '। पीसीए के संदर्भ में, यूडी को कच्चे प्रमुख घटक स्कोर कहा जाता है और वीडी 'को चर-घटक लोडिंग कहा जाता है।
ttnphns

2
ध्यान दें कि निर्देशांक का पैमाना इस बात पर निर्भर करता है कि आप शुरू में डेटा को कैसे सामान्य करते हैं। पीसीए में, उदाहरण के लिए, एक सामान्य वर्ग sqrt (r) या sqrt (r-1) द्वारा डेटा को विभाजित करता है [r पंक्तियों की संख्या है]। लेकिन सही अर्थों में "बाइप्लॉट" शब्द के संकीर्ण अर्थ में सामान्य रूप से डेटा को sqrt (rc) [c, कॉलम की संख्या] से विभाजित करता है और फिर प्राप्त U और V को डी-सामान्य करता है
ttnphns

डेटा को 1 से छोटा क्यों किया जाता है ? 1n1
ktdrv

1
@ttnphns: ऊपर की टिप्पणियों के बाद, मैंने इस प्रश्न का उत्तर लिखा, जिसका उद्देश्य पीसीए द्विप्लोट सामान्यीकरण का अवलोकन जैसा कुछ प्रदान करना है। हालाँकि, इस विषय का मेरा ज्ञान विशुद्ध रूप से सैद्धांतिक है और मेरा मानना ​​है कि आपके पास मेरे मुकाबले बहुत अधिक अनुभव है। इसलिए मैं किसी भी टिप्पणी के लिए आभारी रहूंगा।
अमीबा का कहना है कि मोनिका

1
चीजों को लागू करने का एक कारण, @ अलेक्जेंडर, यह जानना है कि वास्तव में क्या किया जा रहा है। जैसा कि आप देख सकते हैं, यह पता लगाना इतना आसान नहीं है कि जब कोई दौड़ता है तो वास्तव में क्या होता है biplot()। इसके अलावा, कुछ के लिए आर-जेएस एकीकरण से परेशान क्यों हैं, जिसके लिए कोड की सिर्फ एक दो लाइनों की आवश्यकता होती है।
अमीबा का कहना है कि मोनिका

जवाबों:


40

पीसीए बाइप्लॉट का उत्पादन करने के कई अलग-अलग तरीके हैं और इसलिए आपके प्रश्न का कोई अनूठा उत्तर नहीं है। यहाँ एक संक्षिप्त अवलोकन है।

हम मानते हैं कि डेटा मैट्रिक्स है n पंक्तियों में डेटा अंक और केंद्रित है (यानी स्तंभ साधन सब शून्य कर रहे हैं)। अभी के लिए, हम यह नहीं मानते हैं कि इसे मानकीकृत किया गया था, अर्थात हम पीसीए को सहसंयोजक मैट्रिक्स (सहसंबंध मैट्रिक्स पर नहीं) पर विचार करते हैं। पीसीए एक विलक्षण मूल्य अपघटन एक्स = यू एस वी PC की राशि है , आप विवरण के लिए यहां मेरा जवाब देख सकते हैं: एसवीडी और पीसीए के बीच संबंध। PCA करने के लिए SVD का उपयोग कैसे करें?Xn

X=USV,

एक पीसीए बाइप्लॉट में, दो पहले प्रमुख घटकों को स्कैटर प्लॉट के रूप में प्लॉट किया जाता है, यानी पहले कॉलम को इसके दूसरे कॉलम के खिलाफ प्लॉट किया जाता है। लेकिन सामान्यीकरण अलग हो सकता है; जैसे कोई उपयोग कर सकता है:U

  1. कॉलम : ये मुख्य घटक हैं जो यूनिट के वर्गों में स्केल किए जाते हैं;U
  2. के कॉलम : ये मानकीकृत प्रमुख घटक (इकाई संस्करण) हैं;n1U
  3. कॉलम : ये "कच्चे" प्रमुख घटक (प्रमुख निर्देशों पर अनुमान) हैं।US

इसके अलावा, मूल चर को तीर के रूप में प्लॉट किया जाता है; यानी i -th एरो एंडपॉइंट के निर्देशांक I -th मान द्वारा V के पहले और दूसरे कॉलम में दिए गए हैं । लेकिन फिर से, कोई अलग-अलग सामान्यीकरण चुन सकता है, जैसे:(x,y)iiV

  1. कॉलम : मुझे नहीं पता कि यहां एक व्याख्या क्या हो सकती है;VS
  2. के कॉलम : ये लोडिंग हैं;VS/n1
  3. कॉलम : ये प्रिंसिपल एक्सिस (उर्फ प्रिंसिपल दिशा, उर्फ ​​आइजनवेक्टर) हैं।V

यहां बताया गया है कि फिशर आइरिस डेटासेट के लिए यह सब कैसा दिखता है:

फिशर आइरिस बाइप्लॉट्स, कोवरियन पर पीसीए

9XUSαβVS(1α)/β9 "उचित बिप्लॉट" हैं: अर्थात् ऊपर से किसी भी उपप्लॉट का संयोजन सीधे नीचे वाले के साथ।

[जो भी संयोजन का उपयोग करता है, वह कुछ मनमाने स्थिर कारक द्वारा तीरों को स्केल करने के लिए आवश्यक हो सकता है ताकि तीर और डेटा बिंदु दोनों समान पैमाने पर दिखाई दें।]

VS/n1Un1

यह [विशेष पसंद], निश्चित रूप से, टिप्पणियों के बहुभिन्नरूपी मैट्रिक्स की व्याख्या करने में एक सबसे उपयोगी चित्रमय सहायता प्रदान करने की संभावना है, बशर्ते, कि इन्हें रैंक दो पर पर्याप्त रूप से अनुमानित किया जा सकता है।

USV

US

biplotUVSbiplot0.8biplotn/(n1)1पीसीए बीप्लॉट में अंतर्निहित चर के तीर आर ।)

सहसंबंध मैट्रिक्स पर पीसीए

अगर हम आगे यह मान लें कि डेटा मैट्रिक्स X1

फिशर आइरिस बाइप्लॉट्स, सहसंबंधों पर पीसीए

यहां लोडिंग और भी अधिक आकर्षक है, क्योंकि (उपर्युक्त गुणों के अलावा), वे बिल्कुल देते हैं1R=1


आगे की पढाई:


1
+6, यह 3 से अधिक upvotes के योग्य है।
गूँज - मोनिका

3
बस उस पर ध्यान दिया गया है? Ca :: plot.ca में विभिन्न संभावित सामान्यताओं का एक अच्छा अवलोकन है: वे पंक्ति प्रिंसिपल (प्रपत्र बिप्लॉट = प्रिंसिपल कोर्ड्स में पंक्तियाँ, मानक कोर्ड्स में कॉल), कर्नल प्रिंसिपल (कोवरियनस बाइपोलॉट - प्रिंसिपल कोर्ड्स, पंक्तियों में भेद करते हैं) मानक कोआर्ड्स में), सममित द्विध्रुवीय (पंक्तियों और स्तंभों को एकवचन मान (eigenvalues ​​के वर्गमूल) के समान रूपांतरों के लिए स्केल किया गया), रगैब और कोलगैब (मानक कॉर्ड्स में कोल और मानक कॉर्ड्स में कॉल इसी बिंदु के द्रव्यमान से गुणा किया जाता है) इसके विपरीत) और रौग्रीन और कोलग्रीन (रग्गब और कोलगैब के रूप में लेकिन sqrt (द्रव्यमान) के साथ)
टॉम वेन्सलेर्स

2
इन अंतिम वाले को "योगदान बिल्पोट्स" भी कहा जाता है; एम। ग्रीनक्रे की किताब "बिप्लॉट्स इन प्रैक्टिस" भी इस सब का एक अच्छा अवलोकन देता है; स्केलिंग के ये तरीके SVD (यानी CA biplots, PCA biplots, LDA biplots) के आधार पर सभी तरीकों पर लागू होते हैं; यह कैसे काम करता है इसका एक उदाहरण के लिए सोर्स कोड सीए ::: प्लॉट.का और "मैप" तर्क
टॉम वेन्सलेर्स

1
n1

1
@AntoniParellada मैंने संपादित किया, और कुछ लिंक जोड़े।
अमीबा का कहना है कि
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.