क्या मल्टीराएट गॉसियन डेटा के पीसीए घटक सांख्यिकीय रूप से स्वतंत्र हैं?


16

क्या पीसीए घटक (प्रमुख घटक विश्लेषण में) सांख्यिकीय रूप से स्वतंत्र हैं यदि हमारा डेटा बहुभिन्नरूपी सामान्य रूप से वितरित किया जाता है? यदि हां, तो इसे कैसे प्रदर्शित / सिद्ध किया जा सकता है?

मैं पूछता हूं क्योंकि मैंने इस पोस्ट को देखा , जहां शीर्ष उत्तर बताता है:

पीसीए एक स्पष्ट गौसिनिटी धारणा नहीं बनाता है। यह डेटा में बताए गए विचरण को अधिकतम करने वाले आइगेनवेक्टर्स को ढूंढता है। प्रिंसिपल कंपोनेंट्स की ऑर्थोगोनलिटी का मतलब है कि यह डेटा में ज्यादा से ज्यादा बदलाव करने के लिए सबसे ज्यादा असंबद्ध कंपोनेंट ढूंढता है। बहुभिन्नरूपी गौसियन वितरण के लिए, घटकों के बीच शून्य सहसंबंध स्वतंत्रता का अर्थ है जो अधिकांश वितरणों के लिए सही नहीं है।

उत्तर बिना प्रमाण के कहा गया है, और इसका मतलब यह प्रतीत होता है कि पीसीए स्वतंत्र घटकों का उत्पादन करता है यदि डेटा बहुभिन्नरूपी सामान्य है।

विशेष रूप से, कहें कि हमारे डेटा से नमूने हैं:

xN(μ,Σ)

हम डाल n के नमूने x नमूनों की हमारी मैट्रिक्स की पंक्तियों में X , इसलिए X है n×m के SVD की गणना करना X(केन्द्रित करने के बाद) पैदावार

X=USVT

क्या हम कह सकते हैं कि के कॉलम Uसांख्यिकीय रूप से स्वतंत्र हैं, फिर भी की पंक्तियाँ VT? यह सामान्य रूप में सच है, बस के लिए है xN(μ,Σ) , या नहीं सच सब पर?


1
आंकड़े . stackexchange.com/q/110508/3277 एक समान प्रश्न है।
tnnphns

1
मैं नहीं देखता कि कैसे पीसी को संभवतः एक से अधिक आयामों में "सांख्यिकीय रूप से स्वतंत्र" माना जा सकता है। सब के बाद, परिभाषा के अनुसार प्रत्येक एक अन्य सभी के लिए रूढ़िवादी है; यह कार्यात्मक निर्भरता एक बहुत मजबूत सांख्यिकीय निर्भरता बनाता है।
whuber

1
@amoeba मुझे आशा है कि मैं लगातार स्पष्ट होने के साथ-साथ प्रश्न के प्रति वफादार रहा हूं, जो मुझे स्पष्ट रूप से स्पष्ट और स्पष्ट प्रतीत होता है: क्योंकि डेटा X यादृच्छिक हैं, इसलिए में सभी प्रविष्टियां हैं U। मैंने उनके लिए सांख्यिकीय स्वतंत्रता की परिभाषा लागू की है। बस इतना ही। आपकी समस्या यह प्रतीत होती है कि आप "असंबद्ध" शब्द का दो अलग-अलग अर्थों में उपयोग कर रहे हैं, बिना यह महसूस किए कि: के स्तंभों का Uनिर्माण कैसे किया जाता है, इसके आधार पर , वे ज्यामितीय रूप से रूढ़िवादी हैं, जो कि में वैक्टर केRn रूप में हैं , लेकिन वे नहीं द्वारा हैं स्वतंत्र यादृच्छिक वैक्टर का मतलब है!
whuber

1
@amoeba आप सही हैं - अनुकार बहुत स्पष्ट रूप से दर्शाता है कि सहसंबंध (दृढ़ता से) नॉनजरो हो सकता है। हालाँकि, मैं विवादित नहीं हूं कि "सहसंबंध" = "ओर्थोगोनल" के अर्थ में "पीसीए घटक असंबद्ध हैं" और न ही मैं यह कह रहा हूं कि कोई विशेष पाठ्यपुस्तक गलत है। मेरी चिंता यह है कि इस तरह के एक बयान, ठीक से समझा गया है, इस सवाल के लिए इतना अप्रासंगिक है कि यह सब कर सकते हैं (और किया है) वर्तमान संदर्भ में व्यापक भ्रम बोते हैं।
whuber

1
@whuber, मुझे यकीन है कि आप मेरे उत्तर के एक और संस्करण के लिए आगे देख रहे हैं! यही पर है। मैं स्पष्ट रूप से निर्भरता के बारे में अपने अंक स्वीकार करते हैं, और एक बयान इस बात का कॉलम बना रहे हैं asymptotically , स्वतंत्र मेरा मुख्य बिंदु के रूप में। यहाँ "asymptotically" टिप्पणियों (पंक्तियों) की संख्या n को संदर्भित करता है । मुझे बहुत उम्मीद है कि हम उस पर सहमत हो पाएंगे! मेरा यह भी तर्क है कि किसी भी उचित n , जैसे n = 100 के लिए , स्तंभों के बीच निर्भरता "व्यावहारिक रूप से अप्रासंगिक" है। यह मुझे लगता है कि एक अधिक विवादास्पद बिंदु है, लेकिन मैं इसे अपने उत्तर में यथोचित रूप से सटीक बनाने की कोशिश करता हूं। Unnn=100
अमीबा का कहना है कि मोनिका

जवाबों:


23

मैं एक सहज प्रदर्शन के साथ शुरुआत करूंगा।

मैंने अवलोकन (ए) को दृढ़ता से गैर-गौसियन 2 डी वितरण से उत्पन्न किया, और (बी) 2 डी गौसियन वितरण से। दोनों मामलों में मैंने डेटा को केंद्रित किया और एकवचन मान अपघटन X = U S V ed किया । फिर प्रत्येक मामले के लिए मैंने यू के पहले दो कॉलमों का एक स्कैटर प्लॉट बनाया , एक दूसरे के खिलाफ। ध्यान दें कि यह आमतौर पर यू एस के कॉलम होते हैं जिन्हें "प्रमुख घटक" (पीसी) कहा जाता है; यू के कॉलम यूनिट मानदंड के लिए स्केल किए गए पीसी हैं; फिर भी, इस उत्तर में मैं यू के स्तंभों पर ध्यान केंद्रित कर रहा हूं । यहाँ तितर-बितर भूखंड हैं:n=100X=USVUUSUU

गाऊसी और गैर-गाऊसी डेटा के पीसीए

मुझे लगता है कि "पीसीए घटक असंबद्ध" या "पीसीए घटक आश्रित / स्वतंत्र हैं" जैसे बयान आमतौर पर एक विशिष्ट नमूना मैट्रिक्स बारे में बनाए जाते हैं और पंक्तियों में परस्पर संबंध / निर्भरता का संदर्भ देते हैं (उदाहरण के लिए @ ttnphns का जवाब यहां देखें )। पीसीए एक परिवर्तित डेटा मैट्रिक्स यू का उत्पादन करता है , जहां पंक्तियों का अवलोकन होता है और कॉलम पीसी चर होते हैं। यानी हम यू को एक नमूने के रूप में देख सकते हैं , और पूछ सकते हैं कि पीसी चर के बीच नमूना संबंध क्या है। यह नमूना सहसंबंध मैट्रिक्स U I U = I द्वारा दिया गया हैXUUUU=I, जिसका अर्थ है कि पीसी चर के बीच नमूना संबंध शून्य हैं। जब लोग कहते हैं कि इसका मतलब यह है कि "पीसीए सहसंयोजक मैट्रिक्स को विकर्ण करता है", आदि।

निष्कर्ष 1: पीसीए निर्देशांक में, किसी भी डेटा में शून्य सहसंबंध है।

यह ऊपर दिए गए दोनों बिखरावों के लिए सही है। हालाँकि, यह तुरंत स्पष्ट है कि बाईं ओर दो पीसी चर और y (गैर-गाऊसी) स्कैल्पलॉट स्वतंत्र नहीं हैं; भले ही वे शून्य सहसंबंध है, वे दृढ़ता से निर्भर है और एक से संबंधित वास्तव में y एक ( एक्स - ) 2 । और वास्तव में, यह सर्वविदित है कि असंबद्ध का अर्थ स्वतंत्र नहीं हैxyya(xb)2

इसके विपरीत, दो पीसी चर और y दाईं ओर (गाऊसी) स्कैल्पलॉट में "बहुत सुंदर स्वतंत्र" लगते हैं। उनके बीच आपसी सूचनाओं का संकलन करना (जो कि सांख्यिकीय निर्भरता का एक उपाय है: स्वतंत्र चर में शून्य पारस्परिक जानकारी होती है) किसी भी मानक एल्गोरिथ्म से मूल्य शून्य के बहुत करीब पहुंच जाएगा। यह बिल्कुल शून्य नहीं होगा, क्योंकि यह किसी भी परिमित नमूना आकार के लिए बिल्कुल शून्य नहीं है (जब तक कि ठीक-ठीक न हो); इसके अलावा, दो नमूनों की आपसी जानकारी की गणना करने के लिए विभिन्न तरीके हैं, जो थोड़ा अलग जवाब देते हैं। लेकिन हम यह उम्मीद कर सकते हैं कि किसी भी विधि से आपसी जानकारी का एक अनुमान प्राप्त होगा जो शून्य के बहुत करीब है।xy

निष्कर्ष 2: पीसीए निर्देशांक में, गाऊसी डेटा "बहुत अधिक स्वतंत्र" हैं, जिसका अर्थ है कि निर्भरता के मानक अनुमान शून्य के आसपास होंगे।

प्रश्न, हालांकि, अधिक मुश्किल है, जैसा कि टिप्पणियों की लंबी श्रृंखला द्वारा दिखाया गया है। दरअसल, @whuber ने ठीक ही कहा है कि PCA चर और y ( U के स्तंभ ) को सांख्यिकीय रूप से निर्भर होना चाहिए: स्तंभों को इकाई की लंबाई का होना चाहिए और ऑर्थोगोनल होना चाहिए, और यह एक निर्भरता का परिचय देता है। जैसे यदि पहले कॉलम में कुछ मान 1 के बराबर है , तो दूसरे कॉलम में संबंधित मूल्य 0 होना चाहिए ।xyU10

यह सच है, लेकिन केवल बहुत छोटे लिए व्यावहारिक रूप से प्रासंगिक है , जैसे कि n = 3 ( n = 2 के साथ केंद्र में केवल एक पीसी है)। किसी भी उचित नमूना आकार के लिए, जैसे कि n = 100 ऊपर मेरे आंकड़े पर दिखाया गया है, निर्भरता का प्रभाव नगण्य होगा; U के कॉलम गाऊसी डेटा के अनुमान (स्केल किए गए) हैं, इसलिए वे भी गाऊसी हैं, जो 1 के करीब होने के लिए एक मूल्य के लिए व्यावहारिक रूप से असंभव बनाता है (इसके लिए 0 के करीब होने के लिए अन्य सभी n - 1 तत्वों की आवश्यकता होगी , जो शायद ही हो। एक गाऊसी वितरण)।nn=3n=2n=100U1n10

निष्कर्ष 3: सख्ती से बोलना, किसी भी परिमित , पीसीए निर्देशांक में गॉसियन डेटा निर्भर हैं; हालाँकि, यह निर्भरता व्यावहारिक रूप से किसी भी n is 1 के लिए अप्रासंगिक है ।nn1

हम इस पर विचार क्या की सीमा में होता है से सटीक बना सकते हैं । अनंत नमूना आकार की सीमा में, नमूना सहप्रसरण मैट्रिक्स आबादी सहप्रसरण मैट्रिक्स के बराबर है Σ । डेटा वेक्टर तो अगर एक्स से नमूना एक्स ~ एन ( 0 , Σ ) , तो पीसी चर हैं Y = Λ - 1 / 2 वी एक्स / ( n - 1 ) (जहां Λ और वीnΣXXN(0,Σ)Y=Λ1/2VX/(n1)ΛVeigenvalues और की eigenvectors हैं ) और Y ~ एन ( 0 , मैं / ( n - 1 ) ) । यानी पीसी वैरिएबल एक बहुभिन्नरूपी गाऊसी से विकर्ण सहसंयोजक के साथ आते हैं। लेकिन विकर्ण सहसंयोजक मैट्रिक्स के साथ किसी भी बहुभिन्नरूपी गौसिवान एक उत्पाद का अविभाज्य गॉसियन में विघटित होता है, और यह सांख्यिकीय स्वतंत्रता की परिभाषा है :ΣYN(0,I/(n1))

N(0,diag(σi2))=1(2π)k/2det(diag(σi2))1/2exp[xdiag(σi2)x/2]=1(2π)k/2(i=1kσi2)1/2exp[i=1kσi2xi2/2]=1(2π)1/2σiexp[σi2xi2/2]=N(0,σi2).

निष्कर्ष 4: asymptotically ( ) गॉसियन डेटा के पीसी वैरिएबल यादृच्छिक चर के रूप में सांख्यिकीय रूप से स्वतंत्र हैं, और नमूना पारस्परिक जानकारी जनसंख्या के मूल्य को शून्य प्रदान करेगी।n

मैं नोट करना चाहिए कि इसे दूसरे तरीके से इस सवाल को समझने के लिए (@whuber द्वारा टिप्पणियां देखें) संभव है: पूरे मैट्रिक्स विचार करने के लिए एक यादृच्छिक चर (यादृच्छिक मैट्रिक्स से प्राप्त एक्स एक विशिष्ट आपरेशन के माध्यम से) और पूछते हैं कि किसी भी दो विशिष्ट तत्वों यू मैं दो अलग-अलग स्तंभों से j और U k l सांख्यिकीय रूप से X के अलग-अलग ड्रा में स्वतंत्र हैं । हमने इस प्रश्न को बाद के धागे में खोजा ।UXUijUklX


यहाँ ऊपर से सभी चार अंतरिम निष्कर्ष दिए गए हैं:

  • पीसीए निर्देशांक में, किसी भी डेटा में शून्य सहसंबंध होता है।
  • पीसीए निर्देशांक में, गाऊसी डेटा "बहुत अधिक स्वतंत्र" हैं, जिसका अर्थ है कि निर्भरता के मानक अनुमान शून्य के आसपास होंगे।
  • nn1
  • n

आप लिखते हैं "हालांकि, यदि डेटा मल्टीवेरेट गौसियन हैं, तो वे वास्तव में स्वतंत्र हैं"। 'वे' प्रमुख घटक हैं, और उनके गुणांक हैं? PCA का क्या मतलब है कि आप कोविरेंस मैट्रिक्स को विकर्ण करते हैं? आपकी प्रतिक्रिया के लिए धन्यवाद!
बिल_ए

"वे" मुख्य घटकों को संदर्भित करते हैं (जो कि अधिकतम विचरण की दिशा में डेटा के अनुमान हैं)। PCA अधिकतम विचरण की दिशाएँ खोजता है; पता चलता है कि ये निर्देश सहसंयोजक मैट्रिक्स के eigenvectors द्वारा दिए गए हैं। यदि आप निर्देशांक को "पीसीए निर्देशांक" में बदलते हैं, तो सहसंयोजक मैट्रिक्स विकर्ण होगा, यही है कि ईगेंडेकोम्पोजिशन कैसे काम करता है। समान रूप से, मैट्रिक्स एस in the SVD from your question is a diagonal matrix. Also, matrix U is orthogonal, meaning that its covariance matrix is diagonal. All of that means that PCs have correlation zero.
amoeba says Reinstate Monica

Cool, thank you! The combination of your answer and this comment helps clear things up for me a lot. Can I edit your comment into your answer?
bill_e

I expanded the answer by incorporating the comment; see if you are happy with it now.
amoeba says Reinstate Monica

2
Interesting discussion! When I asked the question, my thought of statistical dependence was "if you know PC1, is it possible infer PC2?, etc." I will look more into independence tests based on mutual information now.
bill_e
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.