मैं एक सहज प्रदर्शन के साथ शुरुआत करूंगा।
मैंने अवलोकन (ए) को दृढ़ता से गैर-गौसियन 2 डी वितरण से उत्पन्न किया, और (बी) 2 डी गौसियन वितरण से। दोनों मामलों में मैंने डेटा को केंद्रित किया और एकवचन मान अपघटन X = U S V ed किया । फिर प्रत्येक मामले के लिए मैंने यू के पहले दो कॉलमों का एक स्कैटर प्लॉट बनाया , एक दूसरे के खिलाफ। ध्यान दें कि यह आमतौर पर यू एस के कॉलम होते हैं जिन्हें "प्रमुख घटक" (पीसी) कहा जाता है; यू के कॉलम यूनिट मानदंड के लिए स्केल किए गए पीसी हैं; फिर भी, इस उत्तर में मैं यू के स्तंभों पर ध्यान केंद्रित कर रहा हूं । यहाँ तितर-बितर भूखंड हैं:n=100X=USV⊤UUSUU
मुझे लगता है कि "पीसीए घटक असंबद्ध" या "पीसीए घटक आश्रित / स्वतंत्र हैं" जैसे बयान आमतौर पर एक विशिष्ट नमूना मैट्रिक्स बारे में बनाए जाते हैं और पंक्तियों में परस्पर संबंध / निर्भरता का संदर्भ देते हैं (उदाहरण के लिए @ ttnphns का जवाब यहां देखें )। पीसीए एक परिवर्तित डेटा मैट्रिक्स यू का उत्पादन करता है , जहां पंक्तियों का अवलोकन होता है और कॉलम पीसी चर होते हैं। यानी हम यू को एक नमूने के रूप में देख सकते हैं , और पूछ सकते हैं कि पीसी चर के बीच नमूना संबंध क्या है। यह नमूना सहसंबंध मैट्रिक्स U I U = I द्वारा दिया गया हैXUUU⊤U=I, जिसका अर्थ है कि पीसी चर के बीच नमूना संबंध शून्य हैं। जब लोग कहते हैं कि इसका मतलब यह है कि "पीसीए सहसंयोजक मैट्रिक्स को विकर्ण करता है", आदि।
निष्कर्ष 1: पीसीए निर्देशांक में, किसी भी डेटा में शून्य सहसंबंध है।
यह ऊपर दिए गए दोनों बिखरावों के लिए सही है। हालाँकि, यह तुरंत स्पष्ट है कि बाईं ओर दो पीसी चर और y (गैर-गाऊसी) स्कैल्पलॉट स्वतंत्र नहीं हैं; भले ही वे शून्य सहसंबंध है, वे दृढ़ता से निर्भर है और एक से संबंधित वास्तव में y ≈ एक ( एक्स - ख ) 2 । और वास्तव में, यह सर्वविदित है कि असंबद्ध का अर्थ स्वतंत्र नहीं है ।xyy≈a(x−b)2
इसके विपरीत, दो पीसी चर और y दाईं ओर (गाऊसी) स्कैल्पलॉट में "बहुत सुंदर स्वतंत्र" लगते हैं। उनके बीच आपसी सूचनाओं का संकलन करना (जो कि सांख्यिकीय निर्भरता का एक उपाय है: स्वतंत्र चर में शून्य पारस्परिक जानकारी होती है) किसी भी मानक एल्गोरिथ्म से मूल्य शून्य के बहुत करीब पहुंच जाएगा। यह बिल्कुल शून्य नहीं होगा, क्योंकि यह किसी भी परिमित नमूना आकार के लिए बिल्कुल शून्य नहीं है (जब तक कि ठीक-ठीक न हो); इसके अलावा, दो नमूनों की आपसी जानकारी की गणना करने के लिए विभिन्न तरीके हैं, जो थोड़ा अलग जवाब देते हैं। लेकिन हम यह उम्मीद कर सकते हैं कि किसी भी विधि से आपसी जानकारी का एक अनुमान प्राप्त होगा जो शून्य के बहुत करीब है।xy
निष्कर्ष 2: पीसीए निर्देशांक में, गाऊसी डेटा "बहुत अधिक स्वतंत्र" हैं, जिसका अर्थ है कि निर्भरता के मानक अनुमान शून्य के आसपास होंगे।
प्रश्न, हालांकि, अधिक मुश्किल है, जैसा कि टिप्पणियों की लंबी श्रृंखला द्वारा दिखाया गया है। दरअसल, @whuber ने ठीक ही कहा है कि PCA चर और y ( U के स्तंभ ) को सांख्यिकीय रूप से निर्भर होना चाहिए: स्तंभों को इकाई की लंबाई का होना चाहिए और ऑर्थोगोनल होना चाहिए, और यह एक निर्भरता का परिचय देता है। जैसे यदि पहले कॉलम में कुछ मान 1 के बराबर है , तो दूसरे कॉलम में संबंधित मूल्य 0 होना चाहिए ।xyU10
यह सच है, लेकिन केवल बहुत छोटे लिए व्यावहारिक रूप से प्रासंगिक है , जैसे कि n = 3 ( n = 2 के साथ केंद्र में केवल एक पीसी है)। किसी भी उचित नमूना आकार के लिए, जैसे कि n = 100 ऊपर मेरे आंकड़े पर दिखाया गया है, निर्भरता का प्रभाव नगण्य होगा; U के कॉलम गाऊसी डेटा के अनुमान (स्केल किए गए) हैं, इसलिए वे भी गाऊसी हैं, जो 1 के करीब होने के लिए एक मूल्य के लिए व्यावहारिक रूप से असंभव बनाता है (इसके लिए 0 के करीब होने के लिए अन्य सभी n - 1 तत्वों की आवश्यकता होगी , जो शायद ही हो। एक गाऊसी वितरण)।nn=3n=2n=100U1n−10
निष्कर्ष 3: सख्ती से बोलना, किसी भी परिमित , पीसीए निर्देशांक में गॉसियन डेटा निर्भर हैं; हालाँकि, यह निर्भरता व्यावहारिक रूप से किसी भी n is 1 के लिए अप्रासंगिक है ।nn≫1
हम इस पर विचार क्या की सीमा में होता है से सटीक बना सकते हैं । अनंत नमूना आकार की सीमा में, नमूना सहप्रसरण मैट्रिक्स आबादी सहप्रसरण मैट्रिक्स के बराबर है Σ । डेटा वेक्टर तो अगर एक्स से नमूना → एक्स ~ एन ( 0 , Σ ) , तो पीसी चर हैं → Y = Λ - 1 / 2 वी ⊤ → एक्स / ( n - 1 ) (जहां Λ और वीn→∞ΣXX⃗ ∼N(0,Σ)Y⃗ =Λ−1/2V⊤X⃗ /(n−1)ΛVeigenvalues और की eigenvectors हैं ) और → Y ~ एन ( 0 , मैं / ( n - 1 ) ) । यानी पीसी वैरिएबल एक बहुभिन्नरूपी गाऊसी से विकर्ण सहसंयोजक के साथ आते हैं। लेकिन विकर्ण सहसंयोजक मैट्रिक्स के साथ किसी भी बहुभिन्नरूपी गौसिवान एक उत्पाद का अविभाज्य गॉसियन में विघटित होता है, और यह सांख्यिकीय स्वतंत्रता की परिभाषा है :ΣY⃗ ∼N(0,I/(n−1))
N(0,diag(σ2i))=1(2π)k/2det(diag(σ2i))1/2exp[−x⊤diag(σ2i)x/2]=1(2π)k/2(∏ki=1σ2i)1/2exp[−∑i=1kσ2ix2i/2]=∏1(2π)1/2σiexp[−σ2ix2i/2]=∏N(0,σ2i).
निष्कर्ष 4: asymptotically ( ) गॉसियन डेटा के पीसी वैरिएबल यादृच्छिक चर के रूप में सांख्यिकीय रूप से स्वतंत्र हैं, और नमूना पारस्परिक जानकारी जनसंख्या के मूल्य को शून्य प्रदान करेगी।n→∞
मैं नोट करना चाहिए कि इसे दूसरे तरीके से इस सवाल को समझने के लिए (@whuber द्वारा टिप्पणियां देखें) संभव है: पूरे मैट्रिक्स विचार करने के लिए एक यादृच्छिक चर (यादृच्छिक मैट्रिक्स से प्राप्त एक्स एक विशिष्ट आपरेशन के माध्यम से) और पूछते हैं कि किसी भी दो विशिष्ट तत्वों यू मैं दो अलग-अलग स्तंभों से j और U k l सांख्यिकीय रूप से X के अलग-अलग ड्रा में स्वतंत्र हैं । हमने इस प्रश्न को बाद के धागे में खोजा ।UXUijUklX
यहाँ ऊपर से सभी चार अंतरिम निष्कर्ष दिए गए हैं:
- पीसीए निर्देशांक में, किसी भी डेटा में शून्य सहसंबंध होता है।
- पीसीए निर्देशांक में, गाऊसी डेटा "बहुत अधिक स्वतंत्र" हैं, जिसका अर्थ है कि निर्भरता के मानक अनुमान शून्य के आसपास होंगे।
- nn≫1
- n→∞