पीसीए मॉडल चयन AIC (या BIC) का उपयोग कर


12

मैं पीसीए निकालने के लिए उचित संख्या में कारकों का चयन करने के लिए एकैके सूचना मानदंड (एआईसी) का उपयोग करना चाहता हूं। एकमात्र मुद्दा यह है कि मुझे यकीन नहीं है कि मापदंडों की संख्या कैसे निर्धारित की जाए।

मैट्रिक्स पर विचार करें , जहाँ , चर की संख्या और टिप्पणियों की संख्या को दर्शाता है , जैसे कि । चूंकि सहसंयोजक मैट्रिक्स सममित है, तो की अधिकतम संभावना एआईसी में पैरामीटरों की संख्या बराबर सेट कर सकती है ।एक्स एन टी एक्स ~ एन ( 0 , Σ ) Σ एन ( एन + 1 )T×NXNTXN(0,Σ)ΣN(N+1)2

वैकल्पिक रूप से, एक PCA में, आप पहले eigenvectors और eigenvalues निकाल सकते हैं , उन्हें और कॉल करें और फिर जहां औसत अवशिष्ट विचरण है। मेरी गिनती करके, आप अगर कारकों, तो क्या तुम करोगी में पैरामीटर , में पैरामीटर , और में पैरामीटर ।Σ बीटा Λ Σ = बीटा Λ बीटा ' + मैं σ 2 आर σ 2 rΛ एन बीटा 1 σ 2 rfΣβfΛf

Σ=βfΛfβf+Iσr2
σr2ffΛfNfβf1σr2

क्या यह दृष्टिकोण सही है? ऐसा लगता है कि यह अधिकतम संभावना दृष्टिकोण की तुलना में अधिक मापदंडों तक ले जाएगा क्योंकि कारकों की संख्या बढ़ जाती है ।N


1
Nf मापदंडों को पूरा करता है: इस तथ्य के कारण अतिरेक है कि आइजनवेक्टर पारस्परिक रूप से ऑर्थोगोनल हैं।
whuber

10
पहले eigenvector में मुक्त पैरामीटर हैं। ऑर्थोगोनलिटी स्थिति केवल पहले मापदंडों की आवश्यकता वाले हाइपर्सस्पेस ऑर्थोगोनल के लिए दूसरे आइजनवेक्टर को प्रतिबंधित करती है । प्रत्येक क्रमिक eigenvector पूर्ववर्ती की तुलना में एक कम पैरामीटर की आवश्यकता है। eigenvectors की सीमा पर आप छोड़ (क्योंकि अब यह शून्य है), = मापदंडों को टोटो में देते हुए, अपने पहले पैरामीटर के अनुसार गिनती। NN1Nσr2N+(N1)++1N(N+1)/2
whuber

1
@ A.Donda स्थिति अस्पष्ट है: चलो कि आप भी संकेत दिया है लगता है जाने बहुलता प्रत्येक eigenvalue की और है कि इन multiplicities हैं योग के लिए की अनुमति दे कि पीसीए एक ओर्थोगोनल परिवर्तन पाता है, हम के लिए होता है इसे निर्धारित करने के लिए पैरामीटर। लेकिन प्रत्येक eigenspace के स्टेबलाइजर्स आयाम में ऑर्थोगोनल समूह हैंप्रत्येक ने पैरामीटर्स को समाप्त कर दिया , जिससे पैरामीटर रोटेशन के लिए eigenvalues शेष पैरामीटर की आपूर्ति। n1,n2,,ns,N.N(N1)/2ni.ni(ni1)/2
N(N1)/2i=1sni(ni1)/2
s
व्हीबर

1
(मुझे यह जोड़ना चाहिए कि इस प्रश्न के लिए गिनती का आवेदन संदिग्ध है: पीसीए सभी मापदंडों का उपयोग करता है , भले ही यह उच्च गुणन के कुछ प्रतिजन को खोजने के लिए हो सकता है। और लगभग किसी भी वास्तविक डेटासेट में। यह तुलना में बहुलता अधिक से अधिक प्राप्त कभी नहीं होगा वैसे भी)।1N(N1)/21
whuber

1
@ शुभंकर, धन्यवाद! मेरा प्रश्न एक ऐसी स्थिति से प्रेरित है जहां मैं एक स्वैच्छिक मैट्रिक्स का अनुमान करता हूं कि आइजेनवेल्स पर एक बाधा के तहत।
ए। डोंडा

जवाबों:


5

Minka के कार्य ( PCA , 2000 की आयामीता का स्वत: विकल्प ) और Tipping & Bishop ( प्रोबेबिलिस्टिक प्रिंसिपल कंपोनेंट एनालिसिस ) PCA के बारे में एक संभावित दृष्टिकोण के बारे में आपको आपकी रुचि के अनुसार ढांचा प्रदान कर सकता है। मिंका का कार्य लॉग का एक अनुमान प्रदान करता है। likelihood जहां आपके लैप्लस सन्निकटन का उपयोग करके आपके डेटासेट की अव्यक्त आयामीता है; जैसा कि स्पष्ट रूप से कहा गया है: " लाप्लास विधि का एक सरलीकरण BIC सन्निकटन है। "k Dlogp(D|k)kD

स्पष्ट रूप से यह आपकी समस्या का बायेसियन दृष्टिकोण लेता है जो एआईसी द्वारा उपयोग किए गए सूचना सिद्धांत मानदंड (केएल-विचलन) पर आधारित नहीं है।

मूल "मापदंडों की संख्या का निर्धारण" सवाल के बारे में मुझे भी लगता है कि @ व्हिबर की टिप्पणी सही अंतर्ज्ञान वहन करती है।


मैं AIC बनाम AICc के साथ अलग-अलग आकार के यादृच्छिक मैट्रिसेस पर खेल रहा था। एआईसीसी बेहतर काम कर रही थी। वे संदर्भ अच्छे लगते हैं, लेकिन मुझे अभी तक पचाने का मौका नहीं मिला है।
जॉन

6

पीसीए में "उपयुक्त" घटकों की संख्या का चयन हार्न के समानांतर विश्लेषण (पीए) के साथ सुरुचिपूर्ण ढंग से किया जा सकता है। पत्रों से पता चलता है कि यह मानदंड लगातार अंगूठे के नियमों को बेहतर बनाता है जैसे कोहनी की कसौटी या कैसर का नियम। आर पैकेज "परान" में पीए का कार्यान्वयन है जिसमें केवल माउस क्लिक की एक जोड़ी की आवश्यकता होती है।

बेशक, आपके द्वारा बनाए गए कितने घटक डेटा में कमी के लक्ष्यों पर निर्भर करते हैं। यदि आप केवल "सार्थक" होने वाले विचरण को बनाए रखना चाहते हैं, तो पीए एक इष्टतम कमी देगा। यदि आप मूल डेटा की जानकारी हानि को कम करना चाहते हैं, हालांकि, आपको 95% समझाया गया विचरण को कवर करने के लिए पर्याप्त घटकों को बनाए रखना चाहिए। यह स्पष्ट रूप से पीए की तुलना में कई अधिक घटक रखेगा, हालांकि उच्च-आयामी डेटासेट के लिए, आयामीता में कमी अभी भी काफी होगी।

एक "मॉडल चयन" समस्या के रूप में पीसीए के बारे में एक अंतिम नोट। मैं पीटर के जवाब से पूरी तरह सहमत नहीं हूं। ऐसे कई कागजात मिले हैं, जिन्होंने पीसीए को एक प्रतिगमन-प्रकार की समस्या के रूप में सुधार दिया है, जैसे कि स्पार्स पीसीए, स्पार्स प्रोबेबिलिस्टिक पीसीए या स्कॉटलैस। इन "मॉडल-आधारित" पीसीए समाधानों में, लोडिंग ऐसे पैरामीटर हैं जिन्हें उपयुक्त दंड शर्तों के साथ 0 पर सेट किया जा सकता है। संभवतः, इस संदर्भ में, विचाराधीन मॉडल के लिए एआईसी या बीआईसी प्रकार के आंकड़ों की गणना करना भी संभव होगा।

इस दृष्टिकोण में सैद्धांतिक रूप से एक मॉडल शामिल हो सकता है, जहां, उदाहरण के लिए, दो पीसी अप्रतिबंधित हैं (सभी लोडिंग-शून्य), बनाम एक मॉडल जहां पीसी 1 अप्रतिबंधित है और पीसी 2 में सभी लोडिंग सेट हैं 0. यह पीसी 2 बेमानी है या नहीं, यह अनुमान लगाने के बराबर होगा। कुल मिलाकर।

संदर्भ (पीए) :

  • दीनो, ए। (2012)। परान: प्रिंसिपल कम्पोनेंट्स / फैक्टर्स का हॉर्न टेस्ट। आर पैकेज संस्करण 1.5.1। http://CRAN.R-project.org/package=paran
  • हॉर्न जेएल 1965। कारक विश्लेषण में कारकों की संख्या के लिए एक तर्क और एक परीक्षण। साइकोमेट्रिक । 30: 179–185
  • हबर्ड, आर। और एलन एसजे (1987)। प्रमुख घटक निष्कर्षण के लिए वैकल्पिक तरीकों की एक अनुभवजन्य तुलना। जर्नल ऑफ बिजनेस रिसर्च, 15 , 173-190।
  • Zwick, WR & Velicer, WF 1986. घटकों की संख्या को पुनः निर्धारित करने के लिए पांच नियमों की तुलना। मनोवैज्ञानिक बुलेटिन। 99 : 432-442

साइट पर आपका स्वागत है, @BenM। आपके उत्तर से, मुझे लगता है कि यह आपके आस-पास अच्छा होगा (हालाँकि मुझे आपके दावों का मूल्यांकन करने के लिए मूल बातें से परे पीसीए के बारे में पर्याप्त नहीं पता है)। एक प्रश्न, आप ध्यान दें कि इन पदों को अच्छी तरह से स्थापित किया गया है, क्या आप कुछ प्रतिनिधि प्रकाशनों को सूचीबद्ध कर सकते हैं जहां इच्छुक पाठक अधिक विवरण पा सकते हैं?
गूँग -

-1

AIC को मॉडल चयन के लिए डिज़ाइन किया गया है। यह वास्तव में एक मॉडल चयन समस्या नहीं है और शायद आप एक अलग दृष्टिकोण लेने से बेहतर होंगे। एक वैकल्पिक विकल्प की कुल निश्चित प्रतिशत निर्दिष्ट करना हो सकता है (जैसे कि 75% कहना) और रोकें जब प्रतिशत 75% तक पहुंचता है अगर यह कभी भी करता है।


1
मैं कारकों की संख्या के आधार पर विभिन्न मॉडलों के बीच चयन कर रहा हूं (1 कारक बनाम मॉडल 2, आदि के साथ मॉडल)। विचरण के प्रतिशत के साथ समस्या मुख्य रूप से यह है कि यह अतिरिक्त आइजनवेक्टरों के आकलन की लागत को अनदेखा करता है, खासकर जब प्रेक्षणों की संख्या चरों की संख्या से कम हो। एआईसी एक संभावित पीसीए दृष्टिकोण के साथ अच्छी तरह से फिट बैठता है।
जॉन

3
माइकल, क्या आप ठीक से समझा सकते हैं कि यह एक मॉडल चयन समस्या क्यों नहीं है? ऐसा लग रहा है कि जॉन ने इसे स्पष्ट रूप से एक के रूप में तैयार किया है।
whuber

@whuber सांख्यिकीय मॉडल क्या है? यह मुझे लगता है कि एक चर Y में विचरण के x% का प्रतिनिधित्व करने के लिए उपयोग किए जाने वाले प्रमुख घटक की संख्या तय करना एक मॉडल का चयन नहीं कर रहा है। मैं प्रिंसिपल घटकों को मॉडल पैरामीटर के रूप में नहीं सोचूंगा।
माइकल आर। चेरिक

2
2 डी वैक्टर पर विचार करें ने से iid खींचा है । हम दो और एक सहसंबंध संदर्भ में को कर सकते हैं । इस मॉडल के भीतर नेस्टेड मॉडल होगा । अब, हम इसे पहले प्रमुख घटक के कोण और उन घटकों के eigenvalues के संदर्भ में भी पैरामीटर कर सकते हैं । इसके भीतर मॉडल । दोनों दृष्टिकोण सही सहसंबंध (संपार्श्विकता) के लिए परीक्षण करते हैं; वे बस विभिन्न मापदंडों का उपयोग करते हैं। यदि आप पहले को एक मॉडल के रूप में अनुमति देते हैं , तो आपको दूसरे को अनुमति देना चाहिए एन ( 0 , Σ ) Σ σ 2 मैं ρ | ρ | = 1 θ λ 1λ 2 λ 2 = 0XiN(0,Σ)Σσi2ρ|ρ|=1θλ1λ2λ2=0
whuber

-3

एआईसी यहां उचित नहीं है। आप विभिन्न मापदंडों की संख्या के साथ मॉडल के बीच चयन नहीं कर रहे हैं - एक प्रमुख घटक एक पैरामीटर नहीं है।

एक कारक विश्लेषण या प्रमुख घटक विश्लेषण से कारकों या घटकों की संख्या पर निर्णय लेने की कई विधियाँ हैं - scree परीक्षण, eigenvalue> 1, आदि। लेकिन वास्तविक परीक्षण मूल है: कारकों की संख्या क्या समझ में आती है ? कारकों को देखें, वजन पर विचार करें, यह पता लगाएं कि आपके डेटा के लिए सबसे उपयुक्त है।

आंकड़ों में अन्य चीजों की तरह, यह ऐसी चीज नहीं है जिसे आसानी से स्वचालित किया जा सके।


4
यदि "एक प्रमुख घटक एक पैरामीटर नहीं है", तो एक फ़ियोरियरी कोई गुणांक of एक पैरामीटर हो सकता है, या तो (क्योंकि पूरी तरह से प्रमुख घटक अपघटन द्वारा निर्धारित किया जाता है)। यह एक हैरान करने वाला जोर है। ΣΣΣ
whuber

1
@whuber एक covariance मैट्रिक्स का एक पैरामीटर हो सकता है लेकिन एक मॉडल पैरामीटर नहीं। मैंने इस पर पीटर का साथ दिया।
माइकल आर। चेरिक

3
पीटर, वास्तव में आप "मॉडल पैरामीटर" और "पैरामीटर" के बीच क्या अंतर कर रहे हैं? मैं इस तरह की किसी भी चीज से अनजान हूं और इसलिए इस बारे में सीखना अच्छा होगा। यदि आपका उद्देश्य बहुभिन्नरूपी सहसंयोजकों का व्यापक वर्णन खोजना है, तो क्या वे "मॉडल" मापदंडों का गठन नहीं करते हैं?
whuber

3
पीटर, इस पर बहुत से काम "निम्न-श्रेणी के मॉडल" के नाम से किए गए हैं। अनुप्रयोगों में समय श्रृंखला के वर्णक्रमीय विश्लेषण, इसके स्थानिक सामान्यीकरण और विभाजन शामिल हैं। समय श्रृंखला मामले में, उदाहरण के लिए, टिप्पणियों का एक क्रम फूरियर श्रृंखला घटकों द्वारा संक्षेपित किया जा सकता है , अनिवार्य रूप से एक ही मशीनरी और पीसीए के रूप में अवधारणाओं का उपयोग करते हुए: एक eigenvectors (यानी, साइन और कोसाइन तरंगों) को बनाए रखता है। सबसे बड़ी प्रतिध्वनि (जो कि तरंगों के आयाम या शक्तियां हैं)। m nnmn
whuber

1
जानकारी के लिए धन्यवाद। समय श्रृंखला आँकड़ों का एक क्षेत्र है जिसके बारे में मुझे कम जानकारी है।
पीटर Flom - को पुनः स्थापित मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.