पीसीए फिट की गुणवत्ता का आकलन करने के लिए अच्छे मैट्रिक्स क्या हैं, ताकि घटकों की संख्या का चयन किया जा सके?


10

प्रमुख घटक विश्लेषण (पीसीए) की गुणवत्ता का आकलन करने के लिए एक अच्छा मीट्रिक क्या है?

मैंने एक एल्गोरिथ्म पर इस एल्गोरिथ्म का प्रदर्शन किया। मेरा उद्देश्य सुविधाओं की संख्या को कम करना था (जानकारी बहुत बेमानी थी)। मुझे पता है कि हमारे पास रखी गई भिन्नता का प्रतिशत इस बात का एक अच्छा संकेतक है कि हम कितनी जानकारी रखते हैं, क्या कोई अन्य सूचना मीट्रिक है जिसका उपयोग मैं यह सुनिश्चित करने के लिए कर सकता हूं कि मैंने अनावश्यक जानकारी को हटा दिया है और ऐसी जानकारी को 'खो' नहीं सकता है?


3
कड़ाई से बोलना, "अनावश्यक" जानकारी नहीं है, जब तक कि आपके प्रारंभिक डेटा पूरी तरह से मेल नहीं खाते। आम तौर पर विचरण का प्रतिशत बरकरार रहता है ("हमने पहले पांच प्रमुख घटकों का उपयोग किया था, जो कि विचरण के 90% के लिए जिम्मेदार थे")। मुझे विकल्प देखने में दिलचस्पी है।
स्टीफन कोलासा

चूँकि आपका एक टैग सूचना सिद्धांत है: पीसीए काम करता है या नहीं, इसका आकलन करने का एक अप्रत्यक्ष तरीका यह है कि उन सूचनाओं की जाँच करें जिनके तहत सूचना सिद्धांत हमें बताता है कि किसी दिए गए आयाम में कमी के लिए कम जानकारी हानि है। विकी का कहना है कि ऐसा तब होता है जब आपका डेटा गॉसियन सिग्नल प्लस गॉसियन शोर का योग होता है। en.wikipedia.org/wiki/…
CloseToC

जवाबों:


17

मैं इस सवाल का हिस्सा मानता हूं कि क्या संचयी प्रतिशत भिन्नता (CPV) और इसी तरह के डरावने कथानक दृष्टिकोण के अलावा अन्य मीट्रिक मौजूद हैं। इसका उत्तर है, हाँ, कई

कुछ विकल्पों पर एक बेहतरीन पेपर है वैले 1999:

यह सीपीवी से अधिक है, लेकिन यह भी समानांतर विश्लेषण, क्रॉस-सत्यापन, पुनर्निर्माण त्रुटि का सार (सूचना), सूचना मानदंड आधारित तरीके, और बहुत कुछ है। आप VRE की तुलना और उपयोग करने के बाद कागज द्वारा की गई सिफारिश का पालन कर सकते हैं, लेकिन PRESS पर आधारित क्रॉस-मान्यता भी मेरे अनुभव में अच्छी तरह से काम करती है और उन्हें इसके साथ अच्छे परिणाम भी मिलते हैं। मेरे अनुभव में, सीपीवी सुविधाजनक और आसान है, और एक अच्छा काम करता है, लेकिन वे दो तरीके आमतौर पर बेहतर होते हैं।

मूल्यांकन करने के अन्य तरीके हैं कि आपका पीसीए मॉडल कितना अच्छा है यदि आप डेटा के बारे में अधिक जानते हैं। एक तरीका यह है कि अनुमानित पीसीए लोडिंग की तुलना सच्चे लोगों से करें यदि आप उन्हें जानते हैं (जो आप सिमुलेशन में हैं)। यह सच लोडिंग के अनुमानित लोडिंग के पूर्वाग्रह की गणना करके किया जा सकता है। आपका पूर्वाग्रह जितना बड़ा होगा, आपका मॉडल उतना ही बुरा होगा। ऐसा करने के लिए, आप इस पेपर की जांच कर सकते हैं जहां वे तरीकों की तुलना करने के लिए इस दृष्टिकोण का उपयोग करते हैं। यह वास्तविक डेटा मामलों में उपयोग करने योग्य नहीं है, हालांकि, आपको सही पीसीए लोडिंग का पता नहीं है। यह आपके द्वारा हटाए गए टिप्पणियों के प्रभाव के कारण आपके मॉडल के पूर्वाग्रह की तुलना में आपके द्वारा हटाए गए कितने घटकों के लिए कम बोलता है, लेकिन यह अभी भी एक मॉडल गुणवत्ता मीट्रिक के रूप में कार्य करता है।



3

सूचना-सिद्धांत संबंधी मानदंडों के आधार पर भी उपाय हैं जैसे कि

Rissanen के MDL (और विविधताएँ)


@user: 45382 हाँ, यह एक और है। यह भी कागज पर छू लिया है ज़ुबर्ब लिंक करने के लिए।
डेथकिल 14

@ डेथकील 14 सही मैं कागज पढ़ता हूं, सूचना-सिद्धांत संबंधी उपायों का उल्लेख किया जाता है (वास्तव में अच्छे विकल्प के रूप में)
निकोस एम।

MDL, MML और Bayesianism पर एक उत्कृष्ट सैद्धांतिक पेपर: Vitany & Li, Ideal MDL and Its Relation To Bayesianism citeseerx.ist.psu.edu/viewdoc/summary.doi=10.1.1.56.8580 । इसके अलावा एआईसी और बीआईसी जैसे अन्य मॉडल चयन विधियां प्रभावी रूप से एमडीएल के कार्यान्वयन हैं।
ggll
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.