PCA करते समय कितने आयाम कम करने हैं?


12

PCA के लिए K कैसे चुनें? K नीचे प्रोजेक्ट करने के लिए आयामों की संख्या है। केवल आवश्यकता बहुत अधिक जानकारी नहीं खोना है। मैं समझता हूं कि यह डेटा पर निर्भर करता है, लेकिन मैं एक सामान्य सामान्य अवलोकन के लिए अधिक देख रहा हूं कि K चुनते समय किन विशेषताओं पर विचार करना चाहिए।


सहनीय डेटा हानि पर निर्भर करता है, और समस्या कथन पर भी!
Dawny33

मैं नीचे दिए गए दो उत्तरों से सहमत हूं। हालांकि, क्या आपको पता है कि सहसंयोजक मैट्रिक्स के एसवीडी के विकर्ण का उपयोग करते हुए, जानकारी के नुकसान की मात्रा निर्धारित करने का एक सरल तरीका है?
युकेअन

जवाबों:


13

पीसीए एल्गोरिदम का प्रदर्शन करने के बाद, आपको मुख्य घटक मिलते हैं, उनके द्वारा रखी गई जानकारी की मात्रा के अनुसार। यदि आप पूरा सेट रखते हैं तो कोई जानकारी नहीं खो जाती है। उन्हें एक-एक करके निकालना और उन्हें मूल स्थान पर वापस लाकर आप जानकारी की हानि की गणना कर सकते हैं। आप हटाए गए प्रमुख घटकों की संख्या के खिलाफ इस जानकारी के नुकसान की साजिश कर सकते हैं और देख सकते हैं कि क्या यह एक 'कोहनी' बनाता है जहां यह समझ में आता है। हालांकि यह आपके उपयोग के मामले पर निर्भर करता है।


(+1) हाँ, यह :) के रूप में सरल रूप में
Dawny33

3

मैं आमतौर पर K मान द्वारा रखी गई जानकारी के प्रतिशत की जांच करता हूं। मान लीजिए कि 8 क्षेत्रों में से 2 में 90% जानकारी है। फिर अन्य 6 या 5 क्षेत्रों को शामिल करने का कोई मतलब नहीं है। अगर आपको पता है कि mnist डेटा, 768 इनपुट से बाहर है, तो मैंने केवल 250 का उपयोग किया, जिसने 83 से 96% तक मेरी सटीकता को टक्कर दी। तथ्य अधिक आयामी है और अधिक समस्या लाता है। इसलिए उन्हें काट दिया। मैं आमतौर पर केवल K लेता हूं जो केवल 90% जानकारी रखता है, और यह मेरे लिए काम करता है।


नमस्ते .. मुझे एक समान समस्या है जहां मैं x% जानकारी का उपयोग करना चाहूंगा और यह कैसे करूं? मैं ऐसा करने के लिए IPCA का उपयोग करने का इरादा रखता हूं मैं n_compenders = कोई नहीं छोड़ सकता लेकिन मैं कैसे तय करूं कि क्या विशेषताएं हैं जिनमें डेटा का x% है?
आर्सेनल फैनेटिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.