मैं एक ऐसे परिदृश्य पर आया हूं, जहां मेरे पास 10 लोगों (इसलिए 100 नमूनों) के लिए 10 सिग्नल / व्यक्ति हैं जिसमें 14000 डेटा पॉइंट (आयाम) हैं, जिन्हें मुझे एक क्लासिफायर करने की आवश्यकता है। मैं इस डेटा की गतिशीलता को कम करना चाहूंगा और पीसीए ऐसा करने का तरीका लगता है। हालांकि, मैं केवल पीसीए के उदाहरणों को खोजने में सक्षम रहा हूं जहां नमूनों की संख्या आयामों की संख्या से अधिक है। मैं एक पीसीए एप्लिकेशन का उपयोग कर रहा हूं जो एसवीडी का उपयोग करके पीसी पाता है। जब मैं इसे पास करता हूं तो मेरे 100x14000 डेटासेट में 101 पीसी वापस आ जाते हैं, इसलिए अधिकांश विशाल आयामों को स्पष्ट रूप से अनदेखा कर दिया जाता है। कार्यक्रम इंगित करता है कि पहले 6 पीसी में 90% विचरण होता है।
क्या यह एक उचित धारणा है कि इन 101 पीसी में अनिवार्य रूप से सभी संस्करण शामिल हैं और शेष आयाम उपेक्षित हैं?
मेरे द्वारा पढ़े गए पत्रों में से एक का दावा है कि, अपने समान (हालांकि थोड़ी कम गुणवत्ता वाले) डेटासेट का उपयोग करते हुए, वे मूल जानकारी के 96% को बनाए रखते हुए 4500 आयामों को 80 तक कम करने में सक्षम थे। पीसीए तकनीक के विवरणों के बारे में पेपर हैंड-वेव्स, केवल 3100 नमूने उपलब्ध थे, और मेरे पास कम नमूनों पर विश्वास करने का कारण है कि वास्तव में पीसीए (वर्गीकरण चरण से पूर्वाग्रह हटाने के लिए) का उपयोग किया गया था।
क्या मुझे कुछ याद आ रहा है या क्या यह वास्तव में ऐसा तरीका है जो पीसीए का उपयोग उच्च आयामीता-कम नमूना आकार के डेटासेट के साथ किया जाता है? किसी भी प्रतिक्रिया की काफी सराहना की जाएगी।