पीसीए जब नमूनों की संख्या से अधिक है


21

मैं एक ऐसे परिदृश्य पर आया हूं, जहां मेरे पास 10 लोगों (इसलिए 100 नमूनों) के लिए 10 सिग्नल / व्यक्ति हैं जिसमें 14000 डेटा पॉइंट (आयाम) हैं, जिन्हें मुझे एक क्लासिफायर करने की आवश्यकता है। मैं इस डेटा की गतिशीलता को कम करना चाहूंगा और पीसीए ऐसा करने का तरीका लगता है। हालांकि, मैं केवल पीसीए के उदाहरणों को खोजने में सक्षम रहा हूं जहां नमूनों की संख्या आयामों की संख्या से अधिक है। मैं एक पीसीए एप्लिकेशन का उपयोग कर रहा हूं जो एसवीडी का उपयोग करके पीसी पाता है। जब मैं इसे पास करता हूं तो मेरे 100x14000 डेटासेट में 101 पीसी वापस आ जाते हैं, इसलिए अधिकांश विशाल आयामों को स्पष्ट रूप से अनदेखा कर दिया जाता है। कार्यक्रम इंगित करता है कि पहले 6 पीसी में 90% विचरण होता है।

क्या यह एक उचित धारणा है कि इन 101 पीसी में अनिवार्य रूप से सभी संस्करण शामिल हैं और शेष आयाम उपेक्षित हैं?

मेरे द्वारा पढ़े गए पत्रों में से एक का दावा है कि, अपने समान (हालांकि थोड़ी कम गुणवत्ता वाले) डेटासेट का उपयोग करते हुए, वे मूल जानकारी के 96% को बनाए रखते हुए 4500 आयामों को 80 तक कम करने में सक्षम थे। पीसीए तकनीक के विवरणों के बारे में पेपर हैंड-वेव्स, केवल 3100 नमूने उपलब्ध थे, और मेरे पास कम नमूनों पर विश्वास करने का कारण है कि वास्तव में पीसीए (वर्गीकरण चरण से पूर्वाग्रह हटाने के लिए) का उपयोग किया गया था।

क्या मुझे कुछ याद आ रहा है या क्या यह वास्तव में ऐसा तरीका है जो पीसीए का उपयोग उच्च आयामीता-कम नमूना आकार के डेटासेट के साथ किया जाता है? किसी भी प्रतिक्रिया की काफी सराहना की जाएगी।


2
यदि आपके पास आयामों की तुलना में बहुत अधिक डेटा नहीं है, तो यह एक दिशा खोजना मुश्किल है जो कि अधिकांश परिवर्तनशीलता को हटा देता है जो कि पहला मुख्य घटक है। सामान्य तौर पर आयामीता का अभिशाप है। डेटा उच्च आयामों में केंद्र से दूर जाने के लिए जाता है। बेलमैन ने 1960 के दशक में इसके बारे में लिखा था।
माइकल आर। चेरिक

जवाबों:


9

मैं इस समस्या को थोड़ा अलग कोण से देखूंगा: आप केवल 10 विषयों / 100 नमूनों के साथ एक मॉडल को कितना जटिल बना सकते हैं?

और वह सवाल जिसका मैं आमतौर पर जवाब देता हूं: 100 पीसी से बहुत कम। ध्यान दें कि मैं एक अलग प्रकार के डेटा (कंपन स्पेक्ट्रा) पर काम करता हूं, इसलिए चीजें थोड़ी भिन्न हो सकती हैं। मेरे क्षेत्र में एक सामान्य सेट ओ (10) विषयों के ओ (1000) स्पेक्ट्रा से गणना की गई 10 या 25 या 50 पीसी का उपयोग करेगा।

यहाँ मैं क्या करूँगा:

  • उन 100 पीसी द्वारा कवर किए गए विचरण को देखें। मुझे आमतौर पर लगता है कि हमारे डेटा में केवल कुछ घटक ही विचरण में योगदान करते हैं।

  • मैं पीसीए पर क्लैसिफिकेशन के लिए प्री-ट्रीटमेंट के रूप में पीएलएस को बहुत पसंद करता हूं क्योंकि यह उन दिशाओं को छांटने में काफी बेहतर काम करता है जिनमें उच्च भिन्नता होती है जो वर्गीकरण में मदद नहीं करती है (मेरे मामले में जो फोकस विविधताएं हो सकती हैं, नमूना मोटाई भिन्न होती हैं। ..)। मेरे अनुभव में, मुझे अक्सर 10 पीएलएस अव्यक्त चर या 25 से 50 पीसी के साथ समान वर्गीकरण मिलते हैं।

  • सत्यापन के नमूनों को केवल प्रशिक्षण सेट से गणना किए गए पीसीए रोटेशन के साथ संसाधित करने की आवश्यकता होती है, अन्यथा सत्यापन (और इस तरह के चरम मामलों में आपका सबसे अधिक संभव होगा) एक बड़ा ओवरोप्टिमिस्टिक पूर्वाग्रह होगा।
    दूसरे शब्दों में, यदि आप आउट-ऑफ-बूटस्ट्रैप या क्रॉस वेलिडेशन करते हैं, तो पीसीए या पीएलएस प्रीप्रोसेसिंग को प्रत्येक ट्रेन / टेस्ट सेट संयोजन के लिए अलग से गणना करने की आवश्यकता है।


बहुत जानकारीपूर्ण पोस्ट के लिए धन्यवाद। मैं बायोमेट्रिक सिग्नल डेटा के साथ काम कर रहा हूं। उचित प्रदर्शन के साथ वर्गीकरण करने के लिए मुझे 100 पीसी से कम की आवश्यकता है, कहीं-कहीं 25-50 की सीमा ठीक होगी। मैंने अपने नमूने की संख्या को कम करने के लिए अपने नमूने की दर पर कटौती करने पर विचार किया है, जिसकी मुझे जांच करने की आवश्यकता है, लेकिन क्या आप रिज़ॉल्यूशन ट्रेड-ऑफ से इसके लायक होने की उम्मीद करेंगे या क्या इसका कोई प्रभाव पड़ेगा, क्योंकि प्रशिक्षण एक ही आकार का है। ? हालाँकि मुझे पीसीए की आवश्यकता है कि क्षेत्र में अन्य अध्ययनों के अनुरूप हो, मैं निश्चित रूप से एक माध्यमिक दृष्टिकोण के रूप में पीएलएस में देखूंगा।
जेम्स

1
@ नाम: मुझे डर है कि आपके डेटा को जाने बिना नमूना दर प्रश्न का उत्तर नहीं दिया जा सकता है। अनिवार्य रूप से यह प्रभावी नमूना आकार का सवाल है। आगे कुछ भी जाने बिना, हम केवल यह कह सकते हैं कि यह कहीं न कहीं (व्यक्तियों) और एन (नमूनों) के बीच है। यदि 1 व्यक्ति के सभी 10 नमूने एक दूसरे व्यक्ति के नमूनों की तुलना में एक दूसरे के समान हैं, तो अधिक नमूने डेटा सेट में बहुत अधिक जानकारी नहीं जोड़ते हैं। आप जाँच सकते हैं कि सभी नमूनों के साथ एक मॉडल का निर्माण और प्रति व्यक्ति केवल एक नमूने के साथ एक दूसरा मॉडल और उनके प्रदर्शन की तुलना करके।
cbeleites

@ नाम: (भाग 2) यदि आपको लगता है कि एक व्यक्ति के नमूने एक दूसरे के समान हैं, तो आपको ध्यान रखना चाहिए कि सत्यापन और प्रशिक्षण सेट व्यक्ति को साझा नहीं करते हैं (अर्थात एक व्यक्ति के सभी नमूने या तो प्रशिक्षण में हैं या में हैं टेस्ट सेट)।
cbeleites

मेरे पास वापस आने के लिए धन्यवाद। मेरे डेटा में उपयोगकर्ता वर्गों के बीच नमूना स्थान में महत्वपूर्ण ओवरलैप के साथ बहुत अधिक परिवर्तनशीलता है। लेकिन क्षमा करें, मेरा मतलब है कि नमूनों को कम करने के बजाय 14000 डेटा बिंदुओं पर रिज़ॉल्यूशन को कम करें, इसलिए केवल पीसीए में हर 2, 3 या 4 वें बिंदु का उपयोग किया गया था, लेकिन वास्तविक उपयोगकर्ता नमूनों की समान संख्या के साथ। मैं उत्सुक था कि क्या रिज़ॉल्यूशन में इस तरह की गिरावट के सकारात्मक होने की उम्मीद की जाएगी, पीसीए के परिणामों पर बिल्कुल भी सकारात्मक या नकारात्मक प्रभाव नहीं पड़ेगा, मेरे आयाम मेरे नमूनों की तुलना में पहले से ही बहुत बड़े हैं।
जेम्स

1
@ जेम्स, यह फिर से निर्भर करता है। लेकिन केवल हर n बिंदु का उपयोग करने के बजाय , मैं प्रत्येक n अंक को औसत / कम करने की सलाह दूंगा, इसलिए आप आयाम को कम करते हैं और शोर अनुपात में संकेत बढ़ाते हैं। पता लगाना कि क्या (जो भी आपके डेटा बिंदु आयाम है, मैं "वर्णक्रमीय" यहां डालूंगा) संकल्प आपको अपनी समस्या / डेटा / क्लासिफायर विशेषता के लक्षण वर्णन का एक बिंदु IMHO है। th
cbeleites

9

यदि अंकों की संख्या है और आयामों की संख्या और तो गैर-शून्य विचरण वाले प्रमुख घटकों की संख्या (कच्चे डेटा पर PCA करते समय) या (PCA करते समय ) से अधिक नहीं हो सकती केंद्रित डेटा - हमेशा की तरह)।npnpnn1


2
दूसरे शब्दों में, 100 PC आकार के डेटा सेट (100 x 1400) में पूरे विचरण को कवर करता है। गणितीय रूप से, इस डेटा सेट में कोई और परिवर्तन नहीं हो सकता है। चीजें अलग हो सकती हैं, यदि आप जमीनी आबादी में विचरण को देखते हैं जो आपके डेटा सेट द्वारा नमूना है।
केबेलाइट्स मोनिका का समर्थन

2
@ ttnphns: एक उद्धरण के बारे में जानते हैं जो बताता है कि आप यहाँ क्या कहते हैं?
पैट्रिक


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.