सुविधा चयन के लिए प्रमुख घटक विश्लेषण (पीसीए) का उपयोग करना


54

मैं फीचर चयन के लिए नया हूं और मैं सोच रहा था कि आप फीचर चयन करने के लिए पीसीए का उपयोग कैसे करेंगे। क्या पीसीए प्रत्येक इनपुट चर के लिए एक सापेक्ष स्कोर की गणना करता है जिसे आप नॉनफॉर्मेटिव इनपुट चर को फ़िल्टर करने के लिए उपयोग कर सकते हैं? मूल रूप से, मैं डेटा में मूल विशेषताओं को निहित करने या निहित जानकारी की मात्रा के लिए सक्षम होना चाहता हूं।

जवाबों:


75

सुविधा चयन के लिए एक उपकरण के रूप में पीसीए का उपयोग करते समय मूल विचार उनके गुणांक ( लोडिंग ) के परिमाण (सबसे बड़े से सबसे छोटे से पूर्ण मूल्यों में) के अनुसार चर का चयन करना है । आपको याद हो सकता है कि PCA मूल चर के k < p असंबद्ध रेखीय संयोजनों (अनुमानों) द्वारा (अधिक या कम सहसंबद्ध) चर को बदलने का प्रयास करता है । आइए नजरअंदाज करें कि हाथ में समस्या के लिए एक इष्टतम कश्मीर कैसे चुनें । उन k मूल घटकों को उनके स्पष्ट रूप से विचरण के माध्यम से महत्व दिया गया है, और प्रत्येक चर प्रत्येक घटक के लिए अलग-अलग डिग्री के साथ योगदान देता है। सबसे बड़ी भिन्नता मानदंड का उपयोग करना सुविधा निष्कर्षण के समान होगाpk<pkk , जहां मूल घटकों को मूल चर के बजाय नई सुविधाओं के रूप में उपयोग किया जाता है। हालाँकि, हम केवल पहला घटक रखने का निर्णय ले सकते हैं और वैरिएबल का चयन कर सकते हैं, जिसमें उच्चतम निरपेक्ष गुणांक है; संख्या j चर की संख्या के अनुपात पर आधारित हो सकती है (उदाहरण के लिए, केवल 10% p चर के शीर्ष पर रखें ), या एक निश्चित कटऑफ (जैसे, सामान्यीकृत गुणांक पर एक सीमा को देखते हुए)। यह दृष्टिकोण दंडित प्रतिगमन (या पीएलएस प्रतिगमन) में लासो ऑपरेटर के साथ कुछ समानता रखता है । हालांकि, न तो जम्मू के मूल्य , और न ही बनाए रखने के लिए घटकों की संख्या स्पष्ट विकल्प हैं।j<pjpj

पीसीए का उपयोग करने के साथ समस्या यह है कि (1) सभी मूल चर से माप निम्न आयामी अंतरिक्ष के प्रक्षेपण में उपयोग किया जाता है, (2) केवल रैखिक संबंधों पर विचार किया जाता है, और (3) पीसीए या एसवीडी-आधारित तरीके, साथ ही साथ univariate स्क्रीनिंग विधियों (t-test, correlation, आदि) के रूप में, डेटा संरचना की संभावित बहुभिन्नरूपी प्रकृति (जैसे, चर के बीच उच्च क्रम इंटरैक्शन) को ध्यान में नहीं रखते हैं।

बिंदु 1 के बारे में, कुछ और विस्तृत स्क्रीनिंग विधियों का प्रस्ताव किया गया है, उदाहरण के लिए प्रिंसिपल फ़ीचर एनालिसिस या स्टेप वाइज विधि, जैसे कि जीन एक्सप्रेशन अध्ययन में ' जीन शेविंग ' के लिए इस्तेमाल किया जाता है । इसके अलावा, विरल पीसीए का उपयोग आयाम में कमी और चर चयन के परिणामस्वरूप चर चर के आधार पर किया जा सकता है। बिंदु 2 के बारे में, कर्नेल पीसीए ( कर्नेल ट्रिक का उपयोग करके ) का उपयोग करना संभव है, अगर किसी को गैर-रेखीय संबंधों को कम आयामी स्थान में एम्बेड करने की आवश्यकता होती है। निर्णय के पेड़ , या यादृच्छिक वन एल्गोरिथ्म बेहतर, शायद बिंदु 3 को हल करने में सक्षम हैं। बाद वाले को गनी- या चर महत्व के क्रमपरिवर्तन-आधारित उपायों को प्राप्त करने की अनुमति देता है ।

एक अंतिम बिंदु: यदि आप एक वर्गीकरण या प्रतिगमन मॉडल को लागू करने से पहले सुविधा चयन करने का इरादा रखते हैं, तो पूरी प्रक्रिया को पार करना सुनिश्चित करें ( सांख्यिकीय शिक्षा के तत्वों के process7.10.2 देखें , या एम्ब्रोइज़ और मैकलैक्लन , 2002 )।


जैसा कि आप आर समाधान में रुचि रखते हैं, मैं सलाह देता हूं कि कैरेट पैकेज पर एक नज़र डालें, जिसमें वर्गीकरण या प्रतिगमन संदर्भ में डेटा प्रीप्रोसेसिंग और चर चयन के लिए बहुत सारे कार्य शामिल हैं।


1
यहां बहुत सारी अच्छी जानकारी है, लेकिन मुझे आश्चर्य है कि ईएफए का कोई उल्लेख नहीं है। मुझे लगता है कि चयन / आयामीता में कमी, और पीसीए के रूप में वास्तव में केवल आपके डेटा का प्रतिनिधित्व करने के लिए उपयुक्त है जैसे कि चर असम्बद्ध हैं, कारक विश्लेषण के बारे में सोचते हैं। मुझे लगता है कि आप असहमत हैं?
गंग -

3
np

यह स्पष्ट रूप से एक कठिन, बारीक मुद्दा है। चूंकि आप इसके बारे में बहुत कुछ जानते हैं, इसलिए मुझे आपकी राय में दिलचस्पी थी। +1, btw।
गंग -

2
दो टिप्पणियाँ। सबसे पहले, आप केपीसीए को अपनी बात के लिए एक संभावित समाधान के रूप में उल्लेख करते हैं। 2. लेकिन केपीसीए का उपयोग सुविधा चयन के लिए कैसे किया जा सकता है, जब ईजेनवेक्टर / लोडिंग उपलब्ध नहीं हैं? इसके बारे में एक अतिरिक्त प्रश्न है, और मैंने वहां तर्क दिया कि यह नहीं हो सकता । दूसरा, अंतिम पैराग्राफ से पहले आपका दूसरा बहुत सुधार कर सकता है यदि आपने LASSO का उल्लेख किया है, तो प्रतिगमन में सुविधा चयन करने के लिए एक पसंदीदा (?) तरीके के रूप में। यह धागा बहुत लोकप्रिय है और इसके डुप्लिकेट के रूप में कई प्रश्न बंद हैं, इसलिए यह महत्वपूर्ण है कि आपका उत्तर यथासंभव उत्कृष्ट हो!
अमीबा का कहना है कि मोनिका

@chl, आपके सूचनात्मक उत्तर के लिए धन्यवाद। आप "केवल पहले घटक को रखने का निर्णय" के बारे में बात करते हैं। केवल पहला घटक क्यों? एक घटक के साथ सुविधाओं / चर को रैंक करना आसान है। आप ऐसा कैसे करेंगे जिसमें कई घटक हों, 3 कहें। आप घटकों के चर को कैसे रैंक करते हैं? मुझे लगता है कि आप प्रत्येक प्रमुख घटक के माध्यम से जा सकते हैं, और उस प्रमुख घटक से सबसे बड़ी लोडिंग के साथ सुविधा चुन सकते हैं, उन विशेषताओं के सेट से जो पहले से ही नहीं ली गई हैं। इन्हें फिर से एक संख्या (j) या सामान्यीकृत गुणांक की सीमा के द्वारा उठाया जा सकता है। क्या आप सहमत हैं?
5

6

एन सुविधाओं के एक सेट को देखते हुए एक पीसीए विश्लेषण का उत्पादन होगा (1) उच्चतम विचरण (पहले पीसीए घटक) के साथ सुविधाओं के रैखिक संयोजन, (2) सबसे पहले विराट उप-वर्ग के लिए उप-कक्ष में उच्चतम विचरण के साथ रैखिक संयोजन। (बाधा के तहत कि संयोजन के गुणांक इकाई मानदंड के साथ एक वेक्टर बनाते हैं) क्या अधिकतम विचरण के साथ रैखिक संयोजन एक "अच्छा" सुविधा है जो वास्तव में उस पर निर्भर करता है जो आप भविष्यवाणी करने की कोशिश कर रहे हैं। इस कारण से मैं कहूंगा कि एक पीसीए घटक होने के नाते और एक "अच्छी" विशेषताएं होने के नाते (सामान्य रूप से) दो असंबंधित धारणाएं हैं।


(-1) मैं यह नहीं देखता कि यह मूल प्रश्न का उत्तर कैसे देता है।
अमीबा का कहना है कि

-1

आप उनके विचरण के अनुसार सुविधाओं का आदेश नहीं दे सकते हैं, क्योंकि पीसीए में प्रयुक्त विचरण मूल रूप से एक बहुआयामी इकाई है। आप केवल चुनिंदा दिशा के लिए विचरण के प्रक्षेपण के द्वारा सुविधाओं का आदेश दे सकते हैं (जो कि सामान्य रूप से पहला प्रमुख संकलक है।) तो, दूसरे शब्द में, चाहे किसी विशेषता में अन्य की तुलना में अधिक विचरण हो, जो इस बात पर निर्भर करता है कि आप अपनी प्रक्षेपण दिशा का चुनाव कैसे करते हैं।


2
मुझे समझ में नहीं आता: प्रत्येक मूल विशेषता में एक विचरण होता है, और इसलिए एक निश्चित रूप से "उनके विचरण के अनुसार सुविधाओं का आदेश दे सकता है "। इसके अलावा, मुझे समझ में नहीं आता है कि कोई व्यक्ति "आपके द्वारा चुनी गई दिशा के लिए विचरण के प्रक्षेपण" द्वारा उन्हें कैसे ऑर्डर कर सकता है। उससे तुम्हारा क्या मतलब है?
अमीबा का कहना है कि मोनिका

आप सुविधाओं को ऑर्डर करने के लिए वास्तव में भिन्नता का उपयोग कर सकते हैं, बस फिर पीसीए के साथ कुछ भी करना है, जो सभी विशेषताओं को एक साथ मानता है।
जेम्स लि

प्रक्षेपण के बारे में: यदि आपके पास एन विशेषताएं हैं, तो एक दिशा वेक्टर एन-आयामी अंतरिक्ष में सिर्फ एक इकाई वेक्टर है; आपके एम आवृत्ति वैक्टर का प्रक्षेपण उस यूनिट वेक्टर के साथ इंस्टेंट वेक्टर का पैमाना है, जिसके परिणामस्वरूप आयामी वेक्टर होता है। और इस m- आयामी वेक्टर का विचरण यह है कि चुने हुए दिशा के लिए डेटासेट के विचरण का "प्रक्षेपण" है।
जेम्स एलआई

1
-1। मुझे लगता है कि आपके उत्तर में तीन में से हर एक वाक्य या तो गलत है या इतना अस्पष्ट है कि यह भ्रामक है। मैं टिप्पणियों में आपके द्वारा लिखी गई हर बात से सहमत हूं, लेकिन मुझे इस बात का कोई अंदाजा नहीं है कि आपके उत्तर का अर्थ क्या हो सकता है। "आप उनके विचरण के अनुसार सुविधाओं का आदेश नहीं दे सकते हैं" - ?? "आप केवल कुछ निश्चित दिशा में विचरण के प्रक्षेपण के द्वारा सुविधाओं का आदेश दे सकते हैं" - ?? "क्या किसी फीचर में अधिक भिन्नता है ... निर्भर करता है ..." - ?? वह सब गलत है।
अमीबा का कहना है कि मोनिका

2
मुझे यह ज्ञात नहीं था कि यह प्रश्न इतने समय पहले पूछा गया है; और मैं इनमें से अधिकांश प्रतिक्रियाओं से सहमत हूं। मेरा कहना है: पीसीए सुविधा चयन के लिए उपयुक्त नहीं है। यहाँ कोई भी यह सीधे तौर पर कहना नहीं चाहता।
जेम्स एलआई
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.