सुविधा चयन के लिए एक उपकरण के रूप में पीसीए का उपयोग करते समय मूल विचार उनके गुणांक ( लोडिंग ) के परिमाण (सबसे बड़े से सबसे छोटे से पूर्ण मूल्यों में) के अनुसार चर का चयन करना है । आपको याद हो सकता है कि PCA मूल चर के k < p असंबद्ध रेखीय संयोजनों (अनुमानों) द्वारा (अधिक या कम सहसंबद्ध) चर को बदलने का प्रयास करता है । आइए नजरअंदाज करें कि हाथ में समस्या के लिए एक इष्टतम कश्मीर कैसे चुनें । उन k मूल घटकों को उनके स्पष्ट रूप से विचरण के माध्यम से महत्व दिया गया है, और प्रत्येक चर प्रत्येक घटक के लिए अलग-अलग डिग्री के साथ योगदान देता है। सबसे बड़ी भिन्नता मानदंड का उपयोग करना सुविधा निष्कर्षण के समान होगाpk<pkk , जहां मूल घटकों को मूल चर के बजाय नई सुविधाओं के रूप में उपयोग किया जाता है। हालाँकि, हम केवल पहला घटक रखने का निर्णय ले सकते हैं और वैरिएबल का चयन कर सकते हैं, जिसमें उच्चतम निरपेक्ष गुणांक है; संख्या j चर की संख्या के अनुपात पर आधारित हो सकती है (उदाहरण के लिए, केवल 10% p चर के शीर्ष पर रखें ), या एक निश्चित कटऑफ (जैसे, सामान्यीकृत गुणांक पर एक सीमा को देखते हुए)। यह दृष्टिकोण दंडित प्रतिगमन (या पीएलएस प्रतिगमन) में लासो ऑपरेटर के साथ कुछ समानता रखता है । हालांकि, न तो जम्मू के मूल्य , और न ही बनाए रखने के लिए घटकों की संख्या स्पष्ट विकल्प हैं।j<pjpj
पीसीए का उपयोग करने के साथ समस्या यह है कि (1) सभी मूल चर से माप निम्न आयामी अंतरिक्ष के प्रक्षेपण में उपयोग किया जाता है, (2) केवल रैखिक संबंधों पर विचार किया जाता है, और (3) पीसीए या एसवीडी-आधारित तरीके, साथ ही साथ univariate स्क्रीनिंग विधियों (t-test, correlation, आदि) के रूप में, डेटा संरचना की संभावित बहुभिन्नरूपी प्रकृति (जैसे, चर के बीच उच्च क्रम इंटरैक्शन) को ध्यान में नहीं रखते हैं।
बिंदु 1 के बारे में, कुछ और विस्तृत स्क्रीनिंग विधियों का प्रस्ताव किया गया है, उदाहरण के लिए प्रिंसिपल फ़ीचर एनालिसिस या स्टेप वाइज विधि, जैसे कि जीन एक्सप्रेशन अध्ययन में ' जीन शेविंग ' के लिए इस्तेमाल किया जाता है । इसके अलावा, विरल पीसीए का उपयोग आयाम में कमी और चर चयन के परिणामस्वरूप चर चर के आधार पर किया जा सकता है। बिंदु 2 के बारे में, कर्नेल पीसीए ( कर्नेल ट्रिक का उपयोग करके ) का उपयोग करना संभव है, अगर किसी को गैर-रेखीय संबंधों को कम आयामी स्थान में एम्बेड करने की आवश्यकता होती है। निर्णय के पेड़ , या यादृच्छिक वन एल्गोरिथ्म बेहतर, शायद बिंदु 3 को हल करने में सक्षम हैं। बाद वाले को गनी- या चर महत्व के क्रमपरिवर्तन-आधारित उपायों को प्राप्त करने की अनुमति देता है ।
एक अंतिम बिंदु: यदि आप एक वर्गीकरण या प्रतिगमन मॉडल को लागू करने से पहले सुविधा चयन करने का इरादा रखते हैं, तो पूरी प्रक्रिया को पार करना सुनिश्चित करें ( सांख्यिकीय शिक्षा के तत्वों के process7.10.2 देखें , या एम्ब्रोइज़ और मैकलैक्लन , 2002 )।
जैसा कि आप आर समाधान में रुचि रखते हैं, मैं सलाह देता हूं कि कैरेट पैकेज पर एक नज़र डालें, जिसमें वर्गीकरण या प्रतिगमन संदर्भ में डेटा प्रीप्रोसेसिंग और चर चयन के लिए बहुत सारे कार्य शामिल हैं।