प्रतिगमन में शामिल करने के लिए विरल प्रमुख घटकों की संख्या का चयन करना


9

क्या किसी को प्रतिगमन मॉडल में शामिल करने के लिए विरल प्रमुख घटकों की संख्या का चयन करने के लिए दृष्टिकोण के साथ अनुभव है?


मेरे पास विशेष रूप से इसका अनुभव नहीं है, लेकिन मैं यह मानूंगा कि क्रॉस-वैरिफिकेशन एक अच्छा तरीका होगा (हमेशा की तरह)।
अमीबा

जवाबों:


4

जब मुझे आपके प्रश्न के बारे में प्रत्यक्ष जानकारी नहीं है, तो मैंने कुछ शोध पत्रों को चलाया , जो आपकी रुचि के हो सकते हैं। यह निश्चित रूप से, अगर मैं सही ढंग से समझता हूं कि आप विरल पीसीए , प्रमुख घटक प्रतिगमन और संबंधित विषयों के बारे में बात कर रहे हैं । उस स्थिति में, यहां कागजात हैं:


1
मुझे इन सभी संदर्भों के बारे में नहीं पता था। वे बहुत अच्छे हैं - धन्यवाद।
फ्रैंक हार्डेल

@FrankHarrell: आपका बहुत बहुत स्वागत है! मैं खुशी से मदद कर सकता है।
०३०१४ से le३०१ तक

1

क्रॉस सत्यापन परिणाम भी LSI अंतरिक्ष के लिए आयाम की इष्टतम संख्या निर्धारित करने के लिए इस्तेमाल किया गया था। बहुत कम आयामों ने डेटा की भविष्यवाणी की शक्ति का लाभ नहीं उठाया; जबकि बहुत से आयामों का परिणाम ओवर-फिटिंग था। अंजीर। 4 LSI आयामों की विभिन्न संख्याओं वाले मॉडल के लिए औसत त्रुटियों के वितरण को दर्शाता है। चार आयामी LSI रिक्त स्थान के साथ मॉडल त्रुटियों की सबसे कम औसत संख्या और त्रुटियों की सबसे कम औसत संख्या दोनों का उत्पादन किया, इसलिए अंतिम मॉडल एक चार आयामी LSI अंतरिक्ष का उपयोग कर बनाया गया था।

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

मैं एक प्रतिलिपि पोस्ट कर सकते हैं अगर आप एक ieee सदस्य नहीं हैं।

यह एक कागज से है जिसे मैंने अंडरग्राउंड में लिखा था। मेरे पास एक समस्या थी जहां मुझे यह तय करने की आवश्यकता थी कि मेरे लॉजिस्टिक रिग्रेशन मॉडल में उपयोग करने के लिए कितने आयाम (अव्यक्त अर्थ इंडेक्सिंग पीसीए के समान हैं)। मैंने जो किया वह मीट्रिक था (यानी .5 की झंडोत्तोलन संभावना का उपयोग करते समय त्रुटि दर) और विभिन्न आयामों पर प्रशिक्षित विभिन्न मॉडलों के लिए इस त्रुटि दर के वितरण को देखा। मैंने तब सबसे कम त्रुटि दर वाले मॉडल को चुना। आप आरओसी वक्र के तहत क्षेत्र जैसे अन्य मैट्रिक्स का उपयोग कर सकते हैं।

आप अपने लिए आयामों की संख्या लेने के लिए स्टेप वाइज रिग्रेशन जैसी किसी चीज़ का उपयोग कर सकते हैं। आप किस प्रकार के प्रतिगमन को विशेष रूप से पसंद कर रहे हैं?

विरल btw से आपका क्या अभिप्राय है?


स्पार्स पीसी उदाहरण के लिए L1 (लैस्सो) -पैनेलाइज्ड पीसीए है। साधारण पीसीए में हम आमतौर पर बताए गए भिन्नता के क्रम में शब्द दर्ज कर सकते हैं। विरल के साथ पीसीए चीजें थोड़ी अधिक अनिश्चित हैं इसलिए चयन शायद अधिक कठिन है।
फ्रैंक हर्रेल

सवाल के बारे में विशेष रूप से किया गया था विरल प्रमुख घटक है, और इस जवाब (यह है अच्छा के रूप में) यह समाधान नहीं करता है सब पर है, इसलिए -1।
अमीबा

जब तक विशेष दंड कार्यों को शामिल नहीं किया जाता है, तब तक के साथ संघों के आधार पर घटकों का चयन करने वाले स्टेपवाइज रिग्रेशन ओवरफिटिंग का परिणाम होगा। Y
फ्रैंक हरेल

@FrankHarrell संभावित रूप से हो सकता है, लेकिन अगर आप R-squared के बजाय AIC का उपयोग करते हैं, तो ऐसा होने का खतरा कम है
एंड्रयू कैसिडी

@amoeba मैं भ्रमित हूँ ... नहीं, मैंने मुख्य टिप्पणियों के "विरल" भाग को संबोधित नहीं किया है, लेकिन आपने टिप्पणी में क्रॉस सत्यापन का उपयोग करने के लिए सटीक सुझाव दिया है?
एंड्रयू कैसिडी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.