मेरे पास एक बड़ा डेटा सेट है जिसमें कई सौ वित्तीय वैरिएबल्स के मूल्य शामिल हैं जिन्हें समय के साथ इंडेक्स फंड के व्यवहार की भविष्यवाणी करने के लिए कई रिग्रेशन में इस्तेमाल किया जा सकता है। मैं चर की संख्या को घटाकर दस या उससे कम करना चाहूंगा जबकि अभी भी जितना संभव हो उतनी भविष्यवाणियां बरकरार रखूंगा। जोड़ा गया: चर का घटा हुआ सेट मूल चर के आर्थिक अर्थ को संरक्षित करने के लिए मूल चर सेट का सबसेट होना चाहिए। इस प्रकार, उदाहरण के लिए, मुझे रैखिक संयोजनों या मूल चर के समुच्चय के साथ समाप्त नहीं होना चाहिए।
ऐसा करने के बारे में कुछ (शायद भोले) विचार:
- प्रत्येक चर के साथ एक सरल रैखिक प्रतिगमन करें और सबसे बड़े मानों के साथ दस चुनें । बेशक, इस बात की कोई गारंटी नहीं है कि संयुक्त रूप से दस सबसे अच्छा वैरिएबल दस का सबसे अच्छा समूह होगा।
- एक प्रमुख घटक विश्लेषण करें और पहले कुछ प्रमुख अक्षों के साथ सबसे बड़े संघों के साथ दस मूल चर खोजने की कोशिश करें।
मुझे नहीं लगता कि मैं एक पदानुक्रमित प्रतिगमन कर सकता हूं क्योंकि चर वास्तव में नेस्टेड नहीं हैं। दस चर के सभी संभावित संयोजनों की कोशिश करना कम्प्यूटेशनल रूप से संभव है क्योंकि बहुत सारे संयोजन हैं।
क्या एक बहु प्रतिगमन में चर की संख्या को कम करने की इस समस्या से निपटने के लिए एक मानक दृष्टिकोण है?
ऐसा लगता है कि यह एक पर्याप्त सामान्य समस्या होगी कि एक मानक दृष्टिकोण होगा।
एक बहुत ही उपयोगी उत्तर वह होगा जो न केवल एक मानक पद्धति का उल्लेख करता है, बल्कि यह भी बताता है कि यह कैसे और क्यों काम करता है। वैकल्पिक रूप से, अगर कोई एक मानक दृष्टिकोण नहीं है, बल्कि विभिन्न ताकत और कमजोरियों वाले कई हैं, तो एक बहुत ही उपयोगी उत्तर एक होगा जो उनके पेशेवरों और विपक्षों पर चर्चा करता है।
नीचे दिए गए व्हीबर की टिप्पणी से संकेत मिलता है कि अंतिम पैराग्राफ में अनुरोध बहुत व्यापक है। इसके बजाय, मैं एक प्रमुख उत्तर की एक सूची के रूप में स्वीकार करूंगा, शायद प्रत्येक के बहुत संक्षिप्त विवरण के साथ। एक बार मेरे पास शर्तें हैं, मैं प्रत्येक पर विवरण खोद सकता हूं।