रैखिक प्रतिगमन के लिए भविष्यवाणियों का सबसे अच्छा सबसेट की गणना


9

उपयुक्त भविष्यवाणियों के साथ बहुभिन्नरूपी रेखीय प्रतिगमन में भविष्यवाणियों के चयन के लिए, सभी उपसमुच्चय को स्पष्ट रूप से परीक्षण किए बिना भविष्यवक्ताओं के 'इष्टतम' सबसेट को खोजने के लिए कौन से तरीके उपलब्ध हैं ? 'एप्लाइड सरवाइवल एनालिसिस' में, होसम और लेमेशो कुक्क की विधि का संदर्भ देते हैं, लेकिन मुझे मूल पेपर नहीं मिल रहा है। क्या कोई इस पद्धति का वर्णन कर सकता है, या इससे भी बेहतर, एक आधुनिक तकनीक? आम तौर पर वितरित त्रुटियों को मान सकते हैं।p2p


1
क्या आप निम्नलिखित कागज का उल्लेख कर रहे हैं? कुक, AYC (1984) आनुपातिक खतरों के मॉडल में सभी सबसेट प्रतिगमन। बॉयोमीट्रिका, 71, 587-592
chl

हाँ सचमुच। मुझे लगता है कि मुझे उस पेपर को किसी तरह खोदना होगा। हालाँकि यह पुराना लगता है।
shabbychef

2
इस लेख को इस बीच में देखें, टिक्सीरानी (स्टेट। Med। 1997 16: 385-395), j.mp/bw0mB9 से कॉक्स मॉडल में चर चयन के लिए लास्सो विधि । HTH
chl

1
और यह हाल ही में एक ( penalizedआर पैकेज से निकटता से जुड़ा हुआ ), j.mp/cooIT3 । हो सकता है कि यह एक बहुत, j.mp/bkDQUj । चीयर्स
8:12

जवाबों:


12

मैंने कुक की विधि के बारे में कभी नहीं सुना है, लेकिन इन दिनों गर्म विषय एल 1 न्यूनतम है। तर्क यह है कि यदि आप प्रतिगमन गुणांकों के निरपेक्ष मूल्य का एक दंड शब्द का उपयोग करते हैं, तो महत्वहीन लोगों को शून्य पर जाना चाहिए।

इन तकनीकों के कुछ मज़ेदार नाम हैं: लासो, लार्स, डैंटज़िग चयनकर्ता। आप कागजात पढ़ सकते हैं, लेकिन शुरू करने के लिए एक अच्छी जगह है सांख्यिकीय शिक्षा के तत्व , अध्याय 3।


2
BTW, दंडित आर पैकेज ( j.mp/bdQ0Rp ) में सामान्यीकृत रैखिक और कॉक्स मॉडल के लिए l1 / l2 दंडित अनुमान शामिल हैं।
chl


एलएआरएस महान है, बीटीडब्ल्यू। बहुत अच्छा सामान। मुझे यकीन नहीं है कि मैं इसे कॉक्स आनुपातिक खतरे के मॉडल के ढांचे में कैसे जाम कर सकता हूं ...
shabbychef

2
Glmnet सॉफ़्टवेयर में एक लैस्सोइड कॉक्स PH मॉडल है: cran.r-project.org/web/packages/glmnet/index.html इसका MATLAB संस्करण भी है (निश्चित नहीं है कि यह कॉक्स मॉडल करता है हालांकि: www-stat .stanford.edu / ~ tibs / glmnet-matlab
साइमन बायरन

3

यह बहुत बड़ा विषय है। जैसा कि पहले उल्लेख किया गया है, Hastie, टिब्शिरानी और फ्रीडमैन, सांख्यिकीय सीखने के तत्वों के Ch3 में एक अच्छा परिचय देते हैं।

कुछ बिंदु। 1) "सर्वश्रेष्ठ" या "इष्टतम" से आपका क्या तात्पर्य है? जो एक अर्थ में सर्वोत्तम है वह दूसरे में श्रेष्ठ नहीं हो सकता। दो सामान्य मानदंड पूर्वानुमान सटीकता (परिणाम चर की भविष्यवाणी) और गुणांकों के निष्पक्ष अनुमानकों का उत्पादन कर रहे हैं। कुछ तरीके, जैसे कि लासो और रिज रिग्रेशन अनिवार्य रूप से पक्षपाती गुणांक अनुमानक का उत्पादन करते हैं।

2) वाक्यांश "सबसे अच्छा सबसेट" खुद को दो अलग-अलग इंद्रियों में इस्तेमाल किया जा सकता है। आम तौर पर सभी भविष्यवाणियों के बीच सबसे अच्छा सबसेट को संदर्भित करता है जो कुछ मॉडल निर्माण मानदंडों का अनुकूलन करता है। अधिक विशेष रूप से यह फर्नीवल और विल्सन के कुशल एल्गोरिदम को संदर्भित कर सकता है जो कि रैखिक (~ 50) संख्याओं के बीच सबसे बड़ी संख्या में रैखिक भविष्यवाणियों (रेज और डुप्लिकेट द्वारा रेजिमेंट) के बीच में पाए जाते हैं। टेक्नोमेट्रिक्स, वॉल्यूम 16, नंबर 4 (नवंबर, 1974), पीपी। 499-51)

http://www.jstor.org/stable/1267601


1) हाँ, सवाल कुछ अस्पष्ट है; वहाँ, जैसा कि आप उल्लेख करते हैं, 'इष्टतम' की कई परिभाषाएँ: सूचना मानदंड, क्रॉस सत्यापन, आदि के माध्यम से। अधिकांश दृष्टिकोण जो मैंने देखा है वह समस्या को चरणबद्ध भविष्यवक्ता जोड़ / हटाने के द्वारा आगे बढ़ना है: एकल पास फॉरवर्ड जोड़ या घटाव, आदि। , हालांकि, होस्मेर एंड लेमेशो इस पद्धति (लॉलेस एंड सिंघल द्वारा एक प्रकार का काम) का संदर्भ देते हैं, जो किसी भी तरह 'जादुई रूप से' एक एमएलआर (किसी अन्य सामान को मोडुलो) के एकल संगणना द्वारा भविष्यवक्ताओं का चयन करता है। मैं इस विधि के बारे में बहुत उत्सुक हूँ ...
shabbychef

0

मैंने यह क्या सीखा कि सबसे पहले स्क्रीनिंग टूल के रूप में बेस्ट सबस्क्राइब एप्रोच का उपयोग करें, फिर स्टेप वाइज सिलेक्शन प्रक्रियाएं आपको आखिरकार यह तय करने में मदद कर सकती हैं कि कौन से मॉडल बेस्ट सबसेट मॉडल हो सकते हैं (इस समय उन मॉडलों की संख्या संभालने के लिए बहुत छोटी है)। यदि मॉडल में से एक मॉडल की स्थिति को पूरा करता है, तो डेटा में प्रवृत्ति को सारांशित करने का एक अच्छा काम करता है, और सबसे महत्वपूर्ण बात यह है कि आप अपने शोध प्रश्न का उत्तर दे सकते हैं, फिर आपकी नौकरी को बधाई देता है।


1
मुझे लगता है कि आप इसे गलत बता रहे होंगे। बेस्ट सबसेट स्टेपवाइज की तुलना में बहुत अधिक कम्प्यूटेशनल रूप से महंगा है, लेकिन जरूरी कुछ भी स्टेप वाइज पकड़ लेगा, इसलिए आप स्क्रीन के लिए स्टेपवाइज का उपयोग करेंगे और उसके बाद सबसे अच्छा सबसेट। एफडब्ल्यूआईडब्लू, मैं इन रणनीतियों के डब्ल्यू / भोले उपयोग से असहमत हूं, जिन कारणों से मैं अपने जवाब में यहां चर्चा करता हूं: स्वत : चयन के लिए एल्गोरिदम
गूँग - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.