कई स्वतंत्र चर में से महत्वपूर्ण भविष्यवाणियों का पता लगाना


31

दो गैर-अतिव्यापी आबादी (रोगियों और स्वस्थ, कुल ) के एक डेटासेट में मैं निरंतर आश्रित चर के लिए महत्वपूर्ण ( स्वतंत्र चर में से) महत्वपूर्ण भविष्यवाणियां खोजना चाहता हूं । भविष्यवक्ताओं के बीच सहसंबंध मौजूद है। मुझे यह पता लगाने में दिलचस्पी है कि क्या भविष्यवाणियों में से कोई भी आश्रित चर "वास्तविकता में" से संबंधित है (बजाय संभव के रूप में आश्रित चर की भविष्यवाणी करने के बजाय)। जैसा कि मैं कई संभावित दृष्टिकोणों से अभिभूत हो गया हूं, मैं पूछना चाहता हूं कि कौन सा दृष्टिकोण सबसे अधिक अनुशंसित है।n=60300

  • मेरी समझ से चरणवार समावेश या भविष्यवाणियों को शामिल करने की अनुशंसा नहीं की जाती है

  • उदाहरण के लिए, एफडीआर (शायद बहुत रूढ़िवादी?) का उपयोग करके कई भविष्यवाणियों और सही पी-मूल्यों के लिए अलग से एक रेखीय प्रतिगमन चलाएं?

  • प्रधान-घटक प्रतिगमन: व्याख्या करना मुश्किल है क्योंकि मैं व्यक्तिगत भविष्यवाणियों की भविष्यवाणी की शक्ति के बारे में नहीं बता पाऊंगा, लेकिन केवल घटकों के बारे में।

  • कोई अन्य सुझाव?


मैंने इस प्रकार की चीजों को करने के लिए L1 नियमित प्रतिगमन का उपयोग करने वाले लोगों के बारे में सुना है। लेकिन मुझे उचित उत्तर लिखने के लिए पर्याप्त नहीं है ...
राजा

2
सर्वोत्तम सिफारिशें देने के लिए, यह हमें यह जानने में मदद करेगा कि आप "महत्वपूर्ण भविष्यवक्ताओं" की पहचान करने के बाद कैसे आगे बढ़ेंगे। क्या आप परिणाम की यथासंभव भविष्यवाणी करने की कोशिश कर रहे हैं ; इसे भविष्यवाणी करने का एक प्रशस्त तरीका खोजिए (उदाहरण के लिए, k पूर्वानुमानकर्ताओं के एक सेट का उपयोग करना जो कुशलतापूर्वक काम करेगा। समझाएँ कि "वास्तविकता में" परिणाम क्या होता है? या कुछ और? इसके अलावा, आपका डेटा सेट कितना बड़ा है?
rolando2

@rolando: टिप्पणी के लिए धन्यवाद! मैंने प्रश्न को अद्यतन किया: मेरी टिप्पणियों की कुल संख्या n = 60 विषय है। मेरा उद्देश्य आश्रित चर की यथासंभव सटीक भविष्यवाणी करना नहीं है, बल्कि यह
बताना है

मैंने कुछ डमी डेटा सहित एक अनुवर्ती प्रश्न भी पोस्ट किया। मैं सभी संकेतों के लिए बहुत आभारी रहूंगा। आंकड़े.stackexchange.com/questions/34859/…
jokel

जवाबों:


30

मैं लैस्सो नियमितीकरण के साथ एक चमक की कोशिश करने की सलाह दूंगा । यह चर की संख्या के लिए मॉडल में एक दंड जोड़ता है, और जैसे ही आप जुर्माना बढ़ाते हैं, मॉडल में चर की संख्या कम हो जाएगी।

आपको दंड पैरामीटर के मूल्य का चयन करने के लिए क्रॉस-सत्यापन का उपयोग करना चाहिए। यदि आपके पास आर है, तो मैं glmnet पैकेज का उपयोग करने का सुझाव देता हूंalpha=1लासो रिग्रेशन के लिए, और alpha=0रिज रिग्रेशन के लिए उपयोग करें । 0 और 1 के बीच एक मान सेट करना लसो और रिज दंड का एक संयोजन का उपयोग करेगा, जिसे लोचदार जाल के रूप में भी जाना जाता है।


4
मैं ज़च से सहमत हूँ। डेविड कैसेल और मैंने इसके बारे में एक पेपर लिखा, जो एसएएस पर केंद्रित था लेकिन पूरी तरह से नहीं। यह स्टेपवाइज स्टॉपिंग है
पीटर Flom - को पुनः स्थापित मोनिका

1
मुझे लगता है कि यह रिज के लिए 0 और लासो के लिए 1 है
किंग

1
@Zach: संकेत के लिए धन्यवाद। क्या कुछ परीक्षण-सांख्यिकीय प्राप्त करने का एक तरीका है जो मुझे एकल भविष्यवक्ताओं के महत्व का न्याय करने की अनुमति देगा। अंत में मैं यह कहना चाहूंगा कि "भविष्यवक्ता X काफी निर्भर चर Y से संबंधित है"।
जोकेल

2
CI के बारे में, LASSO को लागू करने वाले एक अन्य R पैकेज के मैनुअल से ( cran.r-project.org/web/packages/penalized/vignettes/… , पृष्ठ 18): "यह प्रतिगमन की मानक त्रुटियों के बारे में पूछना एक बहुत ही स्वाभाविक प्रश्न है। गुणांक या अन्य अनुमानित मात्रा। सिद्धांत में ऐसी मानक त्रुटियों की आसानी से गणना की जा सकती है, उदाहरण के लिए बूटस्ट्रैप का उपयोग। फिर भी, यह पैकेज जानबूझकर उन्हें प्रदान नहीं करता है। इसका कारण यह है कि मानक त्रुटियां उत्पन्न होने वाले जोरदार पक्षपातपूर्ण अनुमानों के लिए बहुत सार्थक नहीं हैं। दंडित अनुमान विधियों से। "
मिरा

2
@miura को हाल ही में पेश किया गया था, केवल लस्सो के मूल लेखकों द्वारा एक परीक्षण आँकड़े थे: कागज़ और स्लाइड्स (पढ़ने में आसान)
Cam.Davidson.Pilon

23

Zach के उत्तर (+1) पर विस्तार करने के लिए, यदि आप रैखिक प्रतिगमन में LASSO विधि का उपयोग करते हैं, तो आप एक द्विघात फ़ंक्शन और निरपेक्ष मान फ़ंक्शन को कम करने का प्रयास कर रहे हैं, अर्थात:

minβ(YXβ)T(YXβ)+i|βi|

पहला भाग (नीचे सोना) में द्विघात है , और दूसरा एक हैβ चौकोर आकार का वक्र (नीचे हरा) है। काली रेखा चौराहे की रेखा है। LASSO उद्देश्य समारोह

चौराहे की वक्र पर न्यूनतम झूठ, द्विघात और चौकोर आकार के वक्र के समोच्च घटता के साथ यहां लगाया गया है:

LASSO के समोच्च घटता

आप देख सकते हैं कि न्यूनतम अक्षों में से एक पर है, इसलिए इसने उस चर को प्रतिगमन से समाप्त कर दिया है।

आप प्रतिगमन और चर चयन के लिए L 1 दंड का उपयोग करने पर अपने ब्लॉग पोस्ट की जांच कर सकते हैं (अन्यथा इसे Lasso नियमितीकरण के रूप में जाना जाता है)। L1


8
(+1) लेकिन ब्लॉग पोस्ट के लिए, जो वास्तव में अच्छा है। यह अच्छा होगा यदि आप अपने उत्तर का विस्तार यहाँ कुछ हद तक करें, क्योंकि इससे उपलब्ध जानकारी की संभावना बढ़ जाएगी।
रिचमीमोर्रिसो

2

कितने पूर्ववर्तियों के महत्वपूर्ण होने की संभावना पर आपका पूर्व विश्वास क्या है? क्या यह संभावना है कि उनमें से अधिकांश का बिल्कुल शून्य प्रभाव है, या यह कि सब कुछ परिणाम को प्रभावित करता है, कुछ चर दूसरों की तुलना में कम हैं?

और भविष्यवाणी के कार्य से स्वास्थ्य की स्थिति कैसे संबंधित है?

यदि आप मानते हैं कि केवल कुछ चर महत्वपूर्ण हैं, तो आप स्पाइक और स्लैब को पहले प्रयास कर सकते हैं (उदाहरण के लिए, R के स्पाइकस्लैगैम पैकेज में) या L1। अगर आपको लगता है कि सभी भविष्यवक्ता परिणाम को प्रभावित करते हैं, तो आप भाग्य से बाहर हो सकते हैं।

और सामान्य तौर पर, अवलोकन संबंधी आंकड़ों से कार्य-कारण से संबंधित सभी चेतावनी लागू होती हैं।


2

आप जो कुछ भी करते हैं, यह पूर्वसूचक के महत्व पर रैंकों का विश्वास अंतराल प्राप्त कर रहा है, यह दिखाने के लिए कि आप वास्तव में अपने डेटासेट के साथ ऐसा कर सकते हैं। मुझे संदेह है कि कोई भी विधि मज़बूती से "सच्चे" भविष्यवक्ताओं का पता लगा सकती है।


1

मुझे याद है कि जब लसो रिग्रेशन बहुत अच्छा प्रदर्शन नहीं करता है nपी, लेकिन मुझे यकीन नहीं। मुझे लगता है कि इस मामले में Elastic Net परिवर्तनीय चयन के लिए अधिक उपयुक्त है।


यह सच है, अधिक विशेष रूप से जब n << p, इस मूल लोचदार नेट पेपर को देखें: stanford.edu/~hastie/Papers/…
Cam.Davidson.Pilon

1
जब n <p, LASSO अधिकांश n चरों पर चयन करता है।
मिउरा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.