व्याख्यात्मक मॉडल के लिए LASSO: सिकुड़ा हुआ पैरामीटर या नहीं?


9

मैं एक विश्लेषण कर रहा हूँ जहाँ प्राथमिक लक्ष्य डेटा को समझना है। अंतर-सत्यापन (10k) के लिए डेटासेट काफी बड़ा है, और भविष्यवाणियों में निरंतर और डमी चर दोनों शामिल हैं, और परिणाम निरंतर है। मुख्य लक्ष्य यह देखना था कि क्या मॉडल की व्याख्या करने में आसान बनाने के लिए कुछ भविष्यवक्ताओं को बाहर निकालने का कोई मतलब है।

प्रशन:

  1. मेरा सवाल यह है कि "कौन से संस्करण परिणाम की व्याख्या करते हैं और उस स्पष्टीकरण का एक 'पर्याप्त पर्याप्त' हिस्सा हैं"। लेकिन लैस्सो के लिए लैम्बडा पैरामीटर का चयन करने के लिए, आप मान के रूप में क्रॉस-वेलिडेशन, यानी, पूर्वानुमानात्मक वैधता का उपयोग करते हैं। जब अनुमान लगा रहे हों, तो क्या मैं जो सामान्य प्रश्न पूछ रहा हूं, उसके लिए भविष्य कहनेवाला वैधता एक अच्छा पर्याप्त प्रॉक्सी है?

  2. बता दें कि LASSO ने 8 में से केवल 3 भविष्यवाणियों को रखा। और अब मैं खुद से पूछता हूं: "इसका परिणाम पर क्या प्रभाव पड़ता है"। उदाहरण के लिए, मैंने एक लिंग अंतर पाया। लसो संकोचन के बाद, गुणांक बताता है कि महिलाएं पुरुषों की तुलना में 1 अंक अधिक हैं। लेकिन सिकुड़न के बिना (यानी, वास्तविक डेटासेट पर), वे 2.5 अंक अधिक स्कोर करते हैं।

    • कौन सा मैं अपने "वास्तविक" लिंग प्रभाव के रूप में ले जाऊंगा? केवल अनुमानित वैधता के आधार पर, यह सिकुड़ा गुणांक होगा।
    • या एक संदर्भ में कहें, तो मैं आंकड़ों में पारंगत नहीं लोगों के लिए एक रिपोर्ट लिख रहा हूं। मैं उन्हें किस गुणांक की सूचना दूंगा?

1
आप किस तरह का मॉडल देख रहे हैं? रैखिक, लॉजिस्टिक, पॉइसन, आदि मॉडल?
TrynnaDoStat

1
यह एक लीनियर मॉडल है, लेकिन मुझे नहीं लगता कि इससे सवाल का कोई फर्क पड़ता है
mbokulic

जवाबों:


7

यदि आपका लक्ष्य आपके मॉडल में मापदंडों का सटीक अनुमान लगाना है तो आप सच्चे मॉडल के कितने करीब हैं, आपको अपने मॉडल का चयन कैसे करना चाहिए। क्रॉस-वैलिडेशन के माध्यम से भविष्यवाणी वैधता यह करने का एक तरीका है और पसंदीदा है* चयन करने का तरीका λ LASSO प्रतिगमन में।

अब, इस सवाल का जवाब देने के लिए कि कौन सा पैरामीटर अनुमान "वास्तविक अनुमान" है, यह देखना चाहिए कि कौन सा पैरामीटर वास्तविक पैरामीटर मान के लिए "निकटतम" है। क्या "निकटतम" का मतलब पैरामीटर अनुमान है जो पूर्वाग्रह को कम करता है? यदि ऐसा है, तो कम से कम वर्ग अनुमानक रैखिक प्रतिगमन में निष्पक्ष है। क्या निकटतम मतलब का मतलब पैरामीटर अनुमान है जो माध्य वर्ग त्रुटि (MSE) को कम करता है? फिर यह दिखाया जा सकता है कि रिज प्रतिगमन का एक विनिर्देश है जो आपको अनुमान देगा कि एमएसई को कम से कम करें (LASSO के समान, रिज प्रतिगमन सिकुड़ता है पैरामीटर अनुमान शून्य की ओर बढ़ता है लेकिन, LASSO से भिन्न, पैरामीटर अनुमान शून्य तक नहीं पहुंचता है)। इसी तरह, ट्यूनिंग पैरामेटर के कई विनिर्देश हैंλLASSO में परिणाम होगा कि रैखिक प्रतिगमन से छोटा MSE ( यहाँ देखें )। सांख्यिकीविद् के रूप में, आपको यह निर्धारित करना होगा कि "सबसे अच्छा" अनुमान क्या है और इसे रिपोर्ट करें (अधिमानतः अनुमान के कुछ संकेत के साथ) उन लोगों के लिए जो आंकड़ों में अच्छी तरह से वाकिफ नहीं हैं। "सर्वश्रेष्ठ" क्या एक पक्षपाती अनुमान हो सकता है या नहीं भी हो सकता है।

glmnetआर में समारोह के अच्छे संस्कार के चयन का एक बहुत अच्छा काम करता हैλ और, सारांश में, चयन करना λ क्रॉस-मान्यता के माध्यम से और पैरामीटर अनुमानों की रिपोर्टिंग मापदंडों के "वास्तविक" मूल्य का अनुमान लगाने के लिए एक पूरी तरह से उचित तरीका है।

*एक बायेसियन LASSO मॉडल जो चयन करता है λ सीमांत संभावना कुछ लोगों द्वारा पसंद की जाती है, लेकिन मैं शायद गलत तरीके से मान रहा हूं कि आप लगातार एलएएसओ मॉडल बना रहे हैं।


"पूर्वाग्रह" जो "न्यूनतम अनुमानों को कम करता है" में "पूर्वाग्रह" से आपका क्या मतलब है? और क्या मैं बाकी को सही ढंग से पढ़ता हूं अगर मैं इसे इस तरह से पढ़ता हूं: मुझे उस मॉडल का चयन करना चाहिए जिसमें सबसे कम आउट-ऑफ-सैंपल अनुमानित एमएसई है (यानी, क्रॉस-वैलिडेशन में)? चूंकि रिज सवाल से बाहर है क्योंकि मैं एक विरल गुणांक मैट्रिक्स चाहता हूं, सिकुड़ी हुई लसो गुणांक की रिपोर्ट करने का तरीका है
mbokulic

@mbokulic पूर्वाग्रह से मेरा मतलब सांख्यिकीय पूर्वाग्रह है। यह एक मापक प्रक्रिया की प्रवृत्ति को संदर्भित करता है जिससे जनसंख्या पैरामीटर के मूल्य का अनुमान लगाया जा सकता है। मेरा जवाब कह रहा है कि यह निर्भर करता है कि आप क्या चाहते हैं। यदि आप पूर्वाग्रह नहीं चाहते हैं, तो रैखिक प्रतिगमन के साथ रहें। यदि आप पूर्वाग्रह के साथ ठीक हैं और MSE को कम करना पसंद करते हैं, तो LASSO के साथ जाएं और चयन करते समय उचित परिश्रम में लगाएंλ
TrynnaDoStat

दिलचस्प है, मैंने उस तरह से कभी नहीं सोचा था। फिर से मुझे पूछना होगा कि क्या मैंने आपको सही तरीके से समझा। तो रेखीय प्रतिगमन आपको जनसंख्या गुणांक का सबसे निष्पक्ष अनुमान देता है ("2.5 अंक अधिक" उदाहरण मेरे अन्य प्रश्न में)। जबकि लासो या रिज रिग्रेट। कम-से-कम नमूना MSE। यदि हां, यदि आप केवल समझना चाहते हैं (भविष्यवाणी नहीं), तो रैखिक प्रतिगमन बेहतर लगता है, हालांकि आप अभी भी उदाहरण के लिए, चरणवार तरीकों के साथ मॉडल को सरल बनाना चाहते हैं।
mbokulic

यहाँ उत्तर मददगार हैं। वे सुझाव देते हैं कि ओएलएस (रैखिक प्रतिगमन) में बास्ट-इन-नमूना प्रदर्शन होता है, जबकि लासो आउट-ऑफ-सैंपल के लिए होता है। इसके अलावा, वे सुझाव देते हैं कि ओएलएस का उपयोग लास्सो द्वारा उठाए गए भविष्यवक्ताओं के प्रतिबंधित सेट पर किया जा सकता है। यह वही है जो मेरे व्याख्यात्मक लक्ष्य के लिए समझ में आता है, भले ही ओएलएस का अनुमान थोड़ा अधिक हो।
mbokulic
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.