मैं एक विश्लेषण कर रहा हूँ जहाँ प्राथमिक लक्ष्य डेटा को समझना है। अंतर-सत्यापन (10k) के लिए डेटासेट काफी बड़ा है, और भविष्यवाणियों में निरंतर और डमी चर दोनों शामिल हैं, और परिणाम निरंतर है। मुख्य लक्ष्य यह देखना था कि क्या मॉडल की व्याख्या करने में आसान बनाने के लिए कुछ भविष्यवक्ताओं को बाहर निकालने का कोई मतलब है।
प्रशन:
मेरा सवाल यह है कि "कौन से संस्करण परिणाम की व्याख्या करते हैं और उस स्पष्टीकरण का एक 'पर्याप्त पर्याप्त' हिस्सा हैं"। लेकिन लैस्सो के लिए लैम्बडा पैरामीटर का चयन करने के लिए, आप मान के रूप में क्रॉस-वेलिडेशन, यानी, पूर्वानुमानात्मक वैधता का उपयोग करते हैं। जब अनुमान लगा रहे हों, तो क्या मैं जो सामान्य प्रश्न पूछ रहा हूं, उसके लिए भविष्य कहनेवाला वैधता एक अच्छा पर्याप्त प्रॉक्सी है?
बता दें कि LASSO ने 8 में से केवल 3 भविष्यवाणियों को रखा। और अब मैं खुद से पूछता हूं: "इसका परिणाम पर क्या प्रभाव पड़ता है"। उदाहरण के लिए, मैंने एक लिंग अंतर पाया। लसो संकोचन के बाद, गुणांक बताता है कि महिलाएं पुरुषों की तुलना में 1 अंक अधिक हैं। लेकिन सिकुड़न के बिना (यानी, वास्तविक डेटासेट पर), वे 2.5 अंक अधिक स्कोर करते हैं।
- कौन सा मैं अपने "वास्तविक" लिंग प्रभाव के रूप में ले जाऊंगा? केवल अनुमानित वैधता के आधार पर, यह सिकुड़ा गुणांक होगा।
- या एक संदर्भ में कहें, तो मैं आंकड़ों में पारंगत नहीं लोगों के लिए एक रिपोर्ट लिख रहा हूं। मैं उन्हें किस गुणांक की सूचना दूंगा?