उन वैरिएबल्स की व्याख्या कैसे करें जिन्हें लसो मॉडल में शामिल या शामिल नहीं किया गया है?


9

मुझे अन्य पोस्टों से पता चला है कि कोई भी लसो मॉडल में प्रवेश करने वाले पूर्वसूचक चरों के लिए 'महत्व' या 'महत्व' को प्रदर्शित नहीं कर सकता क्योंकि उन चरों के पी-मान या मानक विचलन की गणना करना अभी भी प्रगति पर है।

उस तर्क के तहत, क्या यह दावा करना सही है कि एक CANNOT यह नहीं कह सकता है कि लसो मॉडल से निकाले गए चर 'अप्रासंगिक' या 'महत्वहीन' हैं?

यदि हां, तो मैं वास्तव में उन चरों के बारे में क्या दावा कर सकता हूं जिन्हें या तो बाहर रखा गया है या एक लासो मॉडल में शामिल किया गया है? मेरे विशिष्ट मामले में, मैंने असभ्यता को कम करने के लिए और त्रुटि घटता को औसत करने के लिए 10 गुना क्रॉस-मान्यता दोहराते हुए ट्यूनिंग पैरामीटर लंबो का चयन किया।

UPDATE1: मैंने नीचे दिए गए एक सुझाव का पालन किया और बूटस्ट्रैप नमूनों का उपयोग करते हुए लासो को फिर से चलाया। मैंने इसे 100 नमूनों के साथ जाना था (वह राशि जो मेरी कंप्यूटर शक्ति रातोंरात प्रबंधित कर सकती थी) और कुछ पैटर्न उभरे। मेरे ४१ चरों में से २ चरों ने मॉडल में ९ ५% बार, ३ चर में ९ ०% से अधिक और ५५% से अधिक चर में प्रवेश किया। वे 5 चर 9 में से एक हैं जो उस मॉडल में प्रवेश करते हैं जब मैंने इसे मूल नमूने के साथ चलाया था और तब उच्चतम गुणांक मान वाले थे। यदि मैं 1000 बूटस्ट्रैप के नमूने के साथ लसो चलाता हूं और उन पैटर्न को बनाए रखा जाता है, तो मेरे परिणामों को पेश करने का सबसे अच्छा तरीका क्या होगा?

  • क्या 1000 बूटस्ट्रैप के नमूने पर्याप्त लगते हैं? (मेरा नमूना आकार 116 है)

  • क्या मुझे सभी चर को सूचीबद्ध करना चाहिए और वे कितनी बार मॉडल में प्रवेश करते हैं, और फिर तर्क देते हैं कि जो लोग अधिक बार प्रवेश करते हैं वे महत्वपूर्ण होने की अधिक संभावना है?

  • क्या मैं अपने दावों के साथ जा सकता हूं? क्योंकि यह कार्य प्रगति पर है (ऊपर देखें) मैं कट-ऑफ मूल्य का उपयोग नहीं कर सकता, है ना?

UPDATE2: नीचे दिए गए एक सुझाव के बाद, मैंने निम्नलिखित गणना की है: औसतन, मूल मॉडल में 78% चर 100 बूटस्ट्रैप नमूनों के लिए उत्पन्न मॉडल में दर्ज किए गए हैं। दूसरी ओर, अन्य तरीके से चारों ओर केवल 41%। यह इस तथ्य के साथ बहुत कुछ करना है कि बूटस्ट्रैप नमूनों के लिए उत्पन्न मॉडल में मूल मॉडल (9) की तुलना में बहुत अधिक चर (औसतन 17) शामिल हैं।

UPDATE3: यदि आप बूटस्ट्रैपिंग और मोंटे कार्लो सिमुलेशन से प्राप्त परिणामों की व्याख्या करने में मेरी मदद कर सकते हैं, तो कृपया इस अन्य पोस्ट पर एक नज़र डालें ।

जवाबों:


10

आपका निष्कर्ष सही है। दो पहलुओं के बारे में सोचो:

  1. एक प्रभाव का पता लगाने के लिए सांख्यिकीय शक्ति। जब तक शक्ति बहुत अधिक नहीं होती है, तब तक कोई भी वास्तविक प्रभाव को याद नहीं कर सकता है।
  2. विश्वसनीयता (सही) विशेषताओं को खोजने की उच्च संभावना है।

कम से कम 4 प्रमुख विचार हैं:

  1. क्या विधि आपके द्वारा समान डेटासेट का उपयोग करके प्रतिलिपि प्रस्तुत करने योग्य है?
  2. क्या विधि समान डेटासेट का उपयोग करके दूसरों द्वारा प्रतिलिपि प्रस्तुत करने योग्य है?
  3. परिणाम अन्य डेटासेट का उपयोग कर प्रतिलिपि प्रस्तुत करने योग्य हैं?
  4. क्या परिणाम विश्वसनीय है?

जब कोई भविष्यवाणी से अधिक करने की इच्छा रखता है लेकिन वास्तव में निष्कर्ष निकालता है कि परिणाम की भविष्यवाणी करने में कौन सी विशेषताएं महत्वपूर्ण हैं, 3. और 4. महत्वपूर्ण हैं।

आपने 3 को संबोधित किया है (और इस उद्देश्य के लिए, 100 बूटस्ट्रैप पर्याप्त है), लेकिन व्यक्तिगत सुविधा समावेशन अंशों के अलावा हमें बूटस्ट्रैप सुविधा सेट और मूल चयनित सुविधा सेट के बीच औसत पूर्ण 'दूरी' जानने की आवश्यकता है। उदाहरण के लिए, बूटस्ट्रैप नमूने में पाए गए पूरे नमूने से औसतन कितनी सुविधाओं का पता लगाया गया है? मूल विश्लेषण में पाए गए बूटस्ट्रैप नमूने से चयनित सुविधाओं की औसत संख्या क्या है? उस समय का अनुपात क्या है जिसे बूटस्ट्रैप ने मूल सुविधा सेट के लिए एक सटीक मिलान पाया? अनुपात क्या है कि बूटस्ट्रैप मूल के साथ सहमत होने की एक विशेषता के भीतर था? दो विशेषताएं?

यह कहना उचित नहीं होगा कि समग्र निष्कर्ष बनाने में किसी भी कटऑफ का उपयोग किया जाना चाहिए।

भाग 4 के बारे में, इसमें से कोई भी प्रक्रिया की विश्वसनीयता को संबोधित नहीं करता है, अर्थात, सुविधा सेट 'सत्य' सुविधा सेट के कितने करीब है। यह पता करने के लिए, आप एक मोंटे-कार्लो पुन: सिमुलेशन अध्ययन कर सकते हैं जहां आप मूल नमूना लसो परिणाम को 'सत्य' के रूप में लेते हैं और कुछ प्रतिक्रियाशील त्रुटि संरचना का उपयोग करके कई सौ बार नए प्रतिक्रिया वैक्टर का अनुकरण करते हैं। प्रत्येक री-सिमुलेशन के लिए आप मूल पूरे भविष्यवक्ता मैट्रिक्स और नई प्रतिक्रिया वेक्टर पर लास्सो चलाते हैं, और यह निर्धारित करते हैं कि चयनित लासो फीचर सेट उस सत्य के कितना करीब है, जिससे आप अनुकरण करते हैं। उम्मीदवार भविष्यवक्ताओं के पूरे सेट पर पुन: सिमुलेशन की स्थिति और शुरू से फिट करने के लिए एक सुविधाजनक 'सत्य' के रूप में शुरू में फिट किए गए मॉडल (और चुने हुए भविष्यवक्ताओं के सेट) से गुणांक अनुमानों का उपयोग करता है।

मूल मैट्रिक्स दिए गए नए अहसास और अब सही प्रतिगमन गुणांक का अनुकरण करने के लिए , एक अवशिष्ट विचरण का उपयोग कर सकता है और औसत शून्य के साथ सामान्यता मान सकता है, या इससे भी अधिक अनुभवजन्य हो सकता है, मूल निवास से सभी अवशेषों को बचा सकता है और बूटस्ट्रैप नमूना ले सकता है। प्रत्येक सिमुलेशन के लिए ज्ञात रैखिक भविष्यवक्ता अवशिष्ट जोड़ने के लिए। फिर मूल मॉडलिंग प्रक्रिया को खरोंच से चलाया जाता है (इष्टतम जुर्माना के चयन सहित) और एक नया मॉडल विकसित किया जाता है। 100 या तो पुनरावृत्तियों में से प्रत्येक के लिए नए मॉडल की तुलना उस सच्चे मॉडल से करें जिसकी आप अनुकरण कर रहे हैं।YXXβ

फिर से, यह प्रक्रिया की विश्वसनीयता पर एक अच्छी जाँच है - 'सही' सुविधाओं को खोजने और अच्छे अनुमान प्राप्त करने की क्षमता ।β

जब , द्विआधारी है बजाय बच के साथ काम कर के, फिर से अनुकरण कंप्यूटिंग शामिल रैखिक भविष्यवक्ता मूल फिट से (जैसे, लैसो का प्रयोग करके), रसद परिवर्तन ले रही है, और प्रत्येक मोंटे कार्लो सिमुलेशन एक नया के लिए पैदा वेक्टर नए सिरे से फिट करने के लिए। आर में एक उदाहरण के लिए कह सकते हैंYXβY

lp <- predict(...) # assuming suitable predict method available, or fitted()
probs <- plogis(lp)
y <- ifelse(runif(n) <= probs, 1, 0)

3
आपको कहना चाहिए कि सामने वाला, और मुझे पूछना चाहिए था। आप उपलब्ध जानकारी का समर्थन करेंगे उससे परे लिफाफे को आगे बढ़ा रहे हैं। इस पर इस तरीके से विचार करें। एक द्विआधारी परिणाम के लिए, द्विआधारी लॉजिस्टिक मॉडल में केवल अवरोधन का अनुमान लगाने के लिए, आपके पास कम से कम 96 अवलोकन होना चाहिए। फिर आपको प्रति उम्मीदवार भविष्यवक्ता (यदि दंड नहीं दे रहा है) की लगभग 15 घटनाओं की आवश्यकता है । भविष्य के डेटासेट में आपकी प्रक्रिया के सत्यापन की संभावना काफी पतली है। इसे देखने का एक और तरीका यह है कि इस चर्चा के सभी और भी अधिक महत्वपूर्ण है (एक बड़ा होने की तुलना में )। N
फ्रैंक हरेल

1
मैं बूटस्ट्रैपिंग की बात नहीं कर रहा था। मैं इस बात का जिक्र कर रहा था कि क्या आप केवल 32 ईवेंट होने पर दर्जनों उम्मीदवार चर से कुछ भी सीख सकते हैं।
फ्रैंक हरेल

3
लसो अधिकांश विधियों की तुलना में अधिक उपयुक्त है लेकिन इतने छोटे नमूने के आकार के साथ विश्वसनीयता कम हो जाती है। आप एक द्विघात (रिज; L2) दंड के बजाय लसो का उपयोग करके पारसमनी की मांग कर रहे हैं। आप निस्संदेह एक द्विघात दंड का उपयोग करके और पार्सिमनी के लिए नहीं पूछकर बेहतर भविष्य कहनेवाला भेदभाव प्राप्त करेंगे। या गंभीर डेटा कटौती ( लिए नकाबपोश ) तो एक unpenalized साधारण मॉडल फिट। Y
फ्रैंक हरेल

1
री-सिमुलेशन प्रयोग करें मैंने आपके सटीक सेटिंग में विधि की वास्तविक विश्वसनीयता की जांच करने का सुझाव दिया है।
फ्रैंक हरेल

2
मुझे इस चर्चा पर हस्ताक्षर करने की आवश्यकता है - आपके प्रश्न का मूल उत्तर मूल आर प्रोग्रामिंग है और बायोस्टैट . mc.vanderbilt.edu/rms में सरल सिमुलेशन पर एक नज़र डालें
फ्रैंक हरेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.