एक रैखिक प्रतिगमन मॉडल में एक चर महत्वपूर्ण है?


9

मुझे नमूना और चर टिप्पणियों के साथ एक रैखिक प्रतिगमन मॉडल मिला है और मैं जानना चाहता हूं:

  1. क्या मॉडल में शामिल होने के लिए एक विशिष्ट चर पर्याप्त महत्वपूर्ण है।
  2. क्या एक और चर (टिप्पणियों के साथ) को मॉडल में शामिल किया जाना चाहिए।

कौन से आंकड़े मेरी मदद कर सकते हैं? उन्हें सबसे कुशलता से कैसे प्राप्त किया जा सकता है?

जवाबों:


26

सांख्यिकीय महत्व आमतौर पर यह निर्धारित करने के लिए एक अच्छा आधार नहीं है कि क्या एक चर को एक मॉडल में शामिल किया जाना चाहिए। सांख्यिकीय परीक्षणों को परिकल्पना का परीक्षण करने के लिए डिज़ाइन किया गया था, न कि चुनिंदा चर। मुझे पता है कि बहुत सी पाठ्यपुस्तकें सांख्यिकीय परीक्षणों का उपयोग करके चर चयन पर चर्चा करती हैं, लेकिन यह आमतौर पर एक बुरा दृष्टिकोण है। कुछ कारणों के लिए हरेल की पुस्तक रिग्रेशन मॉडलिंग रणनीतियाँ देखें । इन दिनों, AIC (या कुछ इसी तरह) पर आधारित चर चयन आमतौर पर पसंद किया जाता है।


वास्तव में, मेरी स्मृति के सर्वश्रेष्ठ के लिए, हरेल एआईसी के उपयोग को दृढ़ता से हतोत्साहित करता है। मुझे लगता है कि क्रॉस-वेलिडेशन शायद सबसे सुरक्षित तरीका होगा।
ताल गैली

1
AIC asymptotically CV के बराबर है। आंकड़े के जवाब देखें ।stackexchange.com/questions/577/… । मैंने उस उत्तर को लिखने से पहले हार्ले की जाँच की, और मैंने एआईसी के किसी भी हतोत्साहन को नहीं देखा। वह एआईसी या किसी अन्य विधि के साथ, चर चयन के बाद महत्व परीक्षण के बारे में चेतावनी देता है।
रोब Hyndman

@ ताल: शायद आरएमएस पुस्तक के बजाय उनके एक पेपर से, मुझे याद है कि हरेल को एआईसी के उपयोग के लिए कई मॉडलों के पूल के बीच चयन करने पर आपत्ति है । मुझे लगता है कि उनकी बात यह थी कि आपको एक समय में एक चर जोड़ना चाहिए और दो मॉडलों की तुलनात्मक रूप से करनी चाहिए या कुछ इसी तरह की रणनीति का उपयोग करना चाहिए। (स्पष्ट रूप से, इस रोब के जवाब के साथ कतार में है।)
आर्स

एक त्वरित खोज करते हुए, मैंने पाया कि हार्लेल ने "पी-मूल्यों, आर-स्क्वायर, आंशिक आर-स्क्वायर, एआईसी, बीआईसी, प्रतिगमन गुणांक, या मल्लोव्स सीपीपी के आधार पर मॉडल चयन करने के बारे में लिखा है।" उन्होंने लिखा है कि 12/14/08 को, एलआरएम फ़ंक्शन (पैकेज डिज़ाइन) - प्लेटेक्स्ट से गुणांकों के लिए [R] पी-मान प्राप्त करने वाली एक मेलिंग सूची पर। मुझे लगता है कि मैंने उसका अर्थ गलत समझा।
ताल गैली

2
@ ताल, @ रोब: उस सूत्र में, वह कहते हैं "पदानुक्रम सिद्धांत का उपयोग करना सुनिश्चित करें"। शायद रुचि, मेडस्टैट्स की यह चर्चा (हैरेल की प्रतिक्रिया के लिए स्क्रॉल करें): group.google.com/group/medstats/browse_thread/thread/…
ars

4

मैं रोब की दूसरी टिप्पणी करता हूं। तेजी से पसंद किया जाने वाला विकल्प आपके सभी चर को शामिल करना और उन्हें 0. 0. तिब्शीरानी, ​​आर। (1996) की ओर सिकोड़ना है। कमंद के माध्यम से प्रतिगमन संकोचन और चयन।

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf


1
क्या इन दिनों "तेजी से पसंद की जाने वाली" मात्रा निर्धारित करने का कोई तरीका है?
ताल गैली

मुझे लगता है कि यह वैज्ञानिक रूप से कई क्षेत्रों में इस अर्थ में सही माना जाता है कि * .IC दृष्टिकोण की तुलना में हाल ही में लागू स्टेट पेपरों में सिकुड़न दृष्टिकोण का अधिक उपयोग किया जाता है। यह एक निश्चित-कम से कम tacit- सैद्धांतिक सहमति को दर्शाता है।
user603

1
@ user603 - आपको संकोचन दृष्टिकोण के साथ संभावित बड़े पैमाने पर कम्प्यूटेशनल लाभ भी है। से अधिक की खोज करने की आवश्यकता नहीं है मॉडल2p
प्रायिकतालोगिक

3

भाग 1 के लिए, आप F-test की तलाश कर रहे हैं । प्रत्येक मॉडल से अपने वर्ग के अवशिष्ट योग की गणना करें और एक एफ-स्टेटिस्टिक की गणना करें, जिसका उपयोग आप एफ-वितरण या कुछ अन्य अशक्त वितरण से पी-मान प्राप्त करने के लिए कर सकते हैं जो आप स्वयं उत्पन्न करते हैं।


1

रोब के जवाब के लिए एक और वोट।

"सापेक्ष महत्व" साहित्य में कुछ दिलचस्प विचार भी हैं। यह काम ऐसे तरीकों को विकसित करता है जो यह निर्धारित करने की कोशिश करता है कि कितने उम्मीदवार प्रत्याशी के भविष्यवक्ताओं के साथ जुड़े हुए हैं। बायेसियन और फ़्रीक्वेंटिस्ट तरीके हैं। उद्धरण और कोड के लिए R में "relaimpo" पैकेज की जाँच करें।


1

मुझे रोब का जवाब भी पसंद है। और, यदि आप R के बजाय SAS का उपयोग करते हैं, तो आप PROC GLMELECT का उपयोग उन मॉडल के लिए कर सकते हैं जो PROC GLM के साथ किया जाएगा, हालाँकि यह कुछ अन्य मॉडलों के लिए भी अच्छा काम करता है। देख

फ्लॉम और कैसेल "स्टेप वाइज स्टेप वाइज: व्हाई स्टेप वाइज सिलेक्शन मेथड्स बैड एंड व् यू व्हाट यू यू यूट" विभिन्न समूहों में प्रस्तुत, सबसे हाल ही में, NESUG 2009

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.