महत्व परीक्षण या क्रॉस सत्यापन?


20

सहसंबद्ध चर का चयन करने के लिए दो सामान्य दृष्टिकोण महत्व परीक्षण और क्रॉस सत्यापन हैं। प्रत्येक समस्या को क्या हल करने की कोशिश करता है और मैं एक दूसरे पर कब पसंद करूंगा?

जवाबों:


22

सबसे पहले, स्पष्ट होने दें और प्रश्न को कई रैखिक प्रतिगमन के संदर्भ में रखें जहां हम एक प्रतिक्रिया चर, , कई अलग-अलग चर (सहसंबद्ध या नहीं) पर, पैरामीटर वेक्टर \ बीटा = (\ beta_0 ) के साथ पुनः प्राप्त करते हैं , \ Beta_1, \ ldots, \ beta_p) और प्रतिगमन फ़ंक्शन f (x_1, \ ldots, x_p) = \ beta_0 + \ Beta_1 x_1 + \ ldots + \ beta_p x_p, जो प्रतिक्रिया चर के माध्य का एक मॉडल हो सकता है। x_1, \ ldots, x_p का दिया गया अवलोकन । x 1 , ... , एक्स पी β = ( β 0 , β 1 , ... , β पी ) ( एक्स 1 , ... , एक्स पी ) = β 0 + β 1 एक्स 1 + ... + β पी एक्स पी , x 1 , ... , x पीyएक्स1,...,एक्सपीβ=(β0,β1,...,βपी)

(एक्स1,...,एक्सपी)=β0+β1एक्स1+...+βपीएक्सपी,
एक्स1,...,एक्सपी

सवाल यह है कि गैर-शून्य होने के लिए \ Beta_i के सबसेट का चयन कैसे किया βमैंजाए, और, विशेष रूप से, महत्व परीक्षण बनाम क्रॉस सत्यापन की तुलना ।

शब्दावली के बारे में स्पष्ट होने के लिए, महत्व परीक्षण एक सामान्य अवधारणा है, जिसे अलग-अलग संदर्भों में अलग-अलग तरीके से किया जाता है। यह निर्भर करता है, उदाहरण के लिए, एक परीक्षण सांख्यिकीय की पसंद पर। क्रॉस सत्यापन वास्तव में अपेक्षित सामान्यीकरण त्रुटि के आकलन के लिए एक एल्गोरिथ्म है , जो कि महत्वपूर्ण सामान्य अवधारणा है, और जो एक हानि फ़ंक्शन की पसंद पर निर्भर करता है।

उम्मीद सामान्यीकरण त्रुटि औपचारिक रूप से परिभाषित करने के लिए एक छोटे से तकनीकी है, लेकिन शब्दों में यह है एक फिट मॉडल की उम्मीद नुकसान जब एक स्वतंत्र डेटा सेट पर भविष्यवाणी के लिए इस्तेमाल किया , जहां उम्मीद आकलन के साथ ही स्वतंत्र डेटा के लिए इस्तेमाल किया डेटा खत्म हो गया है भविष्यवाणी के लिए इस्तेमाल किया सेट।

एक उचित तुलना करने के लिए इस बात पर ध्यान केंद्रित करने देता है कि क्या को 0 के बराबर लिया जा सकता है या नहीं।β1

  • के लिए महत्व के परीक्षण के रिक्त परिकल्पना कि मुख्य प्रक्रिया एक गणना करने के लिए है -value, जो संभावना है कि चुने हुए परीक्षण आंकड़ा हमारे डेटा सेट के लिए मनाया तुलना में बड़ा है शून्य परिकल्पना के तहत , यह है कि, जब यह मानते हुए कि । व्याख्या यह है कि एक छोटा सा है -value शून्य परिकल्पना के खिलाफ सबूत है। सामान्य रूप से "छोटे" के लिए उपयोग किए जाने वाले नियम हैं जिनका अर्थ पूर्ण अर्थ में है जैसे कि प्रसिद्ध 0.05 या 0.01 महत्व स्तर।β1=0पीβ1=0पी
  • के लिए उम्मीद सामान्यीकरण त्रुटि हम गणना, शायद पार सत्यापन, इस धारणा है कि नीचे की उम्मीद सामान्यीकरण त्रुटि के एक अनुमान का उपयोग कर । यह मात्रा हमें बताती है कि हमारे द्वारा उपयोग की जाने वाली विधि द्वारा फिट किए गए मॉडल और , औसत डेटा पर स्वतंत्र डेटा पर भविष्यवाणी के लिए उपयोग किया जाता है। एक बड़ी अपेक्षित सामान्यीकरण त्रुटि खराब है, लेकिन इसके पूर्ण मूल्य के संदर्भ में कोई नियम नहीं हैं कि इसे खराब होने के लिए कितना बड़ा होना चाहिए। हमें उस मॉडल के लिए अपेक्षित सामान्यीकरण त्रुटि का अनुमान लगाना होगा जहां को 0 से भी अलग होने की अनुमति है, और फिर हम दो अनुमानित त्रुटियों की तुलना कर सकते हैं। जो भी सबसे छोटा है वह हमारे द्वारा चुने गए मॉडल से मेल खाता है। β1=0β1=0β1

महत्व परीक्षण का उपयोग करते हुए हम सीधे शून्य परिकल्पना बनाम अन्य मॉडलों के तहत मॉडल के "प्रदर्शन" से चिंतित नहीं हैं, लेकिन हम दस्तावेज के साथ चिंतित हैं कि अशक्त गलत है। यह एक पुष्टिकरण सेटअप में सबसे अधिक समझ में आता है, जहां मुख्य उद्देश्य अच्छी तरह से निर्दिष्ट वैज्ञानिक परिकल्पना की पुष्टि करना और दस्तावेज करना है, जिसे रूप में तैयार किया जा सकता है ।β10

उम्मीद सामान्यीकरण त्रुटि , दूसरे हाथ पर, केवल उम्मीद भविष्यवाणी कमी के मामले में औसत "प्रदर्शन" के साथ संबंध है, और यह निष्कर्ष दिया कि यह सबसे अच्छा है अनुमति देने के लिए भविष्यवाणी के संदर्भ में 0 से अलग बनाने के दस्तावेज़ करने का प्रयास नहीं है वह "वास्तव में" 0 से भिन्न है जो भी इसका अर्थ है।β1β1-

मैंने व्यक्तिगत रूप से कभी भी ऐसी समस्या पर काम नहीं किया है जहाँ मुझे औपचारिक रूप से महत्त्वपूर्ण परीक्षण की आवश्यकता है, फिर भी -values ​​मेरे काम में अपना रास्ता तलाशते हैं और चर चयन के लिए समझदार मार्गदर्शक और प्रथम छाप प्रदान करते हैं। मैं कर रहा हूँ, हालांकि, ज्यादातर कोई औपचारिक मॉडल चयन के लिए सामान्यीकरण त्रुटि के साथ संयोजन में लैसो तरह दण्डनीय ठहराए जाने तरीकों का उपयोग कर, और मैं धीरे-धीरे भी गणना करने के लिए अपने झुकाव को दबाने के लिए कोशिश कर रहा हूँ -values। पीपी

खोजपूर्ण विश्लेषण के लिए मुझे महत्व परीक्षण और वैल्यू के पक्ष में कोई तर्क नहीं दिखता है, और मैं निश्चित रूप से वैरिएबल चयन के लिए अपेक्षित सामान्यीकरण त्रुटि जैसी अवधारणा पर ध्यान केंद्रित करने की सिफारिश करूंगा। अन्य संदर्भों जहां एक विचार कर सकते हैं में का दस्तावेजीकरण है कि के लिए -value 0 नहीं है, मैं कहूँगा कि यह लगभग हमेशा एक बेहतर विचार के एक अनुमान रिपोर्ट करने के लिए है और इसके स्थान पर कोई विश्वास अंतराल।पीपीβ1β1


17

बस महत्व परीक्षण और मॉडल चयन करने के लिए एक चरणबद्ध प्रक्रिया का उपयोग करके आप विश्वास कर सकते हैं कि आपके पास महत्वपूर्ण भविष्यवक्ताओं के साथ एक बहुत मजबूत मॉडल है जब आप वास्तव में, नहीं; संयोग से आपको मजबूत सहसंबंध मिल सकते हैं और अन्य अनावश्यक भविष्यवक्ताओं को हटाते समय ये सहसंबंध काफी बढ़ सकते हैं।

चयन प्रक्रिया, निश्चित रूप से, केवल उन चर को परिणाम के साथ सबसे मजबूत सहसंबंधों के साथ रखती है और, जैसा कि चरणबद्ध प्रक्रिया आगे बढ़ती है, एक प्रकार की त्रुटि होने की संभावना आप की तुलना में बड़ी हो जाती है, जिसकी आप कल्पना करेंगे। ऐसा इसलिए है क्योंकि मानक त्रुटियों (और इस तरह पी-मान) को इस तथ्य पर ध्यान देने के लिए समायोजित नहीं किया जाता है कि मॉडल में यादृच्छिक रूप से शामिल करने के लिए चर नहीं चुने गए थे और उस सेट को चुनने के लिए कई परिकल्पना परीक्षण किए गए थे।

डेविड फ्रीडमैन के पास एक प्यारा कागज है, जिसमें वह " ए नोट ऑन स्क्रीनिंग रिग्रेशन इक्वेशन " नामक इन बिंदुओं को प्रदर्शित करता है । सार:

एक प्रतिगमन मॉडल को एक संदर्भ में विकसित करने पर विचार करें जहां मूल सिद्धांत कमजोर है। एक चरम मामले पर ध्यान केंद्रित करने के लिए, मान लीजिए कि वास्तव में निर्भर चर और व्याख्यात्मक चर के बीच कोई संबंध नहीं है। फिर भी, यदि कई व्याख्यात्मक चर हैं, तो होगा। यदि छोटे t आँकड़ों के साथ व्याख्यात्मक चर गिरा दिए जाते हैं और समीकरण को परिष्कृत कर दिया जाता है, तो उच्च रहेगा और समग्र F अत्यधिक महत्वपूर्ण हो जाएगा। यह अनुकरण द्वारा और स्पर्शोन्मुख गणना द्वारा प्रदर्शित किया जाता है।आर2आर2

इस समस्या का एक संभावित समाधान, जैसा कि आपने उल्लेख किया है, क्रॉस वेरिएशन के एक संस्करण का उपयोग कर रहा है। जब मुझे अपने मॉडल पर विश्वास करने के लिए एक अच्छा आर्थिक (मेरे शोध का क्षेत्र) या सांख्यिकीय कारण नहीं है, तो यह एक उपयुक्त मॉडल का चयन करने और निष्कासन करने के लिए मेरा पसंदीदा तरीका है।

अन्य उत्तरदाताओं का उल्लेख हो सकता है कि एआईसी या बीआईसी का उपयोग करने वाली चरणबद्ध प्रक्रियाएं क्रॉस सत्यापन के समरूप हैं। यह केवल भविष्यवाणियों की संख्या के सापेक्ष टिप्पणियों की संख्या के रूप में काम करता है, हालांकि बड़े होते हैं। टिप्पणियों की संख्या के सापेक्ष कई चर होने के संदर्भ में (फ्रीडमैन प्रति 10 या उससे कम टिप्पणियों के 1 चर कहते हैं), इस तरीके से चयन ऊपर चर्चा की गई खराब संपत्तियों का प्रदर्शन कर सकता है।

शक्तिशाली कंप्यूटरों के युग में, मुझे स्टेप वाइज चयन पर एक मॉडल चयन प्रक्रिया के रूप में क्रॉस सत्यापन का उपयोग नहीं करने का कोई कारण नहीं दिखता है।


क्या आप एआईसी या बीआईसी का उपयोग करके चरणबद्ध प्रक्रियाओं के लिए एक संदर्भ दे सकते हैं जो कि क्रॉस वैलिडेशन के समरूप हैं ? मैंने सत्यापन को पार करने के लिए एआईसी / बीआईसी की समतुल्यता के बारे में पढ़ा है, लेकिन चरणबद्ध सेटिंग में नहीं।
रिचर्ड हार्डी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.