सिकुड़न क्यों काम करती है?


55

मॉडल चयन की समस्याओं को हल करने के लिए, कई तरीके (LASSO, रिज रिग्रेशन, आदि) भविष्यवाणियों के गुणांक को शून्य की ओर कम कर देंगे। मैं एक सहज व्याख्या की तलाश कर रहा हूं कि यह भविष्य कहनेवाला क्षमता में सुधार क्यों करता है। यदि चर का वास्तविक प्रभाव वास्तव में बहुत बड़ा था, तो खराब नतीजे में पैरामीटर परिणाम को कम क्यों नहीं करता है?

जवाबों:


48

मोटे तौर पर, भविष्यवाणी की त्रुटि के तीन अलग-अलग स्रोत हैं:

  1. आपके मॉडल का पूर्वाग्रह
  2. आपके मॉडल का विचरण
  3. अस्पष्टीकृत विचरण

हम बिंदु 3 के बारे में कुछ भी नहीं कर सकते हैं (अस्पष्टीकृत विचरण का अनुमान लगाने के प्रयास को छोड़कर और इसे हमारे भविष्य कहनेवाला घनत्व और पूर्वानुमान अंतराल में शामिल करने के लिए)। यह हमें 1 और 2 के साथ छोड़ देता है।

यदि आपके पास वास्तव में "सही" मॉडल है, तो, कहते हैं, ओएलएस पैरामीटर अनुमान निष्पक्ष होंगे और सभी निष्पक्ष (रैखिक) अनुमानकों (वे BLUE) के बीच न्यूनतम विचरण करते हैं। एक ओएलएस मॉडल से भविष्यवाणियां सर्वश्रेष्ठ रैखिक निष्पक्ष भविष्यवाणियां (BLUPs) होंगी। यह अच्छा रहेगा।

हालांकि, यह पता चला है कि हालांकि हमारे पास सभी निष्पक्ष भविष्यवाणियों के बीच निष्पक्ष भविष्यवाणियां और न्यूनतम विचरण है, फिर भी विचरण बहुत बड़ा हो सकता है। इससे भी महत्वपूर्ण बात यह है कि हम कभी-कभी "थोड़ा सा" पूर्वाग्रह का परिचय दे सकते हैं और साथ ही साथ "बहुत कुछ" बचा सकते हैं - और व्यापार को सही मानकर, हम एक पूर्वाग्रही (कम विचरण) वाले मॉडल की तुलना में कमतर त्रुटि वाले त्रुटि प्राप्त कर सकते हैं। उच्च विचरण) एक। इसे "पूर्वाग्रह-व्यापर व्यापार" कहा जाता है, और यह प्रश्न और इसके उत्तर ज्ञानवर्धक हैं: एक पूर्वाग्रहित अनुमानक एक निष्पक्ष व्यक्ति के लिए बेहतर कब है?

और लैस्सो, रिज रिग्रेशन, इलास्टिक नेट और आगे जैसे नियमितीकरण ठीक वैसा ही करते हैं। वे मॉडल को शून्य की ओर खींचते हैं। (बायेसियन दृष्टिकोण समान हैं - वे मॉडल को पुजारियों की ओर खींचते हैं।) इस प्रकार, नियमित मॉडल गैर-नियमित मॉडल की तुलना में पक्षपाती होंगे, लेकिन इसमें कम विचरण भी होगा। यदि आप अपना नियमितीकरण सही चुनते हैं, तो परिणाम कम त्रुटि के साथ एक भविष्यवाणी है।

यदि आप "पूर्वाग्रह-भिन्नता व्यापार नियमितीकरण" या इसी तरह की खोज करते हैं, तो आपको विचार के लिए कुछ भोजन मिलता है। उदाहरण के लिए, यह प्रस्तुति उपयोगी है।

संपादित करें: अमीबा काफी सही ढंग से बताता है कि मैं इस बात के लिए तैयार हूं कि वास्तव में नियमितीकरण से मॉडल और भविष्यवाणियों के निचले संस्करण की पैदावार होती है । एक बड़े नियमितीकरण पैरामीटर साथ एक लासो मॉडल पर विचार करें । यदि , आपके lasso पैरामीटर अनुमान शून्य तक सिकुड़ जाएंगे। शून्य के एक निश्चित पैरामीटर मान में शून्य भिन्नता है। (यह पूरी तरह से सही नहीं है, क्योंकि का थ्रेशोल्ड मान जिसके आगे आपके पैरामीटर शून्य हो जाएंगे, आपके डेटा और आपके मॉडल पर निर्भर करता है। लेकिन मॉडल और डेटा को देखते हुए, आप एक पा सकते हैं।λ λ λλλλλऐसा मॉडल शून्य मॉडल है। अपने क्वांटिफायर को हमेशा सीधा रखें।) हालांकि, शून्य मॉडल में निश्चित रूप से एक विशाल पूर्वाग्रह भी होगा। यह सभी के बाद वास्तविक टिप्पणियों के बारे में परवाह नहीं करता है।

और आपके नियमितीकरण पैरामीटर के सभी-चरम-चरम मूल्यों पर भी यही लागू होता है: छोटे मान अनियमित पैरामीटर अनुमानों को प्राप्त करेंगे, जो कम पक्षपाती (निष्पक्ष यदि आपके पास "सही" मॉडल है), लेकिन अधिक होगा विचरण। वे आपकी वास्तविक टिप्पणियों का अनुसरण करते हुए "चारों ओर कूदेंगे"। आपके नियमितीकरण के उच्च मान आपके पैरामीटर को अधिक से अधिक "विवश" करेंगे। यही कारण है कि विधियों में "लास्सो" या "लोचदार नेट" जैसे नाम हैं : वे आपके मापदंडों की स्वतंत्रता को चारों ओर तैरने और डेटा का पालन करने के लिए विवश करते हैं।λ

(मैं इस पर एक छोटा सा पेपर लिख रहा हूं, जो उम्मीद है कि सुलभ होगा। मैं एक बार उपलब्ध होने के बाद एक लिंक जोड़ूंगा।)


4
ऐसा लगता है कि पहेली का महत्वपूर्ण टुकड़ा है: क्यों संकोचन विधियों में विचरण में कमी आती है? (कि वे कुछ पूर्वाग्रह का परिचय कमोबेश स्पष्ट करते हैं।) आप बस यह कहते हैं कि वे करते हैं; क्या आप उसके लिए कुछ अंतर्ज्ञान प्रदान कर सकते हैं?
अमीबा का कहना है कि

2
@ स्टेफ़न कोलासा तो गुणांक के आकार के लिए दंड शब्द को जोड़कर थोड़ा सा पूर्वाग्रह जोड़ता है लेकिन परिवर्तनशीलता को कम कर देता है क्योंकि यह बड़े गुणांक को दंडित करता है, जिसमें आमतौर पर छोटे गुणांक की तुलना में अधिक परिवर्तनशीलता होती है। क्या वो सही है? फिर, आखिरकार हम किसी विशेष गुणांक के लिए 'सही' मान प्राप्त करने के बारे में चिंतित नहीं हैं, हम सिर्फ मॉडल की समग्र भविष्यवाणी क्षमता में रुचि रखते हैं?
aspiringstatistician

2
@aspiringstatistician: आपका दूसरा वाक्य निशान पर सही है। ("गलत लेकिन उपयोगी" मॉडल के बारे में जॉर्ज बॉक्स याद करें।) मुझे इस बात की ज्यादा चिंता नहीं होगी कि क्या बड़े पैरामीटर का अनुमान छोटे लोगों की तुलना में अधिक सिकुड़ा हुआ है। सबसे पहले, यह मानकीकरण पर निर्भर करेगा। दूसरा, यदि आपके बड़े पैरामीटर मान अच्छी तरह से अनुमानित हैं (यानी, कम त्रुटि के साथ), तो वे जरूरी नहीं कि बहुत सिकुड़ जाएंगे। नियमित रूप से "पसंद" उन मापदंडों को सिकोड़ने के लिए है जो बुरी तरह से परिभाषित होते हैं, अर्थात, जिनमें एक उच्च विचरण होता है।
एस। कोलासा -

3
+1। कागज के साथ शुभकामनाएँ! @aspiringstatistician: संकोचन के बारे में बहुत अच्छा अवलोकन सही मॉडल प्राप्त करने से संबंधित नहीं है; यह बिल्कुल सही है (और चिंतन करने लायक है): सही ढंग से निर्दिष्ट मॉडल में नियमित और "कम सच" वाले की तुलना में बदतर भविष्य कहनेवाला क्षमता हो सकती है ( उदाहरण के लिए इस पेपर के पृष्ठ 307 पर परिशिष्ट देखें )।
अमीबा का कहना है कि

7
+1। बस जोड़ना चाहते थे, जबकि यह सवाल नियमित मॉडल के पीछे अंतर्ज्ञान के बारे में था , यह इन मॉडलों के बेयसियन व्युत्पत्ति का उल्लेख नहीं करने के लिए थोड़ा अधूरा लगता है। उदाहरण के लिए, जब रिज रीग्रेशन की तुलना साधारण MLE से की जाती है, तो अधिकांश अनुप्रयोगों में एक समान (अनुचित) वितरण के विपरीत, सामान्य वितरण से तैयार होने वाले प्रभाव के बारे में सोचना स्वाभाविक है। इसलिए इन तकनीकों को एमएपी अनुमान के विशेष मामलों के रूप में देखने से यह स्पष्ट होता है कि कोई रिज प्रतिगमन क्यों चुनेगा।
jlimahaverford

10

पी3

इस उत्तर को और अधिक पढ़ें । जाहिरा तौर पर, स्टीन की विडंबना प्रसिद्ध प्रमेय से संबंधित है कि 3 या अधिक आयामों में एक ब्राउनियन गति प्रक्रिया गैर-आवर्तक है (मूल स्थान पर लौटने के बिना सभी जगह भटकती है), जबकि 1 और 2 न्युक्लियर चिकित्सक पुनरावृत्ति होते हैं।

स्टीन का विरोधाभास इस बात पर ध्यान दिए बिना होता है कि आप किस चीज़ की ओर सिकुड़ते हैं, हालांकि व्यवहार में, यह बेहतर है यदि आप सच्चे पैरामीटर मानों की ओर सिकुड़ते हैं। यही बाइसियन करते हैं। उन्हें लगता है कि उन्हें पता है कि सच्चा पैरामीटर कहां है और वे इसके प्रति सिकुड़ जाते हैं। तब वे दावा करते हैं कि स्टीन उनके अस्तित्व को मान्य करता है।

इसे ठीक-ठीक विरोधाभास कहा जाता है क्योंकि यह हमारे अंतर्ज्ञान को चुनौती देता है। हालांकि, यदि आप ब्राउनियन गति के बारे में सोचते हैं, तो मूल पर लौटने के लिए एक 3 डी ब्राउनियन गति प्राप्त करने का एकमात्र तरीका चरणों पर एक नम दंड देना होगा। एक संकोचन अनुमानक अनुमानों पर एक प्रकार का हर्जाना भी लगाता है (विचरण को कम करता है), इसीलिए यह काम करता है।


क्या आपके पास स्टीन के विरोधाभास और ब्राउनियन प्रक्रियाओं के बीच संबंध का संदर्भ है?
kjetil b halvorsen

1
"इस उत्तर को और पढ़ें" के तहत मेरे लिंक का अनुसरण करें। उस पेपर की प्रतिक्रिया में एक लिंक है जो कनेक्शन बनाता है।
प्लासिडिया

बेस अनुमानक पूर्ण वर्ग प्रमेय द्वारा स्वीकार्य हैं: इसका सीधे जेएस अनुमानक से कोई लेना-देना नहीं है। हालाँकि, जेएस के नमूने पर हावी होने के परिणाम ने लोगों को बेयस अनुमानकों का अध्ययन करने में अधिक दिलचस्पी दिखाई। (मैं इस दावे पर आपत्ति जता रहा हूं कि बायेसियन का दावा है कि स्टीन उनके अस्तित्व को मान्य करता है।))
user795305
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.