मोटे तौर पर, भविष्यवाणी की त्रुटि के तीन अलग-अलग स्रोत हैं:
- आपके मॉडल का पूर्वाग्रह
- आपके मॉडल का विचरण
- अस्पष्टीकृत विचरण
हम बिंदु 3 के बारे में कुछ भी नहीं कर सकते हैं (अस्पष्टीकृत विचरण का अनुमान लगाने के प्रयास को छोड़कर और इसे हमारे भविष्य कहनेवाला घनत्व और पूर्वानुमान अंतराल में शामिल करने के लिए)। यह हमें 1 और 2 के साथ छोड़ देता है।
यदि आपके पास वास्तव में "सही" मॉडल है, तो, कहते हैं, ओएलएस पैरामीटर अनुमान निष्पक्ष होंगे और सभी निष्पक्ष (रैखिक) अनुमानकों (वे BLUE) के बीच न्यूनतम विचरण करते हैं। एक ओएलएस मॉडल से भविष्यवाणियां सर्वश्रेष्ठ रैखिक निष्पक्ष भविष्यवाणियां (BLUPs) होंगी। यह अच्छा रहेगा।
हालांकि, यह पता चला है कि हालांकि हमारे पास सभी निष्पक्ष भविष्यवाणियों के बीच निष्पक्ष भविष्यवाणियां और न्यूनतम विचरण है, फिर भी विचरण बहुत बड़ा हो सकता है। इससे भी महत्वपूर्ण बात यह है कि हम कभी-कभी "थोड़ा सा" पूर्वाग्रह का परिचय दे सकते हैं और साथ ही साथ "बहुत कुछ" बचा सकते हैं - और व्यापार को सही मानकर, हम एक पूर्वाग्रही (कम विचरण) वाले मॉडल की तुलना में कमतर त्रुटि वाले त्रुटि प्राप्त कर सकते हैं। उच्च विचरण) एक। इसे "पूर्वाग्रह-व्यापर व्यापार" कहा जाता है, और यह प्रश्न और इसके उत्तर ज्ञानवर्धक हैं: एक पूर्वाग्रहित अनुमानक एक निष्पक्ष व्यक्ति के लिए बेहतर कब है?
और लैस्सो, रिज रिग्रेशन, इलास्टिक नेट और आगे जैसे नियमितीकरण ठीक वैसा ही करते हैं। वे मॉडल को शून्य की ओर खींचते हैं। (बायेसियन दृष्टिकोण समान हैं - वे मॉडल को पुजारियों की ओर खींचते हैं।) इस प्रकार, नियमित मॉडल गैर-नियमित मॉडल की तुलना में पक्षपाती होंगे, लेकिन इसमें कम विचरण भी होगा। यदि आप अपना नियमितीकरण सही चुनते हैं, तो परिणाम कम त्रुटि के साथ एक भविष्यवाणी है।
यदि आप "पूर्वाग्रह-भिन्नता व्यापार नियमितीकरण" या इसी तरह की खोज करते हैं, तो आपको विचार के लिए कुछ भोजन मिलता है। उदाहरण के लिए, यह प्रस्तुति उपयोगी है।
संपादित करें: अमीबा काफी सही ढंग से बताता है कि मैं इस बात के लिए तैयार हूं कि वास्तव में नियमितीकरण से मॉडल और भविष्यवाणियों के निचले संस्करण की पैदावार होती है । एक बड़े नियमितीकरण पैरामीटर साथ एक लासो मॉडल पर विचार करें । यदि , आपके lasso पैरामीटर अनुमान शून्य तक सिकुड़ जाएंगे। शून्य के एक निश्चित पैरामीटर मान में शून्य भिन्नता है। (यह पूरी तरह से सही नहीं है, क्योंकि का थ्रेशोल्ड मान जिसके आगे आपके पैरामीटर शून्य हो जाएंगे, आपके डेटा और आपके मॉडल पर निर्भर करता है। लेकिन मॉडल और डेटा को देखते हुए, आप एक पा सकते हैं।λ → ∞ λ λλλ → ∞λλऐसा मॉडल शून्य मॉडल है। अपने क्वांटिफायर को हमेशा सीधा रखें।) हालांकि, शून्य मॉडल में निश्चित रूप से एक विशाल पूर्वाग्रह भी होगा। यह सभी के बाद वास्तविक टिप्पणियों के बारे में परवाह नहीं करता है।
और आपके नियमितीकरण पैरामीटर के सभी-चरम-चरम मूल्यों पर भी यही लागू होता है: छोटे मान अनियमित पैरामीटर अनुमानों को प्राप्त करेंगे, जो कम पक्षपाती (निष्पक्ष यदि आपके पास "सही" मॉडल है), लेकिन अधिक होगा विचरण। वे आपकी वास्तविक टिप्पणियों का अनुसरण करते हुए "चारों ओर कूदेंगे"। आपके नियमितीकरण के उच्च मान आपके पैरामीटर को अधिक से अधिक "विवश" करेंगे। यही कारण है कि विधियों में "लास्सो" या "लोचदार नेट" जैसे नाम हैं : वे आपके मापदंडों की स्वतंत्रता को चारों ओर तैरने और डेटा का पालन करने के लिए विवश करते हैं।λ
(मैं इस पर एक छोटा सा पेपर लिख रहा हूं, जो उम्मीद है कि सुलभ होगा। मैं एक बार उपलब्ध होने के बाद एक लिंक जोड़ूंगा।)