प्रतिगमन में पूर्वाग्रह (अवरोधन) शब्द के सिकुड़ने का कारण नहीं


21

एक रेखीय मॉडल के लिए y=β0+xβ+ε , संकोचन अवधि हमेशा होता है P(β)

क्या कारण है कि हम पूर्वाग्रह (इंटरसेप्ट) शब्द को ? क्या हमें तंत्रिका नेटवर्क मॉडल में पूर्वाग्रह शब्द को सिकोड़ना चाहिए?β0


लॉजिस्टिक रिग्रेशन के लिए कामचलाऊ पुस्तकालय जैसा कि स्किटिट-लर्न में इस्तेमाल किया जाता है, पूर्वाग्रह शब्द को दंडित करता है (मुझे लगता है कि यह एक कार्यान्वयन विरूपण साक्ष्य है, पूर्वाग्रह को अतिरिक्त इनपुट चर के रूप में नियंत्रित किया जाता है)
seanv507

जवाबों:


33

Hastie एट अल द्वारा सांख्यिकीय सीखना के तत्व । इस प्रकार रिज प्रतिगमन को परिभाषित (धारा 3.4.1, समीकरण यानी स्पष्ट अवरोधन अवधि को बाहरβ0रिज दंड से।

β^आरमैंजी=आरजीमीटरमैंnβ{Σमैं=1एन(yमैं-β0-Σj=1पीएक्समैंjβj)2+λΣj=1पीβj2},
β0

फिर वे लिखते हैं:

[...] सूचना है कि अवरोधन दंड अवधि के बाहर छोड़ दिया गया है। अवरोधन का दंड प्रक्रिया प्रक्रिया को Y के लिए चुने गए मूल पर निर्भर करेगा ; यह है कि प्रत्येक लक्ष्य y के लिए एक स्थिर c जोड़ने पर, मैं केवल उसी राशि c द्वारा भविष्यवाणियों की एक पारी में परिणाम नहीं होगा ।β0Yसीyमैंसी

दरअसल, अवरोधन अवधि की उपस्थिति में बताया सभी y मैं बस को बढ़ावा मिलेगा बीटा 0 से बढ़ रही सी अच्छी तरह से और तदनुसार सभी भविष्यवाणी मूल्यों के रूप में y मैं भी में वृद्धि हो जाएगी । : यह अगर अवरोधन दंडित किया जाता है सच नहीं है β 0 से कम की वृद्धि करना होगा सीyमैंβ0सीy^मैंसीβ0सी

वास्तव में, रैखिक प्रतिगमन के कई अच्छे और सुविधाजनक गुण हैं जो एक उचित (अनपेक्षित) अवरोधन शब्द होने पर निर्भर करते हैं। उदाहरण के औसत मूल्य और के औसत मूल्य y मैं बराबर हैं, और (फलस्वरूप) वर्ग कई सहसंबंध गुणांक आर दृढ़ संकल्प के गुणांक के बराबर है आर 2 : ( आर ) 2 = क्योंकि 2 ( y , y ) = y2yमैंy^मैंआरआर2उदाहरण के लिए एक व्याख्या के लिए यह धागा देखें:एकाधिक सहसंबंध गुणांकRकी ज्यामितीय व्याख्याऔर निर्धारणR2का गुणांक

(R)2=cos2(y^,y)=y^2y2=R2,
RR2

इस अवरोधन को दंडित करने से वह सब सच नहीं होगा।


2

संकोचन या नियमितीकरण के उद्देश्य को याद करें। यह प्रशिक्षण डेटा या समकक्ष से अधिगम एल्गोरिथ्म को रोकने के लिए है - मनमाने ढंग से बड़े पैरामीटर मानों को लेने से रोकें। यह शोर की उपस्थिति में कुछ अधिक प्रशिक्षण उदाहरणों के साथ डेटासेट के लिए अधिक संभावना है (शोर की उपस्थिति के बारे में बहुत ही रोचक चर्चा और इसके प्रभाव की चर्चा "लेज़र से डेटा" में चर्चा की गई है। एक मॉडल जो बिना किसी नियमितीकरण के शोर डेटा पर सीखा है, संभवतः कुछ अनदेखी डेटा बिंदुओं पर खराब प्रदर्शन करेगा।

इसे ध्यान में रखते हुए, आपके पास 2 डी डेटा पॉइंट हैं, जिन्हें आप दो वर्गों में वर्गीकृत करना चाहते हैं। सभी लेकिन पूर्वाग्रह के मापदंडों को तय करने के बाद, पूर्वाग्रह की अवधि अलग-अलग होने से बस सीमा ऊपर या नीचे जाएगी। आप इसे उच्च आयामी स्थान पर सामान्यीकृत कर सकते हैं।

अधिगम एल्गोरिथ्म पूर्वाग्रह शब्द के लिए मनमाने ढंग से बड़े मूल्यों को नहीं रख सकता क्योंकि इससे संभवतः सकल हानि मूल्य (मॉडल प्रशिक्षण डेटा फिट नहीं होगा) होगा। दूसरे शब्दों में, कुछ प्रशिक्षण सेट दिए गए हैं, आप (या एक लर्निंग एल्गोरिदम) प्लेन को मनमाने ढंग से सही से दूर नहीं ले जा सकते हैं।

इसलिए, पूर्वाग्रह शब्द को सिकोड़ने का कोई कारण नहीं है, सीखने के एल्गोरिथ्म को ओवरफिटिंग के जोखिम के बिना अच्छा मिल जाएगा।

एक अंतिम नोट: मैंने कुछ कागजों में देखा कि जब वर्गीकरण के लिए उच्च-आयामी स्थानों में काम किया जाता है, तो पूर्वाग्रह शब्द को मॉडल करने की कोई सख्त आवश्यकता नहीं है। यह रैखिक रूप से वियोज्य डेटा के लिए काम कर सकता है क्योंकि अधिक आयाम जोड़े गए हैं, दोनों वर्गों को अलग करने की अधिक संभावनाएं हैं।


क्या आप कुछ कागजात के लिए संदर्भ दे सकते हैं जो कहते हैं "वर्गीकरण के लिए उच्च-आयामी स्थानों में काम करते समय, पूर्वाग्रह शब्द को मॉडल करने की कोई सख्त आवश्यकता नहीं है"?
चंद्र

1

इंटरसेप्ट शब्द सिकुड़न के लिए बिल्कुल प्रतिरक्षा नहीं है। सामान्य "संकोचन" (यानी नियमितीकरण) निरूपण, नियमितीकरण शब्द को हानि कार्य में लगाता है, जैसे:

RSS(β)=yiXiβ2

RegularizedLoss(β)=RSS(β)λf(β)

कहाँ आम तौर पर एक Lebesgue आदर्श से संबंधित है, और λ एक अदिश कि नियंत्रण कितना वजन हम संकोचन अवधि पर डाल दिया है।f(β)λ

इस तरह के नुकसान समारोह में संकोचन शब्द लगाने से, यह मॉडल के सभी गुणांक पर प्रभाव डालता है । मुझे लगता है कि आपके सवाल का अंकन के बारे में भ्रम की स्थिति है, जिसमें से उत्पन्न होती है (में पी ( β ) ) सभी गुणांक का एक वेक्टर है, के समावेशी β 0 । आपका रेखीय मॉडल शायद बेहतर रूप में लिखा जाएगा y = एक्स β + ε जहां एक्स "डिजाइन मैट्रिक्स," जिसके द्वारा मेरा मतलब है इसके बारे में एक स्तंभ के साथ अपने डेटा है 1 ' रोंβP(β)β0y=Xβ+ϵX1s अवरोधन बाएं हाथ की ओर से संलग्न (लेने के लिए )।

अब, मैं तंत्रिका नेटवर्क के लिए नियमितीकरण के लिए बात नहीं कर सकता। यह संभव है कि तंत्रिका नेटवर्क के लिए आप पूर्वाग्रह की अवधि के संकोचन से बचना चाहते हैं या अन्यथा मैं ऊपर वर्णित सूत्रीकरण से नियमित रूप से नुकसान फ़ंक्शन को डिजाइन कर सकता हूं। मुझे नहीं पता। लेकिन मुझे दृढ़ता से संदेह है कि वजन और पूर्वाग्रह शर्तों को एक साथ नियमित किया जाता है।


2
यह सम्मेलन पर निर्भर करता है, लेकिन उदाहरण के लिए Hastie et al द्वारा सांख्यिकीय शिक्षण के तत्व। रिज रिग्रेशन को परिभाषित करें जैसे कि अवरोधन दंडित नहीं किया गया है (मेरा उत्तर देखें)। मुझे संदेह है कि यह अन्यथा की तुलना में अधिक मानक हो सकता है।
अमीबा का कहना है कि मोनिका

1

मुझे यकीन नहीं है कि डेविड मार्क्स द्वारा उपरोक्त उत्तर काफी सही है; एंड्रयू एनजी के अनुसार, अधिवेशन द्वारा पूर्वाग्रह / अवरोधन गुणांक को आमतौर पर एक रैखिक प्रतिगमन में नियमित नहीं किया जाता है, और किसी भी मामले में इसे नियमित किया जाता है या महत्वपूर्ण अंतर नहीं होता है।


1

मैं सबसे सरल स्पष्टीकरण दूंगा, फिर विस्तार करें।

मान लीजिए कि आप शून्य में सिकुड़ जाते हैं, तो आपका मॉडल प्रभावी रूप से बन जाता है:

yटी=εटी
इस मॉडल के साथ सिर्फ एक समस्या: [εटी]=[yटी]0, जो रैखिक प्रतिगमन की अतिशयता धारणा का उल्लंघन करता है । इसलिए, अनुमानित गुणांकों में निष्पक्षता जैसे अच्छे गुण नहीं होंगे।

यह अवरोधन के मुख्य उद्देश्य को प्रदर्शित करता है: मतलब पर कब्जा करने के लिए। मुझे लगता है कि बहुत से लोग रैखिक प्रतिगमन में अवरोधन के महत्व का एहसास नहीं करते हैं। इसे अक्सर "असली" के कम सेक्सी छोटे भाई के रूप में देखा जाता हैβभविष्यवक्ता का। हालांकि, जैसा कि आप जानते हैं कि "प्रतिगमन के माध्यम से उत्पत्ति" मॉडल से अवरोधन छोड़ने से अक्सर अवांछनीय परिणाम हो सकते हैं।

अब, पूर्णता के लिए यदि आप सभी गुणांक गुणांक को सिकोड़ते हैं β और अवरोधन रखें β0 बाहर, आप इसे प्राप्त करें:

yटी=β0+εटी
[yटी]=β0+[εटी]
यहाँ, हमारे पास अभी भी है [εटी]=0 क्योंकि इंटरसेप्ट डेटा के माध्य को कैप्चर करेगा β0=μ=[yटी]

यह मॉडल मूल मॉडल जितना सेक्सी नहीं है, यह वास्तव में मूर्खतापूर्ण है। हालाँकि, यह एक कानूनी मॉडल है। आप इस पर ANOVA चला सकते हैं, उदाहरण के लिए।

समापन के लिए, आपको अवरोधन को संकोचन से बाहर रखने की आवश्यकता है ताकि वह वही करे जो इसके लिए करना है: श्रृंखला के माध्य पर कब्जा करना β0=[yटी]

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.