एक रेखीय मॉडल के लिए , संकोचन अवधि हमेशा होता है ।
क्या कारण है कि हम पूर्वाग्रह (इंटरसेप्ट) शब्द को ? क्या हमें तंत्रिका नेटवर्क मॉडल में पूर्वाग्रह शब्द को सिकोड़ना चाहिए?
एक रेखीय मॉडल के लिए , संकोचन अवधि हमेशा होता है ।
क्या कारण है कि हम पूर्वाग्रह (इंटरसेप्ट) शब्द को ? क्या हमें तंत्रिका नेटवर्क मॉडल में पूर्वाग्रह शब्द को सिकोड़ना चाहिए?
जवाबों:
Hastie एट अल द्वारा सांख्यिकीय सीखना के तत्व । इस प्रकार रिज प्रतिगमन को परिभाषित (धारा 3.4.1, समीकरण यानी स्पष्ट अवरोधन अवधि को बाहरβ0रिज दंड से।
फिर वे लिखते हैं:
[...] सूचना है कि अवरोधन दंड अवधि के बाहर छोड़ दिया गया है। अवरोधन का दंड प्रक्रिया प्रक्रिया को Y के लिए चुने गए मूल पर निर्भर करेगा ; यह है कि प्रत्येक लक्ष्य y के लिए एक स्थिर c जोड़ने पर, मैं केवल उसी राशि c द्वारा भविष्यवाणियों की एक पारी में परिणाम नहीं होगा ।
दरअसल, अवरोधन अवधि की उपस्थिति में बताया सभी y मैं बस को बढ़ावा मिलेगा बीटा 0 से बढ़ रही सी अच्छी तरह से और तदनुसार सभी भविष्यवाणी मूल्यों के रूप में y मैं भी में वृद्धि हो जाएगी ग । : यह अगर अवरोधन दंडित किया जाता है सच नहीं है β 0 से कम की वृद्धि करना होगा ग ।
वास्तव में, रैखिक प्रतिगमन के कई अच्छे और सुविधाजनक गुण हैं जो एक उचित (अनपेक्षित) अवरोधन शब्द होने पर निर्भर करते हैं। उदाहरण के औसत मूल्य और के औसत मूल्य y मैं बराबर हैं, और (फलस्वरूप) वर्ग कई सहसंबंध गुणांक आर दृढ़ संकल्प के गुणांक के बराबर है आर 2 : ( आर ) 2 = क्योंकि 2 ( y , y ) = ‖ y ‖ 2उदाहरण के लिए एक व्याख्या के लिए यह धागा देखें:एकाधिक सहसंबंध गुणांकRकी ज्यामितीय व्याख्याऔर निर्धारणR2का गुणांक।
इस अवरोधन को दंडित करने से वह सब सच नहीं होगा।
संकोचन या नियमितीकरण के उद्देश्य को याद करें। यह प्रशिक्षण डेटा या समकक्ष से अधिगम एल्गोरिथ्म को रोकने के लिए है - मनमाने ढंग से बड़े पैरामीटर मानों को लेने से रोकें। यह शोर की उपस्थिति में कुछ अधिक प्रशिक्षण उदाहरणों के साथ डेटासेट के लिए अधिक संभावना है (शोर की उपस्थिति के बारे में बहुत ही रोचक चर्चा और इसके प्रभाव की चर्चा "लेज़र से डेटा" में चर्चा की गई है। एक मॉडल जो बिना किसी नियमितीकरण के शोर डेटा पर सीखा है, संभवतः कुछ अनदेखी डेटा बिंदुओं पर खराब प्रदर्शन करेगा।
इसे ध्यान में रखते हुए, आपके पास 2 डी डेटा पॉइंट हैं, जिन्हें आप दो वर्गों में वर्गीकृत करना चाहते हैं। सभी लेकिन पूर्वाग्रह के मापदंडों को तय करने के बाद, पूर्वाग्रह की अवधि अलग-अलग होने से बस सीमा ऊपर या नीचे जाएगी। आप इसे उच्च आयामी स्थान पर सामान्यीकृत कर सकते हैं।
अधिगम एल्गोरिथ्म पूर्वाग्रह शब्द के लिए मनमाने ढंग से बड़े मूल्यों को नहीं रख सकता क्योंकि इससे संभवतः सकल हानि मूल्य (मॉडल प्रशिक्षण डेटा फिट नहीं होगा) होगा। दूसरे शब्दों में, कुछ प्रशिक्षण सेट दिए गए हैं, आप (या एक लर्निंग एल्गोरिदम) प्लेन को मनमाने ढंग से सही से दूर नहीं ले जा सकते हैं।
इसलिए, पूर्वाग्रह शब्द को सिकोड़ने का कोई कारण नहीं है, सीखने के एल्गोरिथ्म को ओवरफिटिंग के जोखिम के बिना अच्छा मिल जाएगा।
एक अंतिम नोट: मैंने कुछ कागजों में देखा कि जब वर्गीकरण के लिए उच्च-आयामी स्थानों में काम किया जाता है, तो पूर्वाग्रह शब्द को मॉडल करने की कोई सख्त आवश्यकता नहीं है। यह रैखिक रूप से वियोज्य डेटा के लिए काम कर सकता है क्योंकि अधिक आयाम जोड़े गए हैं, दोनों वर्गों को अलग करने की अधिक संभावनाएं हैं।
इंटरसेप्ट शब्द सिकुड़न के लिए बिल्कुल प्रतिरक्षा नहीं है। सामान्य "संकोचन" (यानी नियमितीकरण) निरूपण, नियमितीकरण शब्द को हानि कार्य में लगाता है, जैसे:
कहाँ आम तौर पर एक Lebesgue आदर्श से संबंधित है, और λ एक अदिश कि नियंत्रण कितना वजन हम संकोचन अवधि पर डाल दिया है।
इस तरह के नुकसान समारोह में संकोचन शब्द लगाने से, यह मॉडल के सभी गुणांक पर प्रभाव डालता है । मुझे लगता है कि आपके सवाल का अंकन के बारे में भ्रम की स्थिति है, जिसमें से उत्पन्न होती है (में पी ( β ) ) सभी गुणांक का एक वेक्टर है, के समावेशी β 0 । आपका रेखीय मॉडल शायद बेहतर रूप में लिखा जाएगा y = एक्स β + ε जहां एक्स "डिजाइन मैट्रिक्स," जिसके द्वारा मेरा मतलब है इसके बारे में एक स्तंभ के साथ अपने डेटा है 1 ' रों अवरोधन बाएं हाथ की ओर से संलग्न (लेने के लिए )।
अब, मैं तंत्रिका नेटवर्क के लिए नियमितीकरण के लिए बात नहीं कर सकता। यह संभव है कि तंत्रिका नेटवर्क के लिए आप पूर्वाग्रह की अवधि के संकोचन से बचना चाहते हैं या अन्यथा मैं ऊपर वर्णित सूत्रीकरण से नियमित रूप से नुकसान फ़ंक्शन को डिजाइन कर सकता हूं। मुझे नहीं पता। लेकिन मुझे दृढ़ता से संदेह है कि वजन और पूर्वाग्रह शर्तों को एक साथ नियमित किया जाता है।
मैं सबसे सरल स्पष्टीकरण दूंगा, फिर विस्तार करें।
मान लीजिए कि आप शून्य में सिकुड़ जाते हैं, तो आपका मॉडल प्रभावी रूप से बन जाता है:
यह अवरोधन के मुख्य उद्देश्य को प्रदर्शित करता है: मतलब पर कब्जा करने के लिए। मुझे लगता है कि बहुत से लोग रैखिक प्रतिगमन में अवरोधन के महत्व का एहसास नहीं करते हैं। इसे अक्सर "असली" के कम सेक्सी छोटे भाई के रूप में देखा जाता हैभविष्यवक्ता का। हालांकि, जैसा कि आप जानते हैं कि "प्रतिगमन के माध्यम से उत्पत्ति" मॉडल से अवरोधन छोड़ने से अक्सर अवांछनीय परिणाम हो सकते हैं।
अब, पूर्णता के लिए यदि आप सभी गुणांक गुणांक को सिकोड़ते हैं और अवरोधन रखें बाहर, आप इसे प्राप्त करें:
यह मॉडल मूल मॉडल जितना सेक्सी नहीं है, यह वास्तव में मूर्खतापूर्ण है। हालाँकि, यह एक कानूनी मॉडल है। आप इस पर ANOVA चला सकते हैं, उदाहरण के लिए।
समापन के लिए, आपको अवरोधन को संकोचन से बाहर रखने की आवश्यकता है ताकि वह वही करे जो इसके लिए करना है: श्रृंखला के माध्य पर कब्जा करना