जब एक मॉडल को कम कर दिया जाता है?


56

लॉजिक अक्सर बताता है कि किसी मॉडल को कम करके, इसे सामान्य करने की क्षमता बढ़ जाती है। कहा कि, स्पष्ट रूप से एक मॉडल के कारण कुछ बिंदु पर डेटा की जटिलता की परवाह किए बिना मॉडल खराब हो जाते हैं।

जब आपके मॉडल ने सही संतुलन बिगाड़ लिया है और यह उस आंकड़े से नहीं गुजर रहा है, जिसे वह मॉडल करना चाहता है?


नोट: यह मेरे सवाल का एक अनुवर्ती है, " क्यों बहुत बुरा है? "


मुझे लगता है कि आपका मतलब है, " तर्क अक्सर कहता है कि (ओवर) एक मॉडल के तहत, यह सामान्य करने की क्षमता में वृद्धि हुई है। "
रूबेंस

जवाबों:


43

जब यह मॉडल के लिए प्रयास कर रहा है, तो डेटा के संबंध में बहुत सरल होने पर एक मॉडल घटता है।

इस तरह की स्थिति का पता लगाने का एक तरीका पूर्वाग्रह-भिन्न दृष्टिकोण का उपयोग करना है , जो इस तरह का प्रतिनिधित्व कर सकता है:

यहाँ छवि विवरण दर्ज करें

जब आप उच्च पूर्वाग्रह रखते हैं तो आपका मॉडल अधिनियमित किया जाता है।


यह जानने के लिए कि क्या आपके पास बहुत अधिक पूर्वाग्रह है या बहुत अधिक भिन्नता है, आप प्रशिक्षण और परीक्षण त्रुटियों के संदर्भ में घटना को देखते हैं:

उच्च पूर्वाग्रह: यह सीखने की अवस्था प्रशिक्षण और परीक्षण सेट दोनों पर उच्च त्रुटि दिखाती है, इसलिए एल्गोरिथ्म उच्च पूर्वाग्रह से पीड़ित है:

यहाँ छवि विवरण दर्ज करें

उच्च विचरण: यह सीखने की अवस्था प्रशिक्षण और परीक्षण सेट त्रुटियों के बीच एक बड़ा अंतर दर्शाती है, इसलिए एल्गोरिथ्म उच्च विचरण से पीड़ित है।

यहाँ छवि विवरण दर्ज करें

यदि एक एल्गोरिथ्म उच्च विचरण से पीड़ित है:

  • अधिक डेटा शायद मदद करेगा
  • अन्यथा मॉडल जटिलता को कम करें

यदि एक एल्गोरिथ्म उच्च पूर्वाग्रह से पीड़ित है:

  • मॉडल जटिलता में वृद्धि

मैं Coursera 'मशीन लर्निंग कोर्स , सेक्शन "10: मशीन लर्निंग लगाने की सलाह" देखने की सलाह दूंगा , जिसमें से मैंने उपरोक्त ग्राफ़ लिया।


क्या आपके कहने का मतलब आखिरी गोली बिंदु पर "मॉडल की जटिलता को कम करना" है? मुझे लगता है कि सिर्फ "मॉडल जटिलता को बढ़ाएं"। । । BTW अच्छा समय मैं उस पाठ्यक्रम में नामांकित हूं और केवल उस वीडियो को देखा था जिसका आप उल्लेख कर रहे हैं।
नील स्लेटर

@NeilSlater धन्यवाद, अच्छी पकड़, वास्तव में एक टाइपो था :)
फ्रेंक डर्नोनकोर्ट

1
आपको लगता है कि प्रशिक्षण त्रुटि पूर्वाग्रह का एक सभ्य अनुमान है। पूर्वाग्रह (MSE हानि फ़ंक्शन के सरल मामले के लिए) को नए डेटा पर आपके द्वारा किए गए अपेक्षित त्रुटि के रूप में परिभाषित किया जाता है , जब आप सभी विभिन्न प्रशिक्षण सेटों पर अपनी भविष्यवाणी को औसत करते हैं । क्या J_train बनाता है (प्रशिक्षण सेटों में औसतन नहीं, और नए डेटा का उपयोग नहीं) पूर्वाग्रह का एक सभ्य अनुमान?
अधिकतम

@FranckDernoncourt क्या हम प्रशिक्षण बनाम परीक्षण डेटा के आकार को ओवरफिटिंग और अंडरफिटिंग से जोड़ सकते हैं? क्या हम कह सकते हैं कि छोटे प्रशिक्षण सेट पर प्रशिक्षित मॉडल अंडरफिट होता है?
सुदीप भंडारी

10

अपने प्रश्न का उत्तर देने के लिए यह महत्वपूर्ण है कि आप जिस संदर्भ की तलाश कर रहे हैं, उसके फ्रेम को समझें, यदि आप देख रहे हैं कि आप मॉडल फिटिंग में क्या दार्शनिक रूप से हासिल करने की कोशिश कर रहे हैं, तो रूबन्स उत्तर की जाँच करें वह उस संदर्भ को समझाने का एक अच्छा काम करता है।

हालाँकि, व्यवहार में आपके प्रश्न को व्यावसायिक उद्देश्यों से लगभग पूरी तरह परिभाषित किया गया है।

एक ठोस उदाहरण देने के लिए, आप कहते हैं कि आप एक ऋण अधिकारी हैं, आपने ऋण जारी किए हैं जो $ 3,000 हैं और जब लोग आपको वापस भुगतान करते हैं तो आप $ 50 बनाते हैं । स्वाभाविक रूप से आप एक मॉडल बनाने की कोशिश कर रहे हैं जो भविष्यवाणी करता है कि कैसे कोई व्यक्ति उनके बारे में चूक करता है ऋण। इसे सरल रखें और कहें कि परिणाम या तो पूर्ण भुगतान हैं, या डिफ़ॉल्ट हैं।

व्यवसाय के दृष्टिकोण से आप एक आकस्मिक मैट्रिक्स के साथ एक मॉडल के प्रदर्शन को जोड़ सकते हैं:

यहाँ छवि विवरण दर्ज करें

जब मॉडल भविष्यवाणी करता है कि कोई व्यक्ति डिफ़ॉल्ट जा रहा है, तो क्या वे करते हैं? अधिक और फिटिंग के नीचे के निर्धारण को निर्धारित करने के लिए मुझे इसे अनुकूलन समस्या के रूप में सोचने में मदद मिलती है, क्योंकि पूर्वानुमानित छंद वास्तविक मॉडल प्रदर्शन के प्रत्येक क्रॉस सेक्शन में या तो लागत या लाभ होना है:

यहाँ छवि विवरण दर्ज करें

इस उदाहरण में एक डिफ़ॉल्ट की भविष्यवाणी करना जो डिफ़ॉल्ट है किसी भी जोखिम से बचने का मतलब है, और एक गैर-डिफ़ॉल्ट की भविष्यवाणी की जो डिफ़ॉल्ट नहीं है वह जारी किए गए ऋण से $ 50 बना देगा । जब चीजें गलत हो जाती हैं, तो जब आप गलत होते हैं, यदि आप डिफ़ॉल्ट होते हैं जब आपने गैर-डिफ़ॉल्ट की भविष्यवाणी की थी तो आप पूरे ऋण प्रिंसिपल को खो देते हैं और यदि आप डिफ़ॉल्ट की भविष्यवाणी करते हैं जब ग्राहक वास्तव में चूक के अवसर का $ 50 नहीं भुगतना होगा । यहां संख्या महत्वपूर्ण नहीं है, बस दृष्टिकोण है।

इस ढाँचे के साथ अब हम अधिक से अधिक और फिटिंग से जुड़ी कठिनाइयों को समझना शुरू कर सकते हैं।

इस मामले में ओवर फिटिंग का मतलब होगा कि आपका मॉडल आपके विकास / परीक्षण डेटा पर बेहतर काम करता है, फिर यह उत्पादन में करता है। या इसे किसी अन्य तरीके से रखने के लिए, उत्पादन में आपका मॉडल विकास में जो कुछ आपने देखा था, उसे कमज़ोर कर देगा, यह गलत विश्वास शायद आपको और अधिक जोखिम भरा ऋण लेने के लिए प्रेरित करेगा, अन्यथा आप अन्यथा पैसे खोने के लिए बहुत कमजोर हो जाएंगे।

दूसरी ओर, इस संदर्भ में फिटिंग के तहत आपको एक मॉडल के साथ छोड़ दिया जाएगा जो बस वास्तविकता से मेल खाने का एक खराब काम करता है। हालांकि इस के परिणाम बेतहाशा अप्रत्याशित हो सकते हैं, (विपरीत शब्द जिसे आप अपने भविष्य कहनेवाला मॉडल का वर्णन करना चाहते हैं), आमतौर पर क्या होता है इसके लिए क्षतिपूर्ति करने के लिए मानकों को कड़ा किया जाता है, जिससे कम से कम समग्र ग्राहक खो अच्छे ग्राहक बन जाते हैं।

फिटिंग के तहत एक तरह की विपरीत कठिनाई का सामना करना पड़ता है, जो कि फिटिंग पर निर्भर करता है, जो कि फिटिंग के अंतर्गत है, इससे आपको आत्मविश्वास कम होता है। स्वाभाविक रूप से, पूर्वानुमान की कमी अभी भी आपको अप्रत्याशित जोखिम लेने की ओर ले जाती है, जो सभी बुरी खबरें हैं।

मेरे अनुभव में इन दोनों स्थितियों से बचने का सबसे अच्छा तरीका आपके मॉडल को डेटा पर मान्य करना है जो आपके प्रशिक्षण डेटा के दायरे से पूरी तरह बाहर है, इसलिए आपको कुछ विश्वास हो सकता है कि आपके पास एक प्रतिनिधि नमूना है जिसे आप 'जंगली' में देखेंगे '।

इसके अतिरिक्त, अपने मॉडलों को समय-समय पर अमान्य करना एक अच्छा अभ्यास है, यह निर्धारित करने के लिए कि आपका मॉडल कितनी जल्दी खराब हो रहा है, और यदि यह अभी भी आपके उद्देश्यों को पूरा कर रहा है।

बस कुछ चीजों के लिए, आपके मॉडल को तब फिट किया जाता है जब यह विकास और उत्पादन डेटा दोनों की भविष्यवाणी करने का खराब काम करता है।


6

मॉडल हैं, लेकिन वास्तविक जीवन में जो कुछ भी देखा जाता है उसका सार है। वे वांछित विश्लेषण का समर्थन करने के लिए पर्याप्त जानकारी रखते हुए, अवलोकन में वास्तविक प्रणाली के अमूर्त-दूर किटी-ग्रिटिज़ के लिए डिज़ाइन किए गए हैं।

यदि कोई मॉडल ओवरफिट है, तो जो कुछ भी देखा जा रहा है, उसके बारे में बहुत सारे विवरणों को ध्यान में रखा जाता है, और इस तरह की वस्तु पर छोटे बदलाव से मॉडल को सटीक नुकसान हो सकता है। दूसरी ओर, यदि कोई मॉडल कमज़ोर है, तो यह कुछ विशेषताओं का मूल्यांकन करता है कि ऑब्जेक्ट पर उल्लेखनीय परिवर्तन को अनदेखा किया जा सकता है।

यह भी ध्यान दें कि डेटासेट के आधार पर अंडरफिट को ओवरफिट के रूप में देखा जा सकता है । यदि आपका इनपुट एकल विशेषता के साथ 99% -विशेष रूप से वर्गीकृत किया जा सकता है, तो आप एब्स्ट्रेक्शन को एक एकल विशेषता को सरल करके डेटा को मॉडल से ओवरफिट करते हैं। और, इस मामले में, आप आधार के १% को ९९% -क्लास में बहुत अधिक सामान्य कर रहे होंगे - या मॉडल को इतना निर्दिष्ट कर रहे हैं कि यह केवल एक वर्ग को देख सकता है ।

यह कहने का एक उचित तरीका है कि कोई मॉडल न तो खत्म हुआ है और न ही क्रॉस-वैलिडेशन करने से कम है। आप अपने डेटासेट को k भागों में विभाजित करते हैं , और कहते हैं, अपने मॉडल को प्रशिक्षित करने के लिए अन्य k - 1 भागों का उपयोग करते हुए, उनमें से एक को अपना विश्लेषण करने के लिए चुनें । यह देखते हुए कि इनपुट स्वयं पक्षपाती नहीं है, आपको वास्तविक जीवन प्रसंस्करण में मॉडल का उपयोग करते समय प्रशिक्षित करने और मूल्यांकन करने के लिए डेटा का अधिक से अधिक विचरण करने में सक्षम होना चाहिए।


5

बस, एक सामान्य दृष्टिकोण मॉडल की जटिलता को बढ़ाना है, जिससे यह सरल हो जाता है, और सबसे पहले शायद पहले से कम हो रहा है, और जब तक कि ओवरफिटिंग के शुरुआती लक्षण नहीं दिखाई देते हैं, तब तक मॉडल की जटिलता बढ़ जाती है, जैसे क्रॉस वेलिडेशन, बूटस्ट्रैप जैसी एक resampling तकनीक का उपयोग करके देखा जाता है। आदि।

आप या तो अपने मॉडल में पैरामीटर (कृत्रिम न्यूरल नेटवर्क के लिए छिपे हुए न्यूरॉन्स की संख्या, यादृच्छिक जंगल में पेड़ों की संख्या) या नियमितीकरण को आराम करके (अक्सर लैम्ब्डा, या समर्थन वेक्टर मशीनों के लिए सी) को जोड़कर जटिलता बढ़ाते हैं।


3

वित्त में CAPM (कैपिटल एसेट प्राइसिंग मॉडल) एक अनफिट मॉडल का एक उत्कृष्ट उदाहरण है। यह सुंदर सिद्धांत पर बनाया गया था कि "निवेशक केवल जोखिम के लिए भुगतान करते हैं वे दूर नहीं कर सकते हैं" इसलिए अपेक्षित अतिरिक्त रिटर्न बाजार रिटर्न के सहसंबंध के बराबर हैं।

सूत्र के रूप में [0] रा = आरएफ + बी (आरएम - आरएफ) जहां रा संपत्ति की अपेक्षित वापसी है, आरएफ जोखिम मुक्त दर है, आरएम रिटर्न की बाजार दर है, और बीटा इक्विटी प्रीमियम का सहसंबंध है (आरएम - आरएफ)

यह सुंदर, सुरुचिपूर्ण और गलत है। निवेशकों को छोटे शेयरों और मूल्य की उच्च दर (बुक टू मार्केट, या डिविडेंड यील्ड) के शेयरों की आवश्यकता होती है।

फामा और फ्रेंच [1] ने मॉडल के लिए एक अद्यतन प्रस्तुत किया, जो आकार और मूल्य के लिए अतिरिक्त बेट्स जोड़ता है।

तो आप एक सामान्य अर्थ में कैसे जानते हैं? जब आप जो भविष्यवाणियां कर रहे हैं वह गलत है, और तार्किक व्याख्या के साथ एक और चर भविष्यवाणी की गुणवत्ता को बढ़ाता है। यह समझना आसान है कि कोई क्यों सोच सकता है कि छोटे स्टॉक जोखिम भरे हैं, गैर-विविध जोखिम से स्वतंत्र हैं। यह एक अच्छी कहानी है, जो डेटा द्वारा समर्थित है।

[०] http://www.investopedia.com/terms/c/capm.asp [१] http://en.wikipedia.org/wiki/Fama%E2%80%93French_three-factor_model

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.