डिग्री कम करने के बजाय बहुपद प्रतिगमन में नियमितीकरण का उपयोग क्यों करें?


32

प्रतिगमन करते समय, उदाहरण के लिए, चुनने के लिए दो हाइपर पैरामीटर अक्सर फ़ंक्शन की क्षमता (उदाहरण के लिए, एक बहुपद का सबसे बड़ा प्रतिपादक), और नियमितीकरण की मात्रा है। मैं जिस उलझन में हूं, वह यह है कि क्यों न केवल कम क्षमता वाले फंक्शन का चयन किया जाए और फिर किसी भी नियमितीकरण को अनदेखा किया जाए? उस तरह से, यह ओवरफिट नहीं करेगा। यदि मेरे पास नियमितीकरण के साथ एक उच्च क्षमता फ़ंक्शन है, तो क्या यह कम क्षमता वाले फ़ंक्शन और नियमितीकरण के समान नहीं है?

जवाबों:


49

मैंने हाल ही में ब्राउज़र ऐप में थोड़ा सा बनाया है जिसका उपयोग आप इन विचारों के साथ खेलने के लिए कर सकते हैं: स्कैटरप्लॉट स्मूअर्स (*)।

यहाँ कुछ डेटा मैंने बनाए हैं, जिसमें कम डिग्री बहुपद फिट है

द्विघात फ़िट

0.60.850.85

अपने आप को पूर्वाग्रह से मुक्त करने के लिए, हम वक्र की डिग्री को तीन तक बढ़ा सकते हैं, लेकिन समस्या बनी हुई है, घन वक्र अभी भी कठोर है

घन फिट

इसलिए हम डिग्री बढ़ाना जारी रखते हैं, लेकिन अब हम विपरीत समस्या को जन्म देते हैं

दस डिग्री फिट

यह वक्र डेटा को बहुत बारीकी से ट्रैक करता है , और दिशाओं में उड़ने की प्रवृत्ति होती है ताकि डेटा में सामान्य पैटर्न द्वारा इतनी अच्छी तरह से पैदा न हो। यह वह जगह है जहाँ नियमितीकरण आता है। समान डिग्री वक्र (दस) और कुछ अच्छी तरह से चुने गए नियमितीकरण के साथ

डिग्री टेन रेग्युलरटन

हम एक बहुत अच्छा फिट हो!

यह अच्छी तरह से ऊपर चुने गए एक पहलू पर थोड़ा ध्यान देने योग्य है । जब आप डेटा के लिए बहुपद फिटिंग कर रहे हैं तो आपके पास डिग्री के लिए विकल्पों का असतत सेट है। यदि एक डिग्री तीन वक्र अंडरफिट है और एक डिग्री चार वक्र ओवरफिट है, तो आपके पास बीच में जाने के लिए कहीं नहीं है। नियमितीकरण इस समस्या को हल करता है, क्योंकि यह आपको खेलने के लिए जटिलता मापदंडों की एक निरंतर श्रृंखला देता है।

आप कैसे दावा करते हैं "हम एक बहुत अच्छी तरह से फिट हैं!"। मेरे लिए वे सभी समान हैं, अर्थात् अनिर्णायक। आप यह तय करने के लिए कौन से तर्कसंगत का उपयोग कर रहे हैं कि एक अच्छा और एक खराब फिट क्या है?

निष्पक्ष बिंदु।

जो धारणा मैं यहां बना रहा हूं, वह यह है कि एक अच्छी तरह से फिट मॉडल के पास अवशिष्ट में कोई विचारशील पैटर्न नहीं होना चाहिए। अब, मैं अवशिष्टों की साजिश नहीं कर रहा हूं, इसलिए आपको चित्रों को देखते समय थोड़ा सा काम करना होगा, लेकिन आपको अपनी कल्पना का उपयोग करने में सक्षम होना चाहिए।

पहली तस्वीर में, द्विघात वक्र डेटा के साथ फिट होने के बाद, मैं अवशिष्ट में निम्नलिखित पैटर्न देख सकता हूं

  • 0.0 से 0.3 तक वे वक्र के ऊपर और नीचे समान रूप से रखे जाते हैं।
  • 0.3 से लगभग 0.55 तक सभी डेटा बिंदु वक्र से ऊपर हैं।
  • 0.55 से लगभग 0.85 तक सभी डेटा बिंदु वक्र से नीचे हैं।
  • 0.85 पर, वे फिर से वक्र के ऊपर हैं।

मैं इन व्यवहारों को स्थानीय पूर्वाग्रह के रूप में संदर्भित करता हूं , ऐसे क्षेत्र हैं जहां वक्र अच्छी तरह से डेटा के सशर्त माध्य का अनुमान नहीं लगा रहे हैं।

इसकी तुलना अंतिम फिट से करें, क्यूब स्प्लिन के साथ। मैं किसी भी क्षेत्र को आंख से नहीं निकाल सकता जहां फिट नहीं दिखता है क्योंकि यह डेटा बिंदुओं के द्रव्यमान के केंद्र के माध्यम से ठीक से चल रहा है। यह आम तौर पर है (हालांकि अभेद्य रूप से) मुझे एक अच्छे फिट से क्या मतलब है।


2

  • आपके डेटा की सीमाओं पर उनका व्यवहार बहुत अराजक हो सकता है, यहां तक ​​कि नियमितीकरण के साथ भी।
  • वे किसी भी मायने में स्थानीय नहीं हैं। एक स्थान पर अपने डेटा को बदलने से बहुत अलग जगह में फिट को महत्वपूर्ण रूप से प्रभावित किया जा सकता है।

इसके बजाय, आप जैसी स्थिति का वर्णन करते हैं, नियमितीकरण के साथ-साथ प्राकृतिक क्यूबिक स्प्लीन का उपयोग करते हुए फिर से जोड़ते हैं, जो लचीलेपन और स्थिरता के बीच सबसे अच्छा समझौता करते हैं। आप ऐप में कुछ स्प्लिन को फिट करके अपने लिए देख सकते हैं।

प्राकृतिक घनचक्र

(*) मेरा मानना ​​है कि यह केवल क्रोम और फ़ायरफ़ॉक्स में काम करता है मेरे कुछ आधुनिक जावास्क्रिप्ट विशेषताओं (और इसे सफारी और यानी में ठीक करने के लिए समग्र आलसीता) के उपयोग के कारण। स्रोत कोड यहां है , यदि आप रुचि रखते हैं।


3
धन्यवाद, और आपका ब्राउज़र टूल कमाल है - मुझे उस तरह के छोटे इंटरैक्टिव डेमो से प्यार है!
कर्निवास जूल

@Karnivaurus धन्यवाद, मुझे खुशी है कि मैं मदद कर सका। उपकरण का निर्माण मजेदार था, मुझे जावास्क्रिप्ट लिखना पसंद है
मैथ्यू ड्र्यू

3
+6। अच्छा काम इस उपकरण लेखन! एक बार जब आप उस पर एक इनाम रखने के लिए धागा पुराना हो जाता है, तो आपको मुझसे एक इनाम मिलेगा।
अमीबा

4
+1 यह एक बहुत अच्छा जवाब है। उच्च डिग्री बहुपद फिट की अस्थिरता दिखाने का एक तरीका यह होगा कि प्रत्येक बिंदु के लिए हटाए गए एक डेटा बिंदु के साथ और RCS समाधान के साथ इसके विपरीत उच्च-क्रम प्रतिगमन की साजिश रचें।
साइकोरैक्स का कहना है कि मोनिका

1
@MatthewDrury "प्रतिबंधित क्यूबिक स्प्लीन" - इसके बारे में क्षमा करें।
साइकोरैक्स का कहना है कि मोनिका

4

नहीं, यह समान नहीं है। उदाहरण के लिए, इसके साथ एक चौथे क्रम के बहुपद के नियमितीकरण के बिना एक दूसरे क्रम का बहुपद। उत्तरार्द्ध तीसरी और चौथी शक्तियों के लिए बड़े गुणांक प्रस्तुत कर सकता है, जब तक कि यह नियमितीकरण प्रक्रिया के लिए दंड के आकार का चयन करने के लिए जो भी प्रक्रिया का उपयोग किया जाता है (शायद क्रॉस-वैरिफिकेशन) के अनुसार। इससे पता चलता है कि नियमितीकरण का एक लाभ यह है कि यह आपको ओवरफिटिंग और अंडरफिटिंग के बीच संतुलन बनाने के लिए मॉडल जटिलता को स्वचालित रूप से समायोजित करने की अनुमति देता है।


लेकिन अगर आप चौथे क्रम के बहुपद में नियमितीकरण जोड़ते हैं, तो यह अपनी पूर्णता की पूर्ण सीमा का उपयोग करने से रोकता है। इसलिए पर्याप्त नियमितीकरण के साथ, अभिव्यंजकता उस बिंदु तक कम हो जाएगी जहां यह दूसरे क्रम के बहुपद के रूप में अभिव्यंजक है। नहीं?
कर्निवास जूल

1
शायद अगर आपने अपना दंड आकार पहले से तय किया था, लेकिन इसमें क्या समझदारी है? डेटा के आधार पर दंड का आकार चुना जाना चाहिए।
कोडियोलॉजिस्ट

4

बहुपद के लिए भी गुणांक में छोटे परिवर्तन उच्च घातांक के लिए एक अंतर बना सकते हैं।

L2


2

सभी उत्तर बहुत अच्छे हैं और मेरे पास मैट के समान सिमुलेशन हैं जो आपको यह दिखाने के लिए एक और उदाहरण देते हैं कि नियमितीकरण के साथ जटिल मॉडल आमतौर पर साधारण मॉडल की तुलना में बेहतर क्यों है

मैंने सहज व्याख्या करने के लिए एक सादृश्य बनाया।

  • केस 1 आपके पास केवल सीमित ज्ञान वाला एक हाई स्कूल का छात्र है (नियमितीकरण के बिना एक सरल मॉडल)
  • केस 2 आपके पास एक स्नातक छात्र है लेकिन समस्याओं को हल करने के लिए केवल उच्च विद्यालय के ज्ञान का उपयोग करने के लिए उसे / उसे प्रतिबंधित करें। (नियमितीकरण के साथ जटिल मॉडल)

यदि दो व्यक्ति एक ही समस्या को हल कर रहे हैं, तो आमतौर पर स्नातक छात्र बेहतर समाधान काम करेंगे, क्योंकि ज्ञान के बारे में अनुभव और अंतर्दृष्टि।

चित्रा 1 एक ही डेटा को 4 फिटिंग दिखा रहा है। 4 फिटिंग लाइन, परबोला, 3 डी ऑर्डर मॉडल और 5 वीं ऑर्डर मॉडल हैं। आप देख सकते हैं कि 5 वें क्रम के मॉडल में ओवरफ़िटिंग की समस्या हो सकती है।

यहाँ छवि विवरण दर्ज करें

दूसरी ओर, दूसरे प्रयोग में, हम 5 वें क्रम मॉडल का उपयोग विभिन्न स्तरों के नियमितीकरण के साथ करेंगे। दूसरे ऑर्डर मॉडल के साथ पिछले एक की तुलना करें। (दो मॉडल हाइलाइट किए गए हैं) आप पाएंगे कि पिछले एक समान है (लगभग एक ही मॉडल की जटिलता है) परबोला के समान है, लेकिन डेटा अच्छी तरह से थोड़ा अधिक लचीला है।

यहाँ छवि विवरण दर्ज करें


1
"मोटे तौर पर एक ही मॉडल जटिलता है" ... जो नेत्रहीन "स्पष्ट" तुलना है, क्या इसे मापने का एक गणितीय तरीका है?
सिल्वरफिश
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.