मैंने हाल ही में ब्राउज़र ऐप में थोड़ा सा बनाया है जिसका उपयोग आप इन विचारों के साथ खेलने के लिए कर सकते हैं: स्कैटरप्लॉट स्मूअर्स (*)।
यहाँ कुछ डेटा मैंने बनाए हैं, जिसमें कम डिग्री बहुपद फिट है
0.60.850.85
अपने आप को पूर्वाग्रह से मुक्त करने के लिए, हम वक्र की डिग्री को तीन तक बढ़ा सकते हैं, लेकिन समस्या बनी हुई है, घन वक्र अभी भी कठोर है
इसलिए हम डिग्री बढ़ाना जारी रखते हैं, लेकिन अब हम विपरीत समस्या को जन्म देते हैं
यह वक्र डेटा को बहुत बारीकी से ट्रैक करता है , और दिशाओं में उड़ने की प्रवृत्ति होती है ताकि डेटा में सामान्य पैटर्न द्वारा इतनी अच्छी तरह से पैदा न हो। यह वह जगह है जहाँ नियमितीकरण आता है। समान डिग्री वक्र (दस) और कुछ अच्छी तरह से चुने गए नियमितीकरण के साथ
हम एक बहुत अच्छा फिट हो!
यह अच्छी तरह से ऊपर चुने गए एक पहलू पर थोड़ा ध्यान देने योग्य है । जब आप डेटा के लिए बहुपद फिटिंग कर रहे हैं तो आपके पास डिग्री के लिए विकल्पों का असतत सेट है। यदि एक डिग्री तीन वक्र अंडरफिट है और एक डिग्री चार वक्र ओवरफिट है, तो आपके पास बीच में जाने के लिए कहीं नहीं है। नियमितीकरण इस समस्या को हल करता है, क्योंकि यह आपको खेलने के लिए जटिलता मापदंडों की एक निरंतर श्रृंखला देता है।
आप कैसे दावा करते हैं "हम एक बहुत अच्छी तरह से फिट हैं!"। मेरे लिए वे सभी समान हैं, अर्थात् अनिर्णायक। आप यह तय करने के लिए कौन से तर्कसंगत का उपयोग कर रहे हैं कि एक अच्छा और एक खराब फिट क्या है?
निष्पक्ष बिंदु।
जो धारणा मैं यहां बना रहा हूं, वह यह है कि एक अच्छी तरह से फिट मॉडल के पास अवशिष्ट में कोई विचारशील पैटर्न नहीं होना चाहिए। अब, मैं अवशिष्टों की साजिश नहीं कर रहा हूं, इसलिए आपको चित्रों को देखते समय थोड़ा सा काम करना होगा, लेकिन आपको अपनी कल्पना का उपयोग करने में सक्षम होना चाहिए।
पहली तस्वीर में, द्विघात वक्र डेटा के साथ फिट होने के बाद, मैं अवशिष्ट में निम्नलिखित पैटर्न देख सकता हूं
- 0.0 से 0.3 तक वे वक्र के ऊपर और नीचे समान रूप से रखे जाते हैं।
- 0.3 से लगभग 0.55 तक सभी डेटा बिंदु वक्र से ऊपर हैं।
- 0.55 से लगभग 0.85 तक सभी डेटा बिंदु वक्र से नीचे हैं।
- 0.85 पर, वे फिर से वक्र के ऊपर हैं।
मैं इन व्यवहारों को स्थानीय पूर्वाग्रह के रूप में संदर्भित करता हूं , ऐसे क्षेत्र हैं जहां वक्र अच्छी तरह से डेटा के सशर्त माध्य का अनुमान नहीं लगा रहे हैं।
इसकी तुलना अंतिम फिट से करें, क्यूब स्प्लिन के साथ। मैं किसी भी क्षेत्र को आंख से नहीं निकाल सकता जहां फिट नहीं दिखता है क्योंकि यह डेटा बिंदुओं के द्रव्यमान के केंद्र के माध्यम से ठीक से चल रहा है। यह आम तौर पर है (हालांकि अभेद्य रूप से) मुझे एक अच्छे फिट से क्या मतलब है।
2
- आपके डेटा की सीमाओं पर उनका व्यवहार बहुत अराजक हो सकता है, यहां तक कि नियमितीकरण के साथ भी।
- वे किसी भी मायने में स्थानीय नहीं हैं। एक स्थान पर अपने डेटा को बदलने से बहुत अलग जगह में फिट को महत्वपूर्ण रूप से प्रभावित किया जा सकता है।
इसके बजाय, आप जैसी स्थिति का वर्णन करते हैं, नियमितीकरण के साथ-साथ प्राकृतिक क्यूबिक स्प्लीन का उपयोग करते हुए फिर से जोड़ते हैं, जो लचीलेपन और स्थिरता के बीच सबसे अच्छा समझौता करते हैं। आप ऐप में कुछ स्प्लिन को फिट करके अपने लिए देख सकते हैं।
(*) मेरा मानना है कि यह केवल क्रोम और फ़ायरफ़ॉक्स में काम करता है मेरे कुछ आधुनिक जावास्क्रिप्ट विशेषताओं (और इसे सफारी और यानी में ठीक करने के लिए समग्र आलसीता) के उपयोग के कारण। स्रोत कोड यहां है , यदि आप रुचि रखते हैं।