ओवरफिटिंग से सावधान रहें । एक सिस्टम से एकत्रित डेटा का अधिक सटीक मॉडल एक सिस्टम के भविष्य के व्यवहार का एक बेहतर भविष्यवक्ता नहीं हो सकता है।
उपरोक्त छवि कुछ डेटा के दो मॉडल दिखाती है।
प्रशिक्षण डेटा (रेखांकन पर बिंदु) पर रेखीय रेखा कुछ हद तक सटीक है, और (एक उम्मीद करेगा) यह परीक्षण डेटा पर कुछ हद तक सटीक होगा (जहां अंक x <5 और x> -5 के लिए होने की संभावना है) )।
इसके विपरीत, बहुपद प्रशिक्षण डेटा के लिए 100% सटीक है, लेकिन (जब तक कि आपके पास 9 वीं डिग्री बहुपद को किसी भौतिक कारण के लिए उचित मानना है), तो आप मानेंगे कि यह x 5: 5 के लिए एक बेहद गरीब भविष्यवक्ता होगा x <-5।
रेखीय मॉडल 'कम सटीक' है, जो हमारे द्वारा एकत्र किए गए डेटा के साथ त्रुटियों की तुलना पर आधारित है। लेकिन यह अधिक सामान्य है।
इसके अतिरिक्त, इंजीनियर्स को अपने मॉडल के बारे में कम चिंता करना पड़ता है, और अधिक यह है कि लोग मॉडल के साथ क्या करेंगे।
अगर मैं आपसे कहूं कि हम गर्म दिन चल रहे हैं और यह 426 मिनट तक चलने की उम्मीद है। आपको कम पानी लाने की संभावना है यदि मैं आपको बताता हूं कि चलना 7 घंटे तक चलेगा, और इससे भी कम अगर मैं कहता हूं कि चलना 4-5 घंटे तक चलेगा। ऐसा इसलिए है क्योंकि आप मेरे अनुमानित समय के मध्य बिंदु के बजाय मेरे पूर्वानुमान में मेरे निहित विश्वास के स्तर पर प्रतिक्रिया दे रहे हैं।
यदि आप लोगों को एक सटीक मॉडल देते हैं, तो लोग अपनी त्रुटि को कम कर देंगे। इससे बड़े जोखिम पैदा होते हैं।
गर्म दिन उदाहरण पर चलना, अगर मुझे पता है कि चलना 95% मामलों में 4-8 घंटे लगेगा, नेविगेशन और चलने की गति के आसपास कुछ अनिश्चितता के साथ। पूरी तरह से हमारी चलने की गति को जानने से 4-8 के आंकड़े की अनिश्चितता कम हो जाएगी, लेकिन यह 'हमें इतने लंबे समय तक ले जाने के अवसर को प्रभावित नहीं करेगा कि पानी एक मुद्दा बन जाता है', क्योंकि यह लगभग पूरी तरह से अनिश्चित नेविगेशन द्वारा संचालित है, नहीं अनिश्चित चलने की गति।