मैं आँकड़ों के बड़े कुत्तों के साथ नहीं चल सकता, जिन्होंने मेरे सामने उत्तर दिया है, और शायद मेरी सोच भोली है, लेकिन मैं इसे इस तरह से देखता हूं ...
कल्पना कीजिए कि आप एक कार में हैं और आप सड़क से नीचे जा रहे हैं और पहिया को बाएं और दाएं मोड़ रहे हैं और गैस पेडल और ब्रेक को जोर से दबा रहे हैं। फिर भी कार अपने कार्यों से अप्रभावित, आसानी से आगे बढ़ रही है। आपको तुरंत संदेह होगा कि आप एक असली कार में नहीं थे, और शायद अगर हमने करीब से देखा तो हम निर्धारित करेंगे कि आप डिज्नी वर्ल्ड में सवारी कर रहे हैं। (यदि आप एक वास्तविक कार में थे, तो आप नश्वर खतरे में होंगे, लेकिन चलो वहाँ नहीं जाते हैं।)
दूसरी ओर, यदि आप एक कार में सड़क से नीचे उतर रहे थे और पहिया को बस थोड़ा बाएं या दाएं घुमा रहे थे, जिसके परिणामस्वरूप कार चलती थी, ब्रेक लगाने से एक मजबूत मंदी आ जाती थी, जबकि गैस पेडल दबाने पर आपको वापस फेंक देता था सीट। आपको संदेह हो सकता है कि आप उच्च प्रदर्शन वाली स्पोर्ट्स कार में थे।
सामान्य तौर पर, आप शायद उन दो चरम सीमाओं के बीच कुछ अनुभव करते हैं। डिग्री जो आपके इनपुट (स्टीयरिंग, ब्रेक, गैस) कार की गति को सीधे प्रभावित करती है, आपको कार की गुणवत्ता के अनुसार एक सुराग देती है। यही है, गति में आपकी कार का विचरण अधिक है जो आपके कार्यों से संबंधित है बेहतर कार, और जितना अधिक कार आपके नियंत्रण से स्वतंत्र रूप से चलती है उतना ही खराब कार है।
एक समान तरीके में, आप (इस डेटा कॉल कुछ डेटा के लिए एक मॉडल बनाने के बारे में बात कर रहे हैं ), डेटा के कुछ अन्य समूहों के आधार पर (के फोन उन्हें ऐसा x 1 , एक्स 2 , । । । , एक्स मैं )। यदि y भिन्न नहीं होता है, तो यह उस कार की तरह है जो गतिमान नहीं है और कार (मॉडल) अच्छी तरह से काम करती है या नहीं, इस पर चर्चा करने का वास्तव में कोई मतलब नहीं है, इसलिए हम मानेंगे कि y भिन्न है।yx1,x2,...,xiyy
कार की तरह, एक अच्छी गुणवत्ता वाले मॉडल का परिणाम भिन्न और इनपुट x i भिन्न के बीच एक अच्छा संबंध होगा । एक कार के विपरीत, x मैं जरूरी नहीं कि ऐसा कारण y बदलने के लिए है, लेकिन अगर मॉडल उपयोगी साबित होने जा रहा है एक्स मैं करने के लिए एक करीबी रिश्ता में बदलने की जरूरत है y । दूसरे शब्दों में, x i , y में विचरण के बारे में बहुत कुछ समझाता है ।yxixi yxiyxiy
पुनश्च मैं एक विनी द पूह सादृश्य के साथ आने में सक्षम नहीं था, लेकिन मैंने कोशिश की।
P.P.S. [EDIT:] Note that I'm addressing this particular question. Don't be confused into thinking that if you account for 100% of the variance your model will perform wonderfully. You also need to think about over-fitting, where your model is so flexible that it fits the training data very closely -- including its random quirks and oddities. To use the analogy, you want a car that has good steering and brakes, but you want it to work well out on the road, not just in the test track you're using.