केएनएन और लीनियर रिग्रेशन की सीधे तुलना करना काफी कठिन है क्योंकि वे बहुत अलग चीजें हैं, हालांकि, मुझे लगता है कि यहां प्रमुख बिंदु "मॉडलिंग " और " बारे में मान्यताओं के बीच का अंतर है।"च( x )च( x ) ।
रैखिक प्रतिगमन करते समय, एक विशेष रूप से मॉडल करता है , अक्सर जहां एक गाऊसी शोर शब्द होता है, की तर्ज पर कुछ होता है । आप यह पता लगा सकते हैं कि अधिकतम संभावना मॉडल न्यूनतम राशि के वर्ग त्रुटि मॉडल के बराबर है।च( x )च( X ) = डब्ल्यू एक्स + εε
KNN, दूसरी ओर, जैसा कि आपका दूसरा बिंदु बताता है, मानता है कि आप उस फ़ंक्शन को स्थानीय रूप से स्थिर फ़ंक्शन द्वारा अनुमानित कर सकते हैं - बीच कुछ दूरी मापएक्स द्वारों के , विशेष रूप से पूरे वितरण को मॉडलिंग किए बिना।
दूसरे शब्दों में, रैखिक प्रतिगमन के मूल्य का एक अच्छा विचार अक्सर होगा च( x ) कुछ अनदेखी के लिए एक्स के मूल्य से एक्स, जबकि केएनएन के बारे में भविष्यवाणियां करने के लिए कुछ अन्य जानकारी (यानी के पड़ोसियों) की आवश्यकता होगी च( x ), क्योंकि का मूल्य एक्स, और सिर्फ मूल्य ही, कोई जानकारी नहीं देगा, क्योंकि इसके लिए कोई मॉडल नहीं है च( x )।
EDIT: इस क्लीयर को पुनः व्यक्त करने के लिए इसे नीचे दोहरा रहे हैं (टिप्पणियां देखें)
यह स्पष्ट है कि रेखीय प्रतिगमन और निकटतम पड़ोसी दोनों तरीकों का लक्ष्य मूल्य का अनुमान लगाना है y= च( x ) एक नए के लिए एक्स। अब दो दृष्टिकोण हैं। रैखिक प्रतिगमन यह मानकर चलता है कि डेटा एक सीधी रेखा (प्लस माइनस कुछ शोर) पर गिरता है, और इसलिए y का मान मान के बराबर होता हैच( x )रेखा का ढलान। दूसरे शब्दों में, रैखिक अभिव्यक्ति मॉडल एक सीधी रेखा के रूप में डेटा।
अब निकटतम पड़ोसी तरीकों को इस बात की परवाह नहीं है कि डेटा कैसा दिखता है (डेटा को मॉडल नहीं करता है), अर्थात, वे परवाह नहीं करते हैं कि क्या यह एक पंक्ति है, एक परबोला, एक चक्र, आदि। यह सब मान लेता है, यह है कि च(एक्स1) तथा च(एक्स2) समान होगा, यदि x1 तथा x2समान है। ध्यान दें कि यह धारणा मोटे तौर पर किसी भी मॉडल के लिए लगभग सच है, ऊपर वर्णित सभी लोगों सहित। हालांकि, एक एनएन विधि यह नहीं बता सकती थी कि इसका मूल्य कितना हैf(x) से संबंधित x (क्या यह एक पंक्ति है, परबोला, आदि), क्योंकि इसमें इस संबंध का कोई मॉडल नहीं है, यह सिर्फ यह मानता है कि इसे निकट-बिंदुओं में देखकर अनुमान लगाया जा सकता है।