पहले प्रश्न को संबोधित करने के लिए , मॉडल पर विचार करें
Y=X+sin(X)+ε
शून्य और परिमित विचरण के with के साथ । की सीमा के रूप में एक्स बढ़ जाती है (के रूप में निश्चित या यादृच्छिक के बारे में सोचा), आर 2 1. करने के लिए फिर भी, हो जाता है की विचरण ε (1 या उससे कम के आसपास) छोटा है, डेटा "काफ़ी गैर रेखीय" हैं। भूखंडों में, वी एक आर ( ε ) = 1 ।εXR2εvar(ε)=1
संयोग से, छोटे प्राप्त करने का एक आसान तरीका संकीर्ण श्रेणियों में स्वतंत्र चर को टुकड़ा करना है। प्रत्येक श्रेणी के भीतर प्रतिगमन ( बिल्कुल एक ही मॉडल का उपयोग करते हुए ) कम R 2 होगा , तब भी जब सभी डेटा पर आधारित पूर्ण प्रतिगमन उच्च R 2 होगाR2R2R2 । इस स्थिति पर विचार करना एक सूचनात्मक अभ्यास है और दूसरे प्रश्न के लिए अच्छी तैयारी है।
दोनों निम्नलिखित भूखंड एक ही डेटा का उपयोग करते हैं। पूर्ण प्रतिगमन के लिए 0.86 है। आर 2 (-5/2 5/2 से चौड़ाई 1/2 का) स्लाइस के लिए कर रहे हैं .16, .18, .07, .14, .08, .17, .20, .12, .01, .00, बाएँ से दाएँ पढ़ना। यदि कुछ भी हो, तो कटा हुआ स्थिति में फिट बेहतर हो जाता है क्योंकि 10 अलग-अलग लाइनें उनकी संकीर्ण सीमाओं के भीतर डेटा के अधिक निकट हो सकती हैं। हालांकि आर 2 सभी स्लाइस के लिए अब तक पूर्ण नीचे हैं आर 2 , न तो रिश्ता है, की ताकत linearity , और न ही वास्तव में किसी भी (डेटा का पहलू की सीमा को छोड़कर एक्सR2R2R2R2X प्रतिगमन के लिए उपयोग किया जाता है) बदल गया है।
(एक वस्तु हो सकता है कि यह टुकड़ा करने की क्रिया प्रक्रिया के वितरण में परिवर्तन । यही कारण है कि सच है, लेकिन यह फिर भी का सबसे आम उपयोग के साथ मेल खाती आर 2 अचल प्रभाव मॉडलिंग में और डिग्री का पता चलता है जो करने के लिए आर 2 के विचरण के बारे में बता रहा है यादृच्छिक-प्रभाव की स्थिति में एक्स । विशेष रूप से, जब एक्स अपनी प्राकृतिक सीमा के एक छोटे अंतराल के भीतर भिन्न होने के लिए विवश होता है, तो आर 2 आमतौर पर गिर जाएगा।)XR2R2XXR2
साथ मूल समस्या यह है कि यह बहुत सी चीजों पर निर्भर करता है (तब भी जब एक से अधिक प्रतिगमन में समायोजित किया जाता है), लेकिन सबसे विशेष रूप से स्वतंत्र चर और अवशिष्ट के विचरण पर। आम तौर पर यह हमें मॉडल के अनुक्रम की तुलना करने के लिए "रैखिकता" या "रिश्ते की ताकत" या यहां तक कि "फिट की अच्छाई" के बारे में कुछ भी नहीं बताता है ।R2
अधिकांश समय आप से बेहतर आँकड़ा पा सकते हैं । मॉडल चयन के लिए आप एआईसी और बीआईसी को देख सकते हैं; एक मॉडल की पर्याप्तता को व्यक्त करने के लिए, अवशिष्ट के विचरण को देखें। R2
यह हमें आखिरकार दूसरे सवाल पर ले आता है । एक स्थिति जिसमें का कुछ उपयोग हो सकता है, जब स्वतंत्र चर मानक मूल्यों पर सेट होते हैं, अनिवार्य रूप से उनके विचरण के प्रभाव को नियंत्रित करते हैं। फिर 1 - आर 2 वास्तव में अवशिष्ट के विचरण के लिए एक छद्म है, उपयुक्त रूप से मानकीकृत।R21−R2