पहले प्रश्न को संबोधित करने के लिए , मॉडल पर विचार करें
Y=X+sin(X)+ε
शून्य और परिमित विचरण के with के साथ । की सीमा के रूप में एक्स बढ़ जाती है (के रूप में निश्चित या यादृच्छिक के बारे में सोचा), आर 2 1. करने के लिए फिर भी, हो जाता है की विचरण ε (1 या उससे कम के आसपास) छोटा है, डेटा "काफ़ी गैर रेखीय" हैं। भूखंडों में, वी एक आर ( ε ) = 1 ।εXR2εvar(ε)=1
![एक्स की शॉर्ट रेंज](https://i.stack.imgur.com/Yh0Jp.png)
![X की व्यापक रेंज](https://i.stack.imgur.com/QYf2A.png)
संयोग से, छोटे प्राप्त करने का एक आसान तरीका संकीर्ण श्रेणियों में स्वतंत्र चर को टुकड़ा करना है। प्रत्येक श्रेणी के भीतर प्रतिगमन ( बिल्कुल एक ही मॉडल का उपयोग करते हुए ) कम R 2 होगा , तब भी जब सभी डेटा पर आधारित पूर्ण प्रतिगमन उच्च R 2 होगाR2R2R2 । इस स्थिति पर विचार करना एक सूचनात्मक अभ्यास है और दूसरे प्रश्न के लिए अच्छी तैयारी है।
दोनों निम्नलिखित भूखंड एक ही डेटा का उपयोग करते हैं। पूर्ण प्रतिगमन के लिए 0.86 है। आर 2 (-5/2 5/2 से चौड़ाई 1/2 का) स्लाइस के लिए कर रहे हैं .16, .18, .07, .14, .08, .17, .20, .12, .01, .00, बाएँ से दाएँ पढ़ना। यदि कुछ भी हो, तो कटा हुआ स्थिति में फिट बेहतर हो जाता है क्योंकि 10 अलग-अलग लाइनें उनकी संकीर्ण सीमाओं के भीतर डेटा के अधिक निकट हो सकती हैं। हालांकि आर 2 सभी स्लाइस के लिए अब तक पूर्ण नीचे हैं आर 2 , न तो रिश्ता है, की ताकत linearity , और न ही वास्तव में किसी भी (डेटा का पहलू की सीमा को छोड़कर एक्सR2R2R2R2X प्रतिगमन के लिए उपयोग किया जाता है) बदल गया है।
![पूर्ण प्रतिगमन के साथ बिंदु बादल](https://i.stack.imgur.com/u81pw.png)
![10 रजिस्टरों के साथ कटा हुआ बिंदु बादल](https://i.stack.imgur.com/DJiQa.png)
(एक वस्तु हो सकता है कि यह टुकड़ा करने की क्रिया प्रक्रिया के वितरण में परिवर्तन । यही कारण है कि सच है, लेकिन यह फिर भी का सबसे आम उपयोग के साथ मेल खाती आर 2 अचल प्रभाव मॉडलिंग में और डिग्री का पता चलता है जो करने के लिए आर 2 के विचरण के बारे में बता रहा है यादृच्छिक-प्रभाव की स्थिति में एक्स । विशेष रूप से, जब एक्स अपनी प्राकृतिक सीमा के एक छोटे अंतराल के भीतर भिन्न होने के लिए विवश होता है, तो आर 2 आमतौर पर गिर जाएगा।)XR2R2XXR2
साथ मूल समस्या यह है कि यह बहुत सी चीजों पर निर्भर करता है (तब भी जब एक से अधिक प्रतिगमन में समायोजित किया जाता है), लेकिन सबसे विशेष रूप से स्वतंत्र चर और अवशिष्ट के विचरण पर। आम तौर पर यह हमें मॉडल के अनुक्रम की तुलना करने के लिए "रैखिकता" या "रिश्ते की ताकत" या यहां तक कि "फिट की अच्छाई" के बारे में कुछ भी नहीं बताता है ।R2
अधिकांश समय आप से बेहतर आँकड़ा पा सकते हैं । मॉडल चयन के लिए आप एआईसी और बीआईसी को देख सकते हैं; एक मॉडल की पर्याप्तता को व्यक्त करने के लिए, अवशिष्ट के विचरण को देखें। R2
यह हमें आखिरकार दूसरे सवाल पर ले आता है । एक स्थिति जिसमें का कुछ उपयोग हो सकता है, जब स्वतंत्र चर मानक मूल्यों पर सेट होते हैं, अनिवार्य रूप से उनके विचरण के प्रभाव को नियंत्रित करते हैं। फिर 1 - आर 2 वास्तव में अवशिष्ट के विचरण के लिए एक छद्म है, उपयुक्त रूप से मानकीकृत।R21−R2