यह एक अच्छा सवाल है, क्योंकि "अलग-अलग मात्रा" एक स्पष्टीकरण के बहुत कुछ नहीं लगता है।
इन मॉडलों की तुलना करने के लिए का उपयोग करने से सावधान रहने के दो महत्वपूर्ण कारण हैं: यह बहुत कच्चा है (यह वास्तव में फिटनेस की अच्छाई का आकलन नहीं करता है ) और यह कम से कम एक मॉडल के लिए अनुपयुक्त होने वाला है। यह उत्तर उस दूसरे मुद्दे को संबोधित करता है।R2
सैद्धांतिक उपचार
R2 प्रतिक्रियाओं के विचरण के लिए मॉडल अवशिष्ट के विचरण की तुलना करता है। वेरिएंस एक फिट से एक वर्गाकार जोड़ात्मक विचलन है। जैसे, हम समझ सकते हैं प्रतिक्रिया के दो मॉडलों की तुलना के रूप में । R2y
"आधार" मॉडल है
yi=μ+δi(1)
जहाँ एक पैरामीटर (सैद्धांतिक माध्य प्रतिक्रिया) है और स्वतंत्र यादृच्छिक "त्रुटियां" हैं, जिनमें से प्रत्येक शून्य माध्य और एक सामान्य साथ है ।μδiτ2
रैखिक प्रतिगमन मॉडल वैक्टर को व्याख्यात्मक चर के रूप में पेश करता है :xi
yi=β0+xiβ+εi.(2)
संख्या और वेक्टर पैरामीटर (अवरोधन और "ढलान") हैं। फिर से स्वतंत्र यादृच्छिक त्रुटियों, शून्य मतलब और आम विचरण के साथ प्रत्येक रहे हैं ।β0βεiσ2
R2 मूल विचरण की तुलना में विचरण, में कमी का अनुमान लगाता है ।τ2−σ2τ2
जब आप लघुगणक लेते हैं और मॉडल को फिट करने के लिए कम से कम वर्गों का उपयोग करते हैं , तो आप स्पष्ट रूप से प्रपत्र के एक रिश्ते की तुलना कर रहे हैं
log(yi)=ν+ζi(1a)
एक रूप में
log(yi)=γ0+xiγ+ηi.(2a)
ये मॉडल और लेकिन लॉग प्रतिक्रियाओं के साथ। वे पहले दो मॉडलों के बराबर नहीं हैं, हालांकि। उदाहरण के लिए, दोनों पक्षों को घातांक देना होगा(1)(2)(2a)
yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).
त्रुटि शर्तें अब अंतर्निहित संबंध को गुणा करती हैं । नतीजतन, प्रतिक्रियाओं के रूपांतर हैंexp(ηi)yi=exp(γ0+xiγ)
Var(yi)=exp(γ0+xiγ)2Var(eηi).
पर निर्भर करते हैं । xi यह मॉडल , जो मानता है कि संस्करण सभी एक स्थिर बराबर हैं ।(2)σ2
आमतौर पर, इन मॉडलों में से केवल एक सेट डेटा का एक उचित विवरण हो सकता है। दूसरा सेट और जब पहला सेट और एक अच्छा मॉडल है, या दूसरा अच्छा होने पर पहला, के साथ काम करने के लिए मात्रा एक अरेखीय, विषमकोणीय डेटासेट, जो कि रैखिक प्रतिगमन के साथ खराब रूप से फिट होना चाहिए। जब इनमें से कोई भी स्थिति होती है, तो हम बड़े को प्रदर्शित करने के लिए बेहतर मॉडल की उम्मीद कर सकते हैं । हालांकि, अगर न तो मामला है तो क्या होगा ? क्या हम अभी भी बेहतर मॉडल की पहचान करने में मदद करने के लिए बड़े उम्मीद कर सकते हैं ?(1a)(2a)(1)(2)R2R2
विश्लेषण
कुछ अर्थों में यह एक अच्छा सवाल नहीं है, क्योंकि यदि न तो मॉडल उपयुक्त है, तो हमें तीसरा मॉडल ढूंढना चाहिए। हालाँकि, इससे पहले कि यह मुद्दा हमें यह निर्धारित करने में मदद करने में की उपयोगिता की चिंता करता है। इसके अलावा, बहुत से लोग पहले और बीच संबंधों के आकार के बारे में सोचते हैं - यह रैखिक है, क्या यह लघुगणक है, क्या यह कुछ और है - प्रतिगमन त्रुटियों या की विशेषताओं के बारे में चिंतित हुए बिना । इसलिए हमें ऐसी स्थिति पर विचार करना चाहिए जहां हमारे मॉडल को संबंध सही मिलते हैं, लेकिन इसकी त्रुटि संरचना, या इसके विपरीत के बारे में गलत है ।R2xyεiηi
इस तरह के एक मॉडल (जो आमतौर पर होता है) एक घातीय संबंध के लिए कम से कम वर्ग है,
yi=exp(α0+xiα)+θi.(3)
अब का लघुगणक का एक रैखिक कार्य है , , लेकिन त्रुटि शब्द additive हैं , जैसे । ऐसे मामलों में हमें और बीच गलत संबंध के साथ मॉडल चुनने में गुमराह कर सकता है ।yx(2a)θi(2)R2xy
यहाँ मॉडल का एक चित्रण है । लिए अवलोकन हैं ( और बीच समान रूप से वितरित 1-वेक्टर )। बायाँ पैनल मूल डेटा दिखाता है जबकि दायाँ पैनल डेटा को परिवर्तित करता है दिखाता है । धराशायी लाल रेखाएं वास्तविक अंतर्निहित संबंधों की साजिश करती हैं, जबकि ठोस नीली रेखाएं न्यूनतम-वर्ग को दर्शाती हैं। डेटा और सच्चे संबंध दोनों पैनलों में समान हैं: केवल मॉडल और उनके फिट अलग-अलग हैं।(3)300xi1.01.6(x,y)(x,log(y))
दाईं ओर लॉग प्रतिक्रियाओं के लिए फिट स्पष्ट रूप से अच्छा है: यह लगभग सच्चे रिश्ते से मेल खाता है और दोनों रैखिक हैं। बाईं ओर मूल प्रतिक्रियाओं के लिए फिट स्पष्ट रूप से बदतर है: यह रैखिक है जबकि वास्तविक संबंध घातीय है। दुर्भाग्य से, इसमें की तुलना में : का विशेष रूप से बड़ा मूल्य है । इसलिए हमें बेहतर मॉडल की ओर ले जाने के लिए पर भरोसा नहीं करना चाहिए । इसलिए हमें "उच्च" होने पर भी फिट नहीं होना चाहिए (और कई अनुप्रयोगों में, मूल्य को वास्तव में उच्च माना जाएगा)।R20.700.56R2R20.70
संयोग से, इन मॉडलों का आकलन करने का एक बेहतर तरीका फिट परीक्षणों की भलाई शामिल है (जो दाईं ओर लॉग मॉडल की श्रेष्ठता का संकेत देगा) और अवशिष्टों की स्थिरता के लिए नैदानिक भूखंड (जो दोनों मॉडल के साथ समस्याओं को उजागर करेंगे)। इस तरह के आकलन स्वाभाविक रूप से एक या तो कम से कम एक वर्ग को या सीधे मॉडल लिए फिट करने के लिए नेतृत्व करेंगे , जो कि अधिकतम संभावना या गैर-कम से कम वर्गों के तरीकों का उपयोग करके फिट होना होगा।log(y)(3)