हम निर्भर चर के परिवर्तनों के लिए उपयोग क्यों नहीं कर सकते हैं ?


10

कल्पना कीजिए कि हम पर निर्भर चर साथ एक रैखिक प्रतिगमन मॉडल है । हम इसका । अब, हम एक और प्रतिगमन करते हैं, लेकिन इस बार , और इसी तरह इसके । मुझे बताया गया है कि मैं यह देखने के लिए दोनों तुलना नहीं कर सकता कि कौन सा मॉडल बेहतर है। ऐसा क्यों है? मुझे दिया गया कारण यह था कि हम विभिन्न राशियों (भिन्न आश्रित चर) की परिवर्तनशीलता की तुलना करेंगे। मुझे यकीन नहीं है कि इसके लिए पर्याप्त कारण होना चाहिए।yRy2log(y)Rlog(y)2R2

क्या इसको औपचारिक बनाने का कोई तरीका है?

किसी भी सहायता की सराहना की जाएगी।


1
मुझे लगता है कि इससे पहले क्रॉस वैध पर चर्चा की जा सकती है। क्या आप इसी तरह के धागों से गुज़रे हैं? इसके अलावा, क्या आप अलग-अलग आश्रित चर (जैसे कि जीडीपी बनाम तेल की कीमत) या एक ही चर (जीडीपी बनाम जीडीपी विकास) के परिवर्तन, या दोनों के बारे में परवाह करते हैं?
रिचर्ड हार्डी

@ रीचर्डहार्डी मुझे कुछ मिला, लेकिन मुझे लगता है कि वे मेरे प्रश्न के स्पर्श में थे। इस एक की तरह: आंकड़े . stackexchange.com/questions/235117/… इसका उत्तर सिर्फ हाँ बताता है, वास्तव में क्यों नहीं समझा।
समुद्र में एक बूढ़ा आदमी।

@ रीचर्डहार्डी मैं आश्रित चर के परिवर्तनों के लिए इच्छुक हूं।
समुद्र में एक बूढ़ा आदमी।

1
R2 तुलना केवल नेस्टेड मॉडल के बीच समझ में आता है।
एलवीराओ

@LVRao आपकी टिप्पणी के लिए धन्यवाद। ऐसा क्यों है?
समुद्र में एक बूढ़ा आदमी।

जवाबों:


8

यह एक अच्छा सवाल है, क्योंकि "अलग-अलग मात्रा" एक स्पष्टीकरण के बहुत कुछ नहीं लगता है।

इन मॉडलों की तुलना करने के लिए का उपयोग करने से सावधान रहने के दो महत्वपूर्ण कारण हैं: यह बहुत कच्चा है (यह वास्तव में फिटनेस की अच्छाई का आकलन नहीं करता है ) और यह कम से कम एक मॉडल के लिए अनुपयुक्त होने वाला है। यह उत्तर उस दूसरे मुद्दे को संबोधित करता है।R2


सैद्धांतिक उपचार

R2 प्रतिक्रियाओं के विचरण के लिए मॉडल अवशिष्ट के विचरण की तुलना करता है। वेरिएंस एक फिट से एक वर्गाकार जोड़ात्मक विचलन है। जैसे, हम समझ सकते हैं प्रतिक्रिया के दो मॉडलों की तुलना के रूप में । R2y

"आधार" मॉडल है

(1)yi=μ+δi

जहाँ एक पैरामीटर (सैद्धांतिक माध्य प्रतिक्रिया) है और स्वतंत्र यादृच्छिक "त्रुटियां" हैं, जिनमें से प्रत्येक शून्य माध्य और एक सामान्य साथ है ।μδiτ2

रैखिक प्रतिगमन मॉडल वैक्टर को व्याख्यात्मक चर के रूप में पेश करता है :xi

(2)yi=β0+xiβ+εi.

संख्या और वेक्टर पैरामीटर (अवरोधन और "ढलान") हैं। फिर से स्वतंत्र यादृच्छिक त्रुटियों, शून्य मतलब और आम विचरण के साथ प्रत्येक रहे हैं ।β0βεiσ2

R2 मूल विचरण की तुलना में विचरण, में कमी का अनुमान लगाता है ।τ2σ2τ2

जब आप लघुगणक लेते हैं और मॉडल को फिट करने के लिए कम से कम वर्गों का उपयोग करते हैं , तो आप स्पष्ट रूप से प्रपत्र के एक रिश्ते की तुलना कर रहे हैं

(1a)log(yi)=ν+ζi

एक रूप में

(2a)log(yi)=γ0+xiγ+ηi.

ये मॉडल और लेकिन लॉग प्रतिक्रियाओं के साथ। वे पहले दो मॉडलों के बराबर नहीं हैं, हालांकि। उदाहरण के लिए, दोनों पक्षों को घातांक देना होगा(1)(2)(2a)

yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).

त्रुटि शर्तें अब अंतर्निहित संबंध को गुणा करती हैं । नतीजतन, प्रतिक्रियाओं के रूपांतर हैंexp(ηi)yi=exp(γ0+xiγ)

Var(yi)=exp(γ0+xiγ)2Var(eηi).

पर निर्भर करते हैं । xi यह मॉडल , जो मानता है कि संस्करण सभी एक स्थिर बराबर हैं ।(2)σ2

आमतौर पर, इन मॉडलों में से केवल एक सेट डेटा का एक उचित विवरण हो सकता है। दूसरा सेट और जब पहला सेट और एक अच्छा मॉडल है, या दूसरा अच्छा होने पर पहला, के साथ काम करने के लिए मात्रा एक अरेखीय, विषमकोणीय डेटासेट, जो कि रैखिक प्रतिगमन के साथ खराब रूप से फिट होना चाहिए। जब इनमें से कोई भी स्थिति होती है, तो हम बड़े को प्रदर्शित करने के लिए बेहतर मॉडल की उम्मीद कर सकते हैं । हालांकि, अगर तो मामला है तो क्या होगा ? क्या हम अभी भी बेहतर मॉडल की पहचान करने में मदद करने के लिए बड़े उम्मीद कर सकते हैं ?(1a)(2a)(1)(2)R2R2

विश्लेषण

कुछ अर्थों में यह एक अच्छा सवाल नहीं है, क्योंकि यदि न तो मॉडल उपयुक्त है, तो हमें तीसरा मॉडल ढूंढना चाहिए। हालाँकि, इससे पहले कि यह मुद्दा हमें यह निर्धारित करने में मदद करने में की उपयोगिता की चिंता करता है। इसके अलावा, बहुत से लोग पहले और बीच संबंधों के आकार के बारे में सोचते हैं - यह रैखिक है, क्या यह लघुगणक है, क्या यह कुछ और है - प्रतिगमन त्रुटियों या की विशेषताओं के बारे में चिंतित हुए बिना । इसलिए हमें ऐसी स्थिति पर विचार करना चाहिए जहां हमारे मॉडल को संबंध सही मिलते हैं, लेकिन इसकी त्रुटि संरचना, या इसके विपरीत के बारे में गलत है ।R2xyεiηi

इस तरह के एक मॉडल (जो आमतौर पर होता है) एक घातीय संबंध के लिए कम से कम वर्ग है,

(3)yi=exp(α0+xiα)+θi.

अब का लघुगणक का एक रैखिक कार्य है , , लेकिन त्रुटि शब्द additive हैं , जैसे । ऐसे मामलों में हमें और बीच गलत संबंध के साथ मॉडल चुनने में गुमराह कर सकता है yx(2a)θi(2)R2xy

यहाँ मॉडल का एक चित्रण है । लिए अवलोकन हैं ( और बीच समान रूप से वितरित 1-वेक्टर )। बायाँ पैनल मूल डेटा दिखाता है जबकि दायाँ पैनल डेटा को परिवर्तित करता है दिखाता है । धराशायी लाल रेखाएं वास्तविक अंतर्निहित संबंधों की साजिश करती हैं, जबकि ठोस नीली रेखाएं न्यूनतम-वर्ग को दर्शाती हैं। डेटा और सच्चे संबंध दोनों पैनलों में समान हैं: केवल मॉडल और उनके फिट अलग-अलग हैं।(3)300xi1.01.6(x,y)(x,log(y))

तितर बितर भूखंडों

दाईं ओर लॉग प्रतिक्रियाओं के लिए फिट स्पष्ट रूप से अच्छा है: यह लगभग सच्चे रिश्ते से मेल खाता है और दोनों रैखिक हैं। बाईं ओर मूल प्रतिक्रियाओं के लिए फिट स्पष्ट रूप से बदतर है: यह रैखिक है जबकि वास्तविक संबंध घातीय है। दुर्भाग्य से, इसमें की तुलना में : का विशेष रूप से बड़ा मूल्य है । इसलिए हमें बेहतर मॉडल की ओर ले जाने के लिए पर भरोसा नहीं करना चाहिए । इसलिए हमें "उच्च" होने पर भी फिट नहीं होना चाहिए (और कई अनुप्रयोगों में, मूल्य को वास्तव में उच्च माना जाएगा)।R20.700.56R2R20.70


संयोग से, इन मॉडलों का आकलन करने का एक बेहतर तरीका फिट परीक्षणों की भलाई शामिल है (जो दाईं ओर लॉग मॉडल की श्रेष्ठता का संकेत देगा) और अवशिष्टों की स्थिरता के लिए नैदानिक ​​भूखंड (जो दोनों मॉडल के साथ समस्याओं को उजागर करेंगे)। इस तरह के आकलन स्वाभाविक रूप से एक या तो कम से कम एक वर्ग को या सीधे मॉडल लिए फिट करने के लिए नेतृत्व करेंगे , जो कि अधिकतम संभावना या गैर-कम से कम वर्गों के तरीकों का उपयोग करके फिट होना होगा।log(y)(3)


R ^ 2 पर आलोचना उचित नहीं है। प्रत्येक उपकरण के रूप में इसका उपयोग अच्छी तरह से समझा जाना चाहिए। R ^ 2 के ऊपर आपके उदाहरणों में सही संदेश दिया गया है। R ^ 2 एक तरह से शोर अनुपात को बेहतर संकेत देने वाला है। बेशक यह स्पष्ट नहीं है जब आप दो रेखांकन पूरी तरह से अलग-अलग तराजू के साथ डालते हैं। वास्तव में शोर विचलन की तुलना में बाईं ओर संकेत बहुत मजबूत है।
कैगदास ओजेंक

@ कागदास आपको एक अंतर्निहित विरोधाभासी संदेश देते प्रतीत होते हैं। चूंकि दो भूखंडों हैं अनिवार्य रूप से एक भूखंडों मूल प्रतिक्रियाओं और अन्य भूखंडों उनके लघुगणक - - दो अलग-अलग पैमानों पर तो है कि कुछ सिफ़ारिश "स्पष्ट नहीं है" क्योंकि यह अपरिहार्य तथ्य का अपना पक्ष रखते हुए प्रतीत नहीं होता है। यह शिकायत करना कि यह उत्तर "अनुचित" है, वास्तव में मेरे द्वारा पेश किए गए मॉडलों के स्पष्ट विश्लेषण के प्रकाश में नहीं है।
whuber

मैं जो कह रहा हूं उसमें कोई विरोधाभास नहीं है। R ^ 2 शोर अनुपात को उच्च संकेत देता है। वही कर रहा है। इसे किसी और चीज़ की ओर मोड़ने की कोशिश करना और यह दावा करना कि यह काम नहीं कर रहा है एकमुश्त गलत है। आर ^ 2 के लिए सभी आलोचनाएं फिट सूचक के अन्य अच्छाई पर भी लागू होती हैं जब विभिन्न प्रतिक्रिया चर पर लागू होती हैं, लेकिन किसी कारण से आर ^ 2 को बलि का बकरा चुना जाता है।
कागदस ओजेंक

मुझे वास्तव में, @ कागदास को जानने में दिलचस्पी होगी, इस विश्लेषण का जो हिस्सा आप देख रहे हैं, वह "Rape " है । जहां तक ​​मैं बता सकता हूं कि यह एक विवादास्पद और तकनीकी रूप से सही आकलन है कि क्या है और पूरा करने में सक्षम नहीं है। मैं यह नहीं देखता कि "शोर अनुपात में संकेत" का संदर्भ देना कितना प्रासंगिक है जब वास्तव में उदाहरण स्पष्ट रूप से दिखाता है कि कैसे बेहतर मॉडल (मेरे द्वारा वर्णित अर्थ में, जो कि ज्यादातर लोगों को "फिट की अच्छाई" से मतलब है) पैदा करता है बदतर । R2R2R2
whuber

2
आपकी मदद के लिए धन्यवाद देर से स्वीकृति के लिए खेद है, मैं हाल ही में खाली समय का एक बहुत कुछ नहीं था। ;)
समुद्र में एक बूढ़ा आदमी।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.