दो रैखिक प्रतिगमन मॉडल को देखते हुए, कौन सा मॉडल बेहतर प्रदर्शन करेगा?


14

मैंने अपने कॉलेज में मशीन लर्निंग कोर्स कर लिया है। क्विज़ में से एक में, यह सवाल पूछा गया था।

मॉडल 1:

y=θx+ϵ
मॉडल 2:
y=θx+θ2x+ϵ

उपरोक्त मॉडलों में से कौन सा डेटा बेहतर होगा? (मान लें कि डेटा रेखीय प्रतिगमन का उपयोग करके बनाया जा सकता है)

सही उत्तर (प्रोफेसर के अनुसार) यह है कि दोनों मॉडल समान रूप से अच्छा प्रदर्शन करेंगे। हालांकि मेरा मानना ​​है कि पहला मॉडल एक बेहतर फिट होगा।

मेरे जवाब के पीछे यही कारण है। दूसरा मॉडल है, जो के रूप में लिखा जा सकता है αx+ϵ , α=θ+θ2 पहला मॉडल के रूप में ही नहीं होगा। α वास्तव में एक पैराबोला है, और इसलिए इसका न्यूनतम मूल्य है ( 0.25 इस मामले में 0.25 )। अब इस वजह से, की सीमा θ पहला मॉडल में की सीमा से अधिक है α दूसरे मॉडल में। इसलिए यदि डेटा ऐसा था कि सबसे अच्छा फिट में ढलान कम था 0.25 , दूसरा मॉडल पहले वाले की तुलना में बहुत खराब प्रदर्शन करेगा। हालाँकि, यदि सबसे अच्छा फिट का ढलान इससे अधिक था , दोनों मॉडल समान रूप से अच्छा प्रदर्शन करेंगे।0.25

तो क्या पहले वाला बेहतर है, या दोनों एक जैसे हैं?


3
मेरे विचार में तुम सही हो। की आवश्यकता होती है कि एक पैरामीटर में व्यक्त किया जा के रूप में θ + θ 2 (कुछ के लिए θ ) वास्तव में क्या पर एक बाधा को लागू करता है अल्फा के संभव है। इसका मतलब यह है कि दूसरा मॉडल पहले की तुलना में कम संबंधों को व्यक्त कर सकता है , क्योंकि यह अनिवार्य रूप से अब एक विवश अनुकूलन समस्या है। आपका तर्क मुझे ठोस लगता है। αθ+θ2θα
मैथ्यू ड्र्यू

@ मैथ्यू ड्रीरी मुझे लगा कि मैं गलत हो गया हूं, नीचे दिए गए उत्तर पर एक नज़र डालें (और टिप्पणी)
कुश

3
मैं अपनी टिप्पणी देखते हैं, लेकिन है कि कुछ बहुत गंभीर जिमनास्टिक ग्रहण करने के लिए वह यह है कि जटिल मूल्यों ले जाएगा। मैं निश्चित रूप से आपके प्रोफेसर के साथ इस बारे में बात करने के लिए कुछ कार्यालय समय में भाग लूंगा। आप इसे किसी भी तरह से एक अच्छी चर्चा प्राप्त करेंगे। θ
मैथ्यू ड्र्यू

1
यह मेरे लिए स्पष्ट नहीं है कि -0.25 कहां से आता है। क्या आप स्पष्ट कर सकते हो?
मैड जैक

1
मुझे इस बात में दिलचस्पी होगी कि आपका प्रोफेसर प्रत्येक मॉडल को दो-बिंदु डेटासेट में कैसे फिट करेगा । मॉडल 1 और साथ θ = - 1 फिट परिपूर्ण है, लेकिन कैसे s / वह अनुमान है होगा θ मॉडल 2 में एक सही फिट प्राप्त करने के लिए? {(1,1),(2,2)}θ=1θ
whuber

जवाबों:


9

: मॉडल 2 के रूप में लिखा जा सकता है यह सिर्फ hyperparameters के लिए अलग संकेतन (साथ मॉडल 1 के समान लगता है, θ , β )। हालांकि, मॉडल 1 के लिए हम लिख सकते हैं θ = ( एक्स

y=(θ+θ2)x+ϵ=βx+ϵ.
θ,β
θ^=(XX)1Xy.

लेकिन चूंकि मॉडल 2 में हम उस राशि तो के रूप में आप वास्तव में उल्लेख किया है की सीमा β से संबंधित होना चाहिए [ - 0.25 , + ] के लिए θ आर । जिससे इन 2 मॉडलों में अंतर पैदा होगा।

β=θ+θ2,
β^[0.25,+]θR

इस प्रकार मॉडल 2 में आप मॉडल 1. विपरीत अपने गुणांक अनुमान को बाधित कर रहे हैं इस और अधिक स्पष्ट करने के लिए, यह ध्यान दिया जाना चाहिए कि मॉडल 1 वर्ग नुकसान समारोह को न्यूनतम करने के माध्यम से प्राप्त किया जाता है θ = आर्ग मिनट θ आर ( y - एक्स θ )θ^ हालांकि मॉडल में 2 अनुमान के माध्यम से प्राप्त किया जाता है बीटा =आर्ग मिनट बीटा - 0.25 (y-एक्सबीटा)

θ^=argminθR  (yXθ)(yXθ)=(XX)1Xy.
जो एक अलग परिणाम प्राप्त हो सकता है।
β^=argminβ0.25  (yXβ)(yXβ)

1
θθ+θ2θ

@kush कृपया मेरी संपादित प्रतिक्रिया की जाँच करें जो आपकी चिंता को भी स्वीकार करती है
Wis

1

मुझे यकीन नहीं है कि मैं आपका तर्क समझता हूँ। यदि आप लेवें:

y=αx+ϵ
y=θx+ϵ

αθαθR2θα=θ+θ2


5
θ पहले मॉडल में रेंज में किसी भी मूल्य ले सकते हैं (-,) तथापि α दूसरे मॉडल में केवल रेंज में मान ले सकते हैं (-0.25,)। इसलिए जब हम दोनों को एक सरल रेखीय प्रतिगमन मॉडल मानते हैं, तो क्या हम गुणांक पर प्रतिबंध नहीं लगा रहे हैंएक्स(दूसरे मॉडल में)? यदि डेटा के लिए सबसे अच्छा फिट होने की स्थिति में यह एक समस्या नहीं होगी, तो नकारात्मक ढलान है?
कुश
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.