मैं कल्पना करता हूं कि एक चर पर जितना बड़ा गुणांक होता है, उस आयाम में मॉडल को "स्विंग" करने की अधिक क्षमता होती है, जिससे शोर को फिट करने का एक बढ़ा मौका मिलता है। हालांकि मुझे लगता है कि मुझे मॉडल और बड़े गुणांक में विचरण के बीच के संबंध का एक उचित अर्थ मिल गया है, लेकिन मुझे यह समझ में नहीं आता कि वे ओवरफिट मॉडल में क्यों होते हैं। क्या यह कहना गलत है कि वे ओवरफिटिंग के लक्षण हैं और गुणांक संकोचन मॉडल में विचरण को कम करने के लिए एक तकनीक है? गुणांक संकोचन के माध्यम से नियमितीकरण इस सिद्धांत पर संचालित होता है कि बड़े गुणांक एक ओवरफ़ीड मॉडल का परिणाम हैं, लेकिन शायद मैं तकनीक के पीछे की प्रेरणा को गलत बता रहा हूं।
मेरे अंतर्ज्ञान कि बड़े गुणांक आम तौर पर ओवरफिटिंग का एक लक्षण है जो निम्न उदाहरण से आता है:
मान लीजिए कि हम अंक फिट करना चाहते हैं जो सभी एक्स-एक्सिस पर बैठते हैं। हम आसानी से एक बहुपद का निर्माण कर सकते हैं जिसके समाधान ये बिंदु हैं: । मान लीजिए कि हमारे अंक । यह तकनीक सभी गुणांक> = 10 (एक गुणांक को छोड़कर) देती है। जैसा कि हम और अधिक अंक जोड़ते हैं (और इस प्रकार बहुपद की डिग्री बढ़ाते हैं) इन गुणांकों का परिमाण तेजी से बढ़ेगा।
यह उदाहरण है कि मैं वर्तमान में मॉडल के गुणांक के आकार को उत्पन्न मॉडल की "जटिलता" के साथ जोड़ रहा हूं, लेकिन मुझे चिंता है कि यह मामला वास्तव में वास्तविक दुनिया के व्यवहार का सूचक है। मैंने जानबूझकर एक ओवरफ़ीड मॉडल (एक द्विघात नमूना मॉडल से उत्पन्न डेटा पर फिट 10 वीं डिग्री बहुपद ओएलएस) बनाया और मेरे मॉडल में ज्यादातर छोटे गुणांक देखकर आश्चर्यचकित था:
set.seed(123)
xv = seq(-5,15,length.out=1e4)
x=sample(xv,20)
gen=function(v){v^2 + 7*rnorm(length(v))}
y=gen(x)
df = data.frame(x,y)
model = lm(y~poly(x,10,raw=T), data=df)
summary(abs(model$coefficients))
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.000001 0.003666 0.172400 1.469000 1.776000 5.957000
data.frame(sort(abs(model$coefficients)))
# model.coefficients
# poly(x, 10, raw = T)10 7.118668e-07
# poly(x, 10, raw = T)9 3.816941e-05
# poly(x, 10, raw = T)8 7.675023e-04
# poly(x, 10, raw = T)7 6.565424e-03
# poly(x, 10, raw = T)6 1.070573e-02
# poly(x, 10, raw = T)5 1.723969e-01
# poly(x, 10, raw = T)3 6.341401e-01
# poly(x, 10, raw = T)4 8.007111e-01
# poly(x, 10, raw = T)1 2.751109e+00
# poly(x, 10, raw = T)2 5.830923e+00
# (Intercept) 5.956870e+00
हो सकता है कि इस उदाहरण से दूर यह है कि गुणांक के दो तिहाई 1 से कम हैं, और अन्य गुणांक के सापेक्ष , तीन गुणांक हैं जो असामान्य रूप से बड़े हैं (और इन गुणांक के साथ जुड़े चर भी उन सबसे निकटता से होते हैं। सच नमूना मॉडल से संबंधित)।
क्या (L2) नियमितकरण एक मॉडल में विचरण को कम करने के लिए एक तंत्र है और जिससे भविष्य के डेटा को बेहतर फिट करने के लिए वक्र को "सुचारू" किया जाता है, या क्या यह अवलोकन से प्राप्त एक अनुमान से लाभ उठा रहा है कि अति-संपन्न मॉडल बड़े गुणांक का प्रदर्शन करते हैं? क्या यह एक सटीक कथन है कि ओवरफिटेड मॉडल बड़े गुणांक का प्रदर्शन करते हैं? यदि हां, तो क्या कोई शायद घटना के पीछे के तंत्र को थोड़ा समझा सकता है और / या मुझे कुछ साहित्य के लिए निर्देशित कर सकता है?