RMSE का आत्मविश्वास अंतराल


20

मैंने एक जनसंख्या से डेटा बिंदुओं का नमूना लिया है । इनमें से प्रत्येक बिंदु का एक वास्तविक मूल्य (जमीनी सच्चाई से ज्ञात) और एक अनुमानित मूल्य है। मैं फिर प्रत्येक नमूना बिंदु के लिए त्रुटि की गणना करता हूं और फिर नमूने के आरएमएसई की गणना करता हूं।n

फिर मैं नमूना आकार आधार पर इस RMSE के आसपास किसी प्रकार के विश्वास अंतराल का अनुमान कैसे लगा सकता हूं ?n

अगर मैं RMSE के बजाय माध्य का उपयोग कर रहा था, तो मुझे ऐसा करने में कोई समस्या नहीं होगी क्योंकि मैं मानक समीकरण का उपयोग कर सकता हूं

m=Zσn

लेकिन मुझे नहीं पता कि यह माध्य के बजाय RMSE के लिए मान्य है या नहीं। क्या कोई रास्ता है कि मैं इसे अनुकूलित कर सकता हूं?

(मैंने इस प्रश्न को देखा है , लेकिन मेरे पास कोई समस्या नहीं है कि क्या मेरी आबादी सामान्य रूप से वितरित की गई है, जो कि वहाँ से संबंधित उत्तर है)


जब आप "नमूने के आरएमएसई की गणना" करते हैं, तो आप विशेष रूप से क्या गणना कर रहे हैं? इसके बारे में RMSE है , सही मूल्य का अनुमान मूल्यों, या अपने मतभेदों की?
whuber

2
मैं अंतरों के RMSE की गणना कर रहा हूँ, अर्थात्, सही और अनुमानित मानों के बीच वर्गीय अंतर के माध्य के वर्गमूल की गणना कर रहा हूँ।
१ .

यदि आप 'जमीनी सच्चाई' जानते हैं (हालांकि मुझे यकीन नहीं है कि वास्तव में इसका क्या मतलब है), तो आपको आरएमएसई में अनिश्चितता की आवश्यकता क्यों होगी? क्या आप उन मामलों के बारे में किसी तरह का अनुमान लगाने की कोशिश कर रहे हैं, जहां आपके पास जमीनी सच्चाई नहीं है? क्या यह एक अंशांकन मुद्दा है?
Glen_b -Reinstate Monica

@Glen_b: हाँ, यह ठीक है कि हम क्या करने की कोशिश कर रहे हैं। हमारे पास पूरी आबादी के लिए जमीनी सच्चाई नहीं है, सिर्फ नमूने के लिए। फिर हम नमूने के लिए एक RMSE की गणना कर रहे हैं, और हम इस पर विश्वास अंतराल चाहते हैं क्योंकि हम इस नमूने का उपयोग आबादी के RMSE का अनुमान लगाने के लिए कर रहे हैं।
रॉबिनटव डिक

1
के संभावित डुप्लिकेट आर में RMSE के एसई
जिज्ञासु

जवाबों:


15

यहाँ के समान तर्क के साथ , मैं कुछ शर्तों के तहत आपके प्रश्न का उत्तर देने में सक्षम हो सकता हूं।

बता दें कि अनुमानित मूल्य के डेटा बिंदु और लिए आपका सही मूल्य है। अगर हम यह मान लें कि अनुमानित और सच्चे मूल्यों के बीच अंतर हैxiithx^i

  1. माध्य शून्य (अर्थात को आसपास वितरित किया जाता है )x^ixi

  2. एक सामान्य वितरण का पालन करें

  3. और सभी में समान मानक विचलनσ

संक्षेप में:

x^ixiN(0,σ2),

तब आप वास्तव में लिए एक आत्मविश्वास अंतराल चाहते हैं ।σ

यदि उपरोक्त मान्यताओं को सही n RMSE 2 मानते हैं एक प्रकार हैχ 2 n के साथ वितरणn(नहींn-1स्वतंत्रता की डिग्री)। इसका मतलब है की

nRMSE2σ2=n1ni(xi^xi)2σ2
χn2nn1

P(χα2,n2nRMSE2σ2χ1α2,n2)=1αP(nRMSE2χ1α2,n2σ2nRMSE2χα2,n2)=1αP(nχ1α2,n2RMSEσnχα2,n2RMSE)=1α.

इसलिए, आपका आत्मविश्वास अंतराल है।

[nχ1α2,n2RMSE,nχα2,n2RMSE]

यहां एक अजगर कार्यक्रम है जो आपकी स्थिति का अनुकरण करता है

from scipy import stats
from numpy import *
s = 3
n=10
c1,c2 = stats.chi2.ppf([0.025,1-0.025],n)
y = zeros(50000)
for i in range(len(y)):
    y[i] =sqrt( mean((random.randn(n)*s)**2))

print "1-alpha=%.2f" % (mean( (sqrt(n/c2)*y < s) & (sqrt(n/c1)*y > s)),)

उम्मीद है की वो मदद करदे।

यदि आप सुनिश्चित नहीं हैं कि क्या धारणाएं लागू होती हैं या यदि आप तुलना करना चाहते हैं कि मैंने एक अलग विधि में क्या लिखा है, तो आप हमेशा बूटस्ट्रैपिंग की कोशिश कर सकते हैं ।


1
σ

1
MSE=σ^2=1ni=1n(xix^i)2nn1σσ

10

i=1,,nxix^i

ϵi

ϵi=x^ixi,BIAS=ϵ¯=1ni=1nϵi,MSE=ϵ2¯=1ni=1nϵi2,RMSE=MSE.

ϵ

STDE2=(ε-ε¯)2¯=1nΣमैं=1n(εमैं-ε¯)2,
STDE2=(ε-ε¯)2¯=ε2¯-ε¯2=RMSE2-पूर्वाग्रह2

εn<30STDE/n


2
RMSE2=STDE2RMSE2BIAS2χ2χ2
fabee

0

σ(RMSE^)/RMSE=12n
n
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.