एक फिट वक्र की विश्वसनीयता?


11

मैं फिटेड कर्व की अनिश्चितता या विश्वसनीयता का अनुमान लगाना चाहूंगा। मैं जानबूझकर एक सटीक गणितीय मात्रा का नाम नहीं बता रहा हूँ जिसकी मुझे तलाश है, क्योंकि मुझे नहीं पता कि यह क्या है।

यहाँ (ऊर्जा) आश्रित चर (प्रतिक्रिया) और V (आयतन) स्वतंत्र चर है। मैं कुछ सामग्री के एनर्जी-वॉल्यूम वक्र, ( वी ) को खोजना चाहूंगा । इसलिए मैंने कुछ सैंपल वॉल्यूम (प्लॉट में हरे घेरे) के लिए ऊर्जा प्राप्त करने के लिए क्वांटम केमिस्ट्री कंप्यूटर प्रोग्राम के साथ कुछ गणनाएँ कीं।EVE(V)

तब मैं के साथ इन आंकड़ों के नमूने फिट बिर्च-Murnaghan समारोह : : चार मापदंडों पर निर्भर करता है जो0 , वी 0 , बी 0 , बी ' 0 । मैं यह भी मानता हूं कि यह सही फिटिंग फ़ंक्शन है, इसलिए सभी त्रुटियां केवल नमूनों के शोर से आती हैं। क्या इस प्रकार में, फिट समारोह ( ) के एक समारोह के रूप में लिखा जाएगा वी

E(E|V)=E0+9V0B016{[(V0V)231]3B0+[(V0V)231]2[64(V0V)23]},
E0,V0,B0,B0(E^)V

यहां आप परिणाम देख सकते हैं (कम से कम वर्ग एल्गोरिदम के साथ फिटिंग)। Y- अक्ष चर और X- अक्ष चर V है । नीली रेखा फिट है और हरे रंग के सर्कल नमूना बिंदु हैं।EV

बिर्च-मुर्गन फिट (नीला) नमूना (हरा)

मैं अब इस सज्जित के (मात्रा की निर्भरता में सबसे अच्छे रूप में) विश्वसनीयता के कुछ उपाय की जरूरत है ( वी ) , क्योंकि मैं इसे जरूरत संक्रमण के दबाव या enthalpies की तरह आगे मात्रा की गणना करने के।E^(V)

मेरा अंतर्ज्ञान मुझे बताता है कि फिट वक्र बीच में सबसे अधिक विश्वसनीय है, इसलिए मुझे लगता है कि इस स्केच में नमूना डेटा के अंत के पास अनिश्चितता (अनिश्चितता सीमा कहें) बढ़नी चाहिए: यहाँ छवि विवरण दर्ज करें

हालांकि, यह इस तरह का उपाय क्या है जिसकी मुझे तलाश है और मैं इसकी गणना कैसे कर सकता हूं?

सटीक होने के लिए, वास्तव में यहां केवल एक त्रुटि स्रोत है: गणना किए गए नमूने कम्प्यूटेशनल सीमा के कारण शोर हैं। इसलिए अगर मैं डेटा सैंपल के घने सेट की गणना करूंगा तो वे एक उबड़-खाबड़ वक्र का निर्माण करेंगे।

वांछित अनिश्चितता का अनुमान लगाने के लिए मेरा विचार मानकों पर आधारित निम्न '' त्रुटि '' की गणना करना है जैसा कि आप इसे स्कूल में सीखते हैं ( अनिश्चितता का प्रचार ):

Δ0,Δवी0,Δबी0औरΔबी ' 0 , फिटिंग सॉफ्टवेयर के द्वारा दिया जाता है।

ΔE(V)=(E(V)E0ΔE0)2+(E(V)V0ΔV0)2+(E(V)B0ΔB0)2+(E(V)B0ΔB0)2
ΔE0,ΔV0,ΔB0ΔB0

क्या यह एक स्वीकार्य दृष्टिकोण है या क्या मैं इसे गलत कर रहा हूं?

पुनश्च: मुझे पता है कि मैं भी अपने डेटा नमूनों और वक्र के बीच अवशिष्टों के वर्गों को कुछ हद तक 'मानक त्रुटि' प्राप्त करने के लिए जोड़ सकता हूं, लेकिन यह मात्रा पर निर्भर नहीं है।


आपका कोई भी पैरामीटर एक प्रतिपादक नहीं है, जो अच्छा है। आपने कौन सा एनएलएस सॉफ्टवेयर इस्तेमाल किया? अधिकांश पैरामीट्रिक अनिश्चितता के लिए एक अनुमान लौटाएगा (जो आपके मापदंडों के प्रतिपादक होने पर पूरी तरह से अवास्तविक हो सकता है, लेकिन यह कोई मामला नहीं है)।
डेल्टा ४४ ’

आपके समीकरण के दाईं ओर कोई A नहीं है, लेकिन यह आपके भूखंड में दिखाई देता है। जब आप "चार पैरामीटर" कहते हैं, तो क्या आप सांख्यिकीय अर्थ में पैरामीटर का मतलब है (किस मामले में, जहां आपके IVs हैं) या क्या आप चर का मतलब है (किस मामले में आपके पैरामीटर कहाँ हैं)? कृपया प्रतीकों की भूमिकाओं को स्पष्ट करें - क्या मापा गया है और अज्ञात क्या हैं?
Glen_b -Reinstate मोनिका

1
मुझे लगता है कि V A ^ 3 है। यही मैंने प्रयोग किया और मेरा कथानक उसके समान दिखाई दिया।
डेव fournier

@Glen_b मैंने अभी यह माना कि Y अक्ष B- मृगनाभन फलन में E है जबकि x अक्ष V है। चार मानदंड बिर्च-मृणागन क्रिया में चार मानदंड हैं। यदि आप मान लेते हैं कि आपको कुछ ऐसा मिलता है, जो दिखता है कि उसके पास क्या है।
डेव fournier

आह, रुको, मैं अंत में इसे प्राप्त करता हूं। एक उम्मीद ऑपरेटर नहीं है (जैसा कि मैं आरएचएस पर एक त्रुटि अवधि के बिना समीकरण के एलएचएस पर देखने की उम्मीद करूंगा),E() फॉर्म y ( x ) में एक फ़ंक्शन के रूप में लिखा गया प्रतिक्रिया चर है। BIG HINT हर किसी के लिए:किसी सांख्यिकीविद के प्रतिगमन समीकरण के बाईं ओर E ( ) के साथ एक समीकरण न दिखाएंध्यान से परिभाषित करने के बिना कि आपका क्या मतलब है, क्योंकि वे संभावना मान लेंगे कि यह एक उम्मीद है। Ey(x)E()
Glen_b -Reinstate मोनिका

जवाबों:


8

यह एक साधारण से कम वर्ग की समस्या है!

परिभाषित

x=V2/3, w=V01/3,

मॉडल को फिर से लिखा जा सकता है

E(E|V)=β0+β1x+β2x2+β3x3

जहां गुणांक बीजगणित के माध्यम से मूल गुणांक से जुड़े हुए हैंβ=(βi)

16β=(16E0+54B0w39B0B0w3144B0w5+27B0B0w5126B0w727B0B0w736B0w9+9B0B0w9).

B0,B0wB0,B0,wE0β

यह दृष्टिकोण नॉनलाइनियर फिटिंग की तुलना में न केवल बहुत सरल है, यह अधिक सटीक भी है: लिए विचरण-सहसंयोजक मैट्रिक्स(E0,B0,B0,V0)E

β^R

आकृति

#
# The data.
#
X <- data.frame(V=c(41, 43, 46, 48, 51, 53, 55.5, 58, 60, 62.5),
                E=c(-48.05, -48.5, -48.8, -49.03, -49.2, -49.3, -49.35, 
                    -49.34, -49.31, -49.27))
#
# OLS regression.
#
fit <- lm(E ~ I(V^(-2/3)) + I(V^(-4/3)) + I(V^(-6/3)), data=X)
summary(fit)
beta <- coef(fit)
#
# Prediction, including standard errors of prediction.
#
V0 <- seq(40, 65)
y <- predict(fit, se.fit=TRUE, newdata=data.frame(V=V0))
#
# Plot the data, the fit, and a three-SEP band.
#
plot(X$V, X$E, xlab="Volume", ylab="Energy", bty="n", xlim=c(40, 60))
polygon(c(V0, rev(V0)), c(y$fit + 3*y$se.fit, rev(y$fit - 3*y$se.fit)),
        border=NA, col="#f0f0f0")
curve(outer(x^(-2/3), 0:3, `^`) %*% beta, add=TRUE, col="Red", lwd=2)
points(X$V, X$E)

β

चित्र 2


1
हालांकि यह सच है कि रैखिक मॉडल के लिए एल्गोरिदम nonlinear मॉडल की तुलना में संख्यात्मक रूप से बहुत अधिक स्थिर हैं, यह सच नहीं है कि डायग्नोस्टिक्स की सटीकता में अंतर है जब तक कि nonlinear फिटिंग एल्गोरिथ्म में परिवर्तित हो जाता है। मैंने जाँच की और कम से कम 4 सिग अंजीर के लिए हमारे पास समान अवशिष्ट राशि है। इसके अलावा, आपके द्वारा चुना गया रैखिक परिमाण अत्यधिक उलझा हुआ है ताकि कोई भी पैरामीटर t परीक्षण के अनुसार महत्वपूर्ण न हो। सब मेरे हैं। वास्तव में बड़ी बात नहीं है, लेकिन मनोरंजक और युवा खिलाड़ी को भ्रमित कर सकता है।
चौघडिय़ा

इसके अलावा, मुझे लगता है कि आपने ओपी के सवाल का जवाब नहीं दिया क्योंकि उसने कहा था कि वह थैलेपी-वॉल्यूम फ़ंक्शन के लिए आत्मविश्वास की सीमा जैसा कुछ चाहती थी।
dave fournier

1
β(E0,)(E^0)

आपका मॉडल और मेरा पैरामीटर के समान स्वतंत्र हैं। (मैं ओएलएस मॉडल के बारे में बात कर रहा हूं।) यह सच है कि यदि कोई विशेष पैरामीटर रैखिक रूप से मॉडल में प्रवेश करता है, तो मानक विचलन उस पैरामीटर के लिए बेहतर आत्मविश्वास सीमा का उत्पादन करते हैं। डेल्टा विधि के माध्यम से प्राप्त मानक विचलन समान होगा कि क्या इसका उपयोग मॉडल के लिए किया जाता है या एक आश्रित चर के रूप में हल किया जाता है। इस मामले में ब्याज का आश्रित चर, थैलेपी-वॉल्यूम-फ़ंक्शन है और इसकी डेल्टा विधि एसटीडी देव एक ही होगी चाहे कोई आपके पैरामीरीज़ेशन या मेरा उपयोग करता हो।
डेव fournier

1
β^

3

Ig

gtIg
यह आपको उस आश्रित चर के लिए अनुमानित रूपांतर देता है। अनुमानित मानक विचलन प्राप्त करने के लिए वर्गमूल लें। फिर विश्वास सीमाएं अनुमानित मूल्य + - दो मानक विचलन हैं। यह मानक संभावना सामान है। एक गैर-प्रतिगमन प्रतिगमन के विशेष मामले के लिए आप स्वतंत्रता की डिग्री के लिए सही कर सकते हैं। आपके पास 10 अवलोकन और 4 पैरामीटर हैं ताकि आप मॉडल में विचरण के अनुमान को 10/6 से गुणा करके बढ़ा सकें। कई सॉफ्टवेयर पैकेज आपके लिए ऐसा करेंगे। मैंने AD मॉडल बिल्डर में AD मॉडल में अपना मॉडल लिखा और इसे फिट किया और (अनमॉडिफाइड) भिन्नताओं की गणना की। वे आपसे थोड़ा अलग होंगे क्योंकि मुझे मूल्यों पर थोड़ा अनुमान लगाना था।
                    estimate   std dev
10   pred_E      -4.8495e+01 7.5100e-03
11   pred_E      -4.8810e+01 7.9983e-03
12   pred_E      -4.9028e+01 7.5675e-03
13   pred_E      -4.9224e+01 6.4801e-03
14   pred_E      -4.9303e+01 6.8034e-03
15   pred_E      -4.9328e+01 7.1726e-03
16   pred_E      -4.9329e+01 7.0249e-03
17   pred_E      -4.9297e+01 7.1977e-03
18   pred_E      -4.9252e+01 1.1615e-02

यह एडी मॉडल बिल्डर में किसी भी आश्रित चर के लिए किया जा सकता है। एक इस तरह कोड में उचित स्थान पर एक चर घोषित करता है

   sdreport_number dep

और कोड को इस तरह निर्भर चर का मूल्यांकन लिखता है

dep=sqrt(V0-cube(Bp0)/(1+2*max(V)));

ध्यान दें कि इसका मूल्यांकन मॉडल की फिटिंग में देखे गए सबसे बड़े 2 बार स्वतंत्र चर के मूल्य के लिए किया जाता है। मॉडल को फ़िट करें और इस निर्भर चर के लिए मानक विचलन प्राप्त करता है

19   dep          7.2535e+00 1.0980e-01

मैंने थैलेपी-वॉल्यूम फ़ंक्शन के लिए विश्वास सीमाओं की गणना के लिए कोड शामिल करने के लिए कार्यक्रम को संशोधित किया है कोड (TPL) फ़ाइल इस तरह दिखती है

DATA_SECTION
 init_int nobs
 init_matrix data(1,nobs,1,2)
 vector E
 vector V
 number Vmean
LOC_CALCS
 E=column(data,2);
 V=column(data,1);
 Vmean=mean(V);

PARAMETER_SECTION
 init_number E0
 init_number log_V0_coff(2)
 init_number log_B0(3)
 init_number log_Bp0(3)
 init_bounded_number a(.9,1.1)
 sdreport_number V0
 sdreport_number B0
 sdreport_number Bp0
 sdreport_vector pred_E(1,nobs)
 sdreport_vector P(1,nobs)
 sdreport_vector H(1,nobs)
 sdreport_number dep
 objective_function_value f
PROCEDURE_SECTION
  V0=exp(log_V0_coff)*Vmean;
  B0=exp(log_B0);
  Bp0=exp(log_Bp0);
  if (current_phase()<4)
  f+=square(log_V0_coff) +square(log_B0);

  dvar_vector sv=pow(V0/V,0.66666667);
  pred_E=E0 + 9*V0*B0*(cube(sv-1.0)*Bp0
    + elem_prod(square(sv-1.0),(6-4*sv)));

  dvar_vector r2=square(E-pred_E);
  dvariable vhat=sum(r2)/nobs;
  dvariable v=a*vhat;
  f=0.5*nobs*log(v)+sum(r2)/(2.0*v);

  // code to calculate the  enthalpy-volume function
  double delta=1.e-4;
  dvar_vector svp=pow(V0/(V+delta),0.66666667);
  dvar_vector svm=pow(V0/(V-delta),0.66666667);
  P = -((9*V0*B0*(cube(svp-1.0)*Bp0
      + elem_prod(square(svp-1.0),(6-4*svp))))
      -(9*V0*B0*(cube(svm-1.0)*Bp0
      + elem_prod(square(svm-1.0),(6-4*svm)))))/(2.0*delta);
  H=E+elem_prod(P,V);

dep=sqrt(V0-cube(Bp0)/(1+2*max(V)));

तब मैंने एच के अनुमानों के लिए मानक देवों को प्राप्त करने के लिए मॉडल को परिष्कृत किया।

29   H           -3.9550e+01 5.9163e-01
30   H           -4.1554e+01 2.8707e-01
31   H           -4.3844e+01 1.2333e-01
32   H           -4.5212e+01 1.5011e-01
33   H           -4.6859e+01 1.5434e-01
34   H           -4.7813e+01 1.2679e-01
35   H           -4.8808e+01 1.1036e-01
36   H           -4.9626e+01 1.8374e-01
37   H           -5.0186e+01 2.8421e-01
38   H           -5.0806e+01 4.3179e-01

इनकी गणना आपके देखे गए V मानों के लिए की जाती है, लेकिन आसानी से V के किसी भी मूल्य के लिए गणना की जा सकती है।

यह बताया गया है कि यह वास्तव में एक रैखिक मॉडल है जिसके लिए ओएलएस के माध्यम से पैरामीटर आकलन करने के लिए सरल आर कोड है। यह विशेष रूप से उपयोगकर्ताओं को अनुभव करने के लिए बहुत ही आकर्षक है। हालाँकि, तीस साल पहले ह्यूबर के काम के बाद से हम जानते हैं या यह जानना चाहिए कि किसी को संभवतः हमेशा ओएलएस को मामूली मजबूत विकल्प के साथ बदलना चाहिए। इसका कारण यह नहीं है कि नियमित रूप से मेरा मानना ​​है कि मजबूत तरीके स्वाभाविक रूप से अकाल हैं। इस दृष्टिकोण से आर में सरल आकर्षक ओएलएस विधियां एक विशेषता के बजाय एक जाल से अधिक हैं। AD मॉडल बिल्डर दृष्टिकोण का एक एडवांटेज है, जो कि नॉनलाइनर मॉडलिंग के समर्थन में बनाया गया है। कम से कम वर्ग कोड को एक सामान्य सामान्य मिश्रण में बदलने के लिए कोड की केवल एक पंक्ति को बदलना होगा। रेखा

    f=0.5*nobs*log(v)+sum(r2)/(2.0*v);

को बदल दिया जाता है

f=0.5*nobs*log(v)
  -sum(log(0.95*exp(-0.5*r2/v) + 0.05/3.0*exp(-0.5*r2/(9.0*v))));

मॉडल में ओवरस्पीडर की मात्रा को पैरामीटर ए द्वारा मापा जाता है। यदि बराबर 1.0 है, तो विचरण सामान्य मॉडल के लिए समान है। यदि आउटलेयर द्वारा विचरण की मुद्रास्फीति होती है, तो हम उम्मीद करते हैं कि 1.0 से छोटा होगा। इन आंकड़ों के लिए a का अनुमान लगभग 0.23 है, ताकि सामान्य मॉडल के लिए विचरण लगभग 1/4 हो। व्याख्या यह है कि आउटलेर्स ने लगभग 4 के एक कारक द्वारा विचरण अनुमान में वृद्धि की है। इसका प्रभाव ओएलएस मॉडल के लिए मापदंडों के लिए विश्वास सीमा का आकार बढ़ाना है। यह दक्षता में कमी का प्रतिनिधित्व करता है। सामान्य मिश्रण मॉडल के लिए थैलेपी-वॉल्यूम फ़ंक्शन के लिए अनुमानित मानक विचलन हैं

 29   H           -3.9777e+01 3.3845e-01
 30   H           -4.1566e+01 1.6179e-01
 31   H           -4.3688e+01 7.6799e-02
 32   H           -4.5018e+01 9.4855e-02
 33   H           -4.6684e+01 9.5829e-02
 34   H           -4.7688e+01 7.7409e-02
 35   H           -4.8772e+01 6.2781e-02
 36   H           -4.9702e+01 1.0411e-01
 37   H           -5.0362e+01 1.6380e-01
 38   H           -5.1114e+01 2.5164e-01

एक देखता है कि बिंदु अनुमानों में छोटे बदलाव हैं, जबकि ओएलएस द्वारा उत्पादित लोगों के विश्वास सीमा को लगभग 60% तक कम कर दिया गया है।

मुख्य बिंदु जो मैं बनाना चाहता हूं, वह यह है कि सभी संशोधित गणना स्वचालित रूप से तब होती हैं जब कोई TPL फ़ाइल में कोड की एक पंक्ति को बदल देता है।


2
I

1
E(EV)E(EV)E(HV)

1
@jwimberley, आप मूल रूप से कह रहे हैं कि डेव फूरियर ने (सशर्त) माध्य के आत्मविश्वास अंतराल के लिए सूत्र दिया, जबकि थाइम नए अवलोकन के लिए भविष्यवाणी अंतराल में दिलचस्पी ले सकता है। OLS के लिए बाद की गणना करना आसान है। आप इस मामले में इसकी गणना कैसे करते हैं?
6

1
E=f(V)+ϵEE^ϵVϵϵ दुनिया में thermodynamic के उतार-चढ़ाव, जो शायद तुलना नहीं की जा से आता है।
jwimberley

1
@jwimberley मैंने केवल देखे गए मानों के अनुरूप अनुमानित मानों के लिए विश्वास सीमाएं दिखाईं क्योंकि वे उपलब्ध थे। मैंने अपने उत्तर को यह दिखाने के लिए संपादित किया है कि किसी भी आश्रित चर के लिए विश्वास की सीमा कैसे प्राप्त की जाए।
डेव fournier

0

क्रॉस-सत्यापन आपके वक्र की विश्वसनीयता का अनुमान लगाने का एक सरल तरीका है : https://en.wikipedia.org/wiki/Cross-validation_(statistics)

ΔE0,ΔV0,ΔB0ΔB

फिटिंग से दूर और फिट किए गए वक्र का उपयोग करके उस बिंदु के मूल्य की भविष्यवाणी करने के लिए आप अपने एक बिंदु को छोड़कर 1 गुना सत्यापन त्रुटि की गणना कर सकते हैं। सभी बिंदुओं के लिए इसे दोहराएं ताकि प्रत्येक को एक बार छोड़ दिया जाए। फिर, भविष्यवाणी त्रुटियों की एक औसत के रूप में अपने अंतिम वक्र (सभी बिंदुओं के साथ फिट) की सत्यापन त्रुटि की गणना करें।

यह केवल आपको बताएगा कि किसी नए डेटा बिंदु के लिए आपका मॉडल कितना संवेदनशील है। उदाहरण के लिए, यह आपको यह नहीं बताएगा कि आपका ऊर्जा मॉडल कितना गलत है। हालाँकि, यह बहुत अधिक यथार्थवादी त्रुटि अनुमान मात्र फिटिंग त्रुटि होगी।

इसके अलावा, यदि आप चाहते हैं तो आप वॉल्यूम के एक फ़ंक्शन के रूप में पूर्वानुमान त्रुटियों को साजिश कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.