क्या एक अनुमानित स्कोर प्राप्त करने का एक तरीका है (हम रैंडम फ़ॉरेस्ट या चरम ग्रेड बूस्टिंग (XGBoost) जैसे एल्गोरिदम का उपयोग करते समय प्रत्येक अनुमानित मूल्य के लिए इसे आत्मविश्वास मूल्य या संभावना भी कह सकते हैं)। मान लें कि यह आत्मविश्वास स्कोर 0 से 1 तक होगा और यह दिखाएगा कि मैं किसी विशेष भविष्यवाणी के बारे में कितना आश्वस्त हूं ।
आत्मविश्वास के बारे में इंटरनेट पर मैंने जो कुछ भी पाया है, आमतौर पर इसे अंतराल द्वारा मापा जाता है। पुस्तकालय confpred
से कार्य करने के साथ गणना आत्मविश्वास अंतराल का एक उदाहरण इस प्रकार lava
है:
library(lava)
set.seed(123)
n <- 200
x <- seq(0,6,length.out=n)
delta <- 3
ss <- exp(-1+1.5*cos((x-delta)))
ee <- rnorm(n,sd=ss)
y <- (x-delta)+3*cos(x+4.5-delta)+ee
d <- data.frame(y=y,x=x)
newd <- data.frame(x=seq(0,6,length.out=50))
cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd)
if (interactive()) { ##'
plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y")
with(cc, lava::confband(newd$x, lwr, upr, fit, lwd=3, polygon=T,
col=Col("blue"), border=F))
}
कोड आउटपुट केवल आत्मविश्वास अंतराल देता है:
एक पुस्तकालय भी है conformal
, लेकिन मुझे इसका उपयोग प्रतिगमन में विश्वास अंतराल के लिए भी किया जाता है: "अनुरूप अनुमानी रूपरेखा में भविष्यवाणी त्रुटियों की गणना की अनुमति देता है: (i) वर्गीकरण के लिए p.values, और प्रतिगमन पर (ii) विश्वास अंतराल। "
तो क्या कोई रास्ता है:
किसी भी प्रतिगमन समस्याओं में प्रत्येक भविष्यवाणी के लिए आत्मविश्वास मूल्य प्राप्त करने के लिए?
यदि कोई रास्ता नहीं है, तो क्या यह एक आत्मविश्वास स्कोर के रूप में प्रत्येक अवलोकन के लिए उपयोग करने के लिए सार्थक होगा:
विश्वास अंतराल की ऊपरी और निचली सीमाओं के बीच की दूरी (उदाहरण के लिए उपरोक्त आउटपुट में)। तो, इस मामले में, व्यापक विश्वास अंतराल है, और अधिक अनिश्चितता है (लेकिन यह ध्यान में नहीं रखता है कि अंतराल में वास्तविक मूल्य कहां है)
randomForestCI
स्टीफन दांव द्वारा पैकेज में देखो , और सुसान Athey के साथ संबद्ध कागज। ध्यान दें कि यह केवल CI प्रदान करता है 'लेकिन आप अवशिष्ट विचरण की गणना करके इससे एक पूर्वानुमान अंतराल बना सकते हैं।