आर में प्रत्येक भविष्यवाणी के लिए प्रतिगमन (यादृच्छिक जंगलों / XGBoost के साथ) में आत्मविश्वास स्कोर की गणना कैसे करें?


11

क्या एक अनुमानित स्कोर प्राप्त करने का एक तरीका है (हम रैंडम फ़ॉरेस्ट या चरम ग्रेड बूस्टिंग (XGBoost) जैसे एल्गोरिदम का उपयोग करते समय प्रत्येक अनुमानित मूल्य के लिए इसे आत्मविश्वास मूल्य या संभावना भी कह सकते हैं)। मान लें कि यह आत्मविश्वास स्कोर 0 से 1 तक होगा और यह दिखाएगा कि मैं किसी विशेष भविष्यवाणी के बारे में कितना आश्वस्त हूं

आत्मविश्वास के बारे में इंटरनेट पर मैंने जो कुछ भी पाया है, आमतौर पर इसे अंतराल द्वारा मापा जाता है। पुस्तकालय confpredसे कार्य करने के साथ गणना आत्मविश्वास अंतराल का एक उदाहरण इस प्रकार lavaहै:

library(lava)
set.seed(123)
n     <- 200
x     <- seq(0,6,length.out=n)
delta <- 3
ss    <- exp(-1+1.5*cos((x-delta)))
ee    <- rnorm(n,sd=ss)
y     <- (x-delta)+3*cos(x+4.5-delta)+ee
d     <- data.frame(y=y,x=x)
newd  <- data.frame(x=seq(0,6,length.out=50))
cc    <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd)
if (interactive()) { ##'
  plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y")
  with(cc, lava::confband(newd$x, lwr, upr, fit,  lwd=3, polygon=T, 
                          col=Col("blue"), border=F))
}

कोड आउटपुट केवल आत्मविश्वास अंतराल देता है:

ग्राफ अंक, भविष्यवाणी और विश्वास अंतराल दिखा रहा है

एक पुस्तकालय भी है conformal, लेकिन मुझे इसका उपयोग प्रतिगमन में विश्वास अंतराल के लिए भी किया जाता है: "अनुरूप अनुमानी रूपरेखा में भविष्यवाणी त्रुटियों की गणना की अनुमति देता है: (i) वर्गीकरण के लिए p.values, और प्रतिगमन पर (ii) विश्वास अंतराल। "

तो क्या कोई रास्ता है:

  1. किसी भी प्रतिगमन समस्याओं में प्रत्येक भविष्यवाणी के लिए आत्मविश्वास मूल्य प्राप्त करने के लिए?

  2. यदि कोई रास्ता नहीं है, तो क्या यह एक आत्मविश्वास स्कोर के रूप में प्रत्येक अवलोकन के लिए उपयोग करने के लिए सार्थक होगा:

    विश्वास अंतराल की ऊपरी और निचली सीमाओं के बीच की दूरी (उदाहरण के लिए उपरोक्त आउटपुट में)। तो, इस मामले में, व्यापक विश्वास अंतराल है, और अधिक अनिश्चितता है (लेकिन यह ध्यान में नहीं रखता है कि अंतराल में वास्तविक मूल्य कहां है)


1
randomForestCIस्टीफन दांव द्वारा पैकेज में देखो , और सुसान Athey के साथ संबद्ध कागज। ध्यान दें कि यह केवल CI प्रदान करता है 'लेकिन आप अवशिष्ट विचरण की गणना करके इससे एक पूर्वानुमान अंतराल बना सकते हैं।
जेनेरिक_युसर

जवाबों:


4

आप एक आत्मविश्वास स्कोर के रूप में जो उल्लेख कर रहे हैं, वह व्यक्तिगत भविष्यवाणियों में अनिश्चितता से प्राप्त किया जा सकता है (जैसे कि इसका उलटा लेने से)।

इस अनिश्चितता को कम करना हमेशा बैगिंग के साथ संभव था और यादृच्छिक जंगलों में अपेक्षाकृत सरल है - लेकिन ये अनुमान पक्षपाती थे। दांव एट अल। (2014) इन अनिश्चितताओं को और अधिक कुशलता से और कम पूर्वाग्रह के साथ प्राप्त करने के लिए दो प्रक्रियाओं का वर्णन किया। यह जैकनेफ-आफ्टर-बूटस्ट्रैप और इन्फिनिटिसिमल जैकनाइफ के पूर्वाग्रह-सही संस्करणों पर आधारित था। आप आर संकुल में कार्यान्वयन पा सकते हैं rangerऔर grf

हाल ही में, यह सशर्त विक्षेपण पेड़ों के साथ निर्मित यादृच्छिक जंगलों का उपयोग करके सुधार किया गया है। सिमुलेशन स्टडीज (ब्रोकैम्प एट अल 2018) के आधार पर, इन्फिनिटिसिमल जैकनाइफ अनुमानक अनुमानों में त्रुटि का अधिक सटीक अनुमान लगाता है जब यादृच्छिक जंगलों के निर्माण के लिए सशर्त आक्रमण पेड़ों का उपयोग किया जाता है। यह पैकेज में लागू किया गया है RFinfer


दांव, एस।, हस्ती, टी।, और एफ्रोन, बी (2014)। बेतरतीब जंगलों के लिए आत्मविश्वास का अंतराल: कटहल जर्नल ऑफ़ मशीन लर्निंग रिसर्च, 15 (1), 1625-1651।

ब्रोकैम्प, सी।, राव, एमबी, रेयान, पी।, और जंदरोव, आर। (2017)। अनन्ततामूलक जैकनाइफ का उपयोग करके असममित विचरण का अनुमान लगाने के लिए यादृच्छिक वन में पुनरुत्थान और पुनरावर्ती विभाजन विधियों की तुलना। स्टेट, 6 (1), 360-372।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.