मुझे पहनावा क्लासिफायर का उपयोग कब नहीं करना चाहिए?


17

सामान्य तौर पर, एक वर्गीकरण समस्या में जहां लक्ष्य आउट-ऑफ-सैंपल क्लास सदस्यता की सटीक भविष्यवाणी करना है, मुझे एंबेडेड एम्पलीफायर का उपयोग कब नहीं करना चाहिए ?

यह प्रश्न निकट से संबंधित है कि हमेशा पहनावा सीखने का उपयोग क्यों न करें? । यह सवाल पूछता है कि हम हर समय पहनावा का उपयोग क्यों नहीं करते हैं। मैं यह जानना चाहता हूं कि क्या ऐसे मामले हैं जिनमें गैर-पहनावा के बराबर की तुलना में पहनावा खराब होता है (न कि सिर्फ "बेहतर और समय की बर्बादी")।

और "कलाकारों की टुकड़ी के द्वारा" मैं विशेष रूप से AdaBoost और यादृच्छिक जंगलों जैसे classifiers की बात कर रहा हूं, उदाहरण के लिए, रोल-योर-ही-बूस्टेड सपोर्ट वेक्टर मशीन के विपरीत।


2
यदि आप व्यक्तिगत विधियों के बीच विविधता नहीं रखते हैं तो मैं पहनावा विधियों का उपयोग नहीं करूंगा। दूसरे शब्दों में, पहनावा तब उपयोगी होता है जब आप विभिन्न तरीकों के सेट को जोड़ते हैं।
फोरकास्टर

2
@forecaster मैं क्या लेखकों "अच्छा" और "बुरा" विविधता फोन के बारे में बहुत अच्छा कागज जोड़ने के लिए मदद नहीं कर सका pages.bangor.ac.uk/~mas00a/papers/gblkMCS10.pdf टुकड़ियों के संदर्भ में
Vladislavs Dovgalecs

@xeon अच्छा लेख। मशीन सीखने के तरीकों की परवाह किए बिना यह यादृच्छिक वन या पहनावा (संयोजन) विभिन्न तरीकों से होना चाहिए, विविधता निश्चित रूप से मदद करती है। इसके पीछे मजबूत सिद्धांत है और यह कहा जाता है और बी मैं एल जी मैं एक एल एल वाई मैं एन एस पी मैं r डीnटीयूआरमैंएलजीमैंसीएलएलy मैंnरोंपीमैंआर
फोरकास्टर

जवाबों:


7

वह मॉडल जो सही डेटा जनरेट करने की प्रक्रिया के सबसे करीब है, हमेशा सबसे अच्छा रहेगा और अधिकांश पहनावा तरीकों को हरा देगा। इसलिए यदि डेटा एक रैखिक प्रक्रिया lm () से आता है तो यादृच्छिक जंगलों से बहुत बेहतर होगा, उदाहरण के लिए:

    set.seed(1234)
p=10
N=1000
#covariates
x = matrix(rnorm(N*p),ncol=p)
#coefficients:
b = round(rnorm(p),2)
y = x %*% b + rnorm(N)
train=sample(N, N/2)
data = cbind.data.frame(y,x)
colnames(data) = c("y", paste0("x",1:p))
#linear model
fit1 = lm(y ~ ., data = data[train,])
summary(fit1)
yPred1 =predict(fit1,data[-train,])
round(mean(abs(yPred1-data[-train,"y"])),2)#0.79

library(randomForest)
fit2 = randomForest(y ~ ., data = data[train,],ntree=1000)
yPred2 =predict(fit2,data[-train,])
round(mean(abs(yPred2-data[-train,"y"])),2)#1.33

13

जब आपके मॉडल को व्याख्यात्मक और व्याख्या करने की आवश्यकता होती है, तो मैं एक कलाकारों की टुकड़ी का उपयोग करने की अनुशंसा नहीं करता हूं। कभी-कभी आपको भविष्यवाणियों की व्याख्या और स्पष्टीकरण की आवश्यकता होती है ।

जब आपको लोगों को यह समझाने की आवश्यकता होती है कि भविष्यवाणियां विश्वास करने योग्य हैं, तो एक बहुत ही सटीक मॉडल बहुत प्रेरक हो सकता है, लेकिन मैंने लोगों को भविष्यवाणियों पर कार्रवाई करने के लिए समझाने के लिए संघर्ष किया है जब विधियां उनके आराम स्तर के लिए बहुत जटिल हैं।

मेरे अनुभव में, ज्यादातर लोग रैखिक एडिटिव मॉडल के साथ सहज होते हैं, वे मॉडल जो वे हाथ से स्कोर कर सकते थे, और यदि आप अनुकूली बूस्टिंग, हाइपर-प्लेन और 5 वें स्तर के इंटरैक्शन प्रभाव को समझाने की कोशिश करते हैं तो वे जवाब देंगे जैसे कि आप उन्हें काला जादू कर रहे हैं।

दूसरी ओर, लोग मॉडल की जटिलता के साथ सहज हो सकते हैं, लेकिन फिर भी कुछ अंतर्दृष्टि को आंतरिक करना चाहते हैं। उदाहरण के लिए, वैज्ञानिक ब्लैक-बॉक्स मॉडल को मानव ज्ञान में अग्रिम नहीं मान सकते, भले ही मॉडल अत्यधिक सटीक हो।

परिवर्तनीय महत्व विश्लेषण अंतर्दृष्टि के साथ मदद कर सकता है, लेकिन अगर पहनावा एक रैखिक एडिटिव मॉडल की तुलना में अधिक सटीक है, तो पहनावा शायद कुछ गैर-रैखिक और इंटरैक्शन प्रभाव का शोषण कर रहा है जो चर महत्व के विश्लेषण के लिए पूरी तरह से जिम्मेदार नहीं हो सकता है।


मैं उसके बाद नहीं था, लेकिन अच्छे अंक। +1
छायाकार

3

मैं ब्रांको के जवाब में जोड़ना चाहूंगा। पहनावा अत्यधिक प्रतिस्पर्धी हो सकता है और बहुत अच्छे परिणाम प्रदान कर सकता है। उदाहरण के लिए शिक्षाविदों में, यही मायने रखता है। उद्योग में, पहनावे को लागू करने / बनाए रखने / संशोधित करने / पोर्ट के लिए बहुत मुश्किल हो सकता है। "डार्क नॉलेज" पर गोफ हिंटन का काम ठीक इसके बारे में है: कैसे एक बड़े पहनावा के "ज्ञान" को एक मॉडल में स्थानांतरित करने के लिए आसान तरीके से स्थानांतरित किया जाए। उन्होंने कहा कि पहनावा परीक्षण के समय खराब होता है: वे अतिरेकपूर्ण होते हैं और गणना समय चिंता का विषय हो सकता है।

उनकी टीम को कुछ दिलचस्प परिणाम मिले, मैं उनके प्रकाशनों या कम से कम स्लाइड्स की जांच करने का सुझाव देता हूं। अगर मेरी याददाश्त अच्छी है, तो यह 2013 या 2014 के गर्म विषयों में से एक था।

डार्क नॉलेज के बारे में स्लाइड्स यहां देखे जा सकते हैं: http://www.ttic.edu/dl/dark14.pdf

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.