xgboost: हाल के नमूनों को अधिक महत्व दें


22

क्या उन बिंदुओं पर अधिक महत्व जोड़ने का एक तरीका है जो xgboost के साथ डेटा का विश्लेषण करते समय अधिक हाल के हैं?

जवाबों:


9

आप कई xgboost मॉडल बनाने की कोशिश कर सकते हैं, उनमें से कुछ अधिक हालिया डेटा तक सीमित हैं, फिर उन परिणामों को एक साथ जोड़कर। एक अन्य विचार एक स्वनिर्धारित मूल्यांकन मीट्रिक बनाना होगा जो हाल के बिंदुओं को अधिक भारी दंडित करता है जो उन्हें अधिक महत्व देगा।


4
ओपी बस अधिक से अधिक हाल ही में टिप्पणियों के लिए उच्च नमूना वजन दे सकते हैं। अधिकांश पैकेज इसकी अनुमति देते हैं, जैसा कि xgboost करता है।
रिकार्डो क्रूज़

30

बस अपने समय लेबल के आधार पर वेट को अपने xgb.DMatrix में जोड़ें। निम्नलिखित उदाहरण आर में लिखा गया है लेकिन पायथन या जूलिया पर एक ही सिद्धांत xgboost पर लागू होता है।

data <- data.frame(feature = rep(5, 5),
                   year = seq(2011, 2015), 
                   target = c(1, 0, 1, 0, 0))
weightsData <- 1 + (data$year - max(data$year)) * 5 * 0.01

#Now create the xgboost matrix with your data and weights
xgbMatrix <- xgb.DMatrix(as.matrix(data$feature), 
                         label = data$target, 
                         weight = weightsData)

आपके उत्तर के लिए धन्यवाद - एक कोडित उदाहरण देखने के लिए वास्तव में उपयोगी। वेटिंग फ़ंक्शन गुणांक का परिमाण मॉडल को कैसे प्रभावित करता है? मैंने xgboost डॉक्स के माध्यम से देखा, लेकिन मैं इन संख्यात्मक मूल्यों के महत्व के बारे में जानकारी नहीं पा सकता हूं।
किलोजूल

इस चाल को नहीं जानता था, अच्छा। समारोह के तहत xgboost डॉक्टर में एक छोटा सा tidbit है setinfo(), हालांकि इसकी बहुत वर्णनात्मक नहीं है
TBSRounder

12

पायथन पर आपके पास एक अच्छा स्किटिट-लर्न रैपर है, इसलिए आप इस तरह से लिख सकते हैं:

import xgboost as xgb
exgb_classifier = xgb.XGBClassifier()
exgb_classifier.fit(X, y, sample_weight=sample_weights_data)

अधिक जानकारी आप इससे प्राप्त कर सकते हैं: http://xgboost.readthedocs.io/en/latest/python/python_api.html#xgboost.XGBClassifier.fit


विश के लिए आर कैरेट ने इसे भी बनाया था ..
पाउलजेबा

1
यह xgb.XGBClassifier()कोड की दूसरी पंक्ति में होना चाहिए , लेकिन स्टेक्सएक्सचेंज छह वर्णों से कम के संपादन की अनुमति नहीं देता ...
आंद्रे होल्ज़नर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.