के बाद से इंटरफ़ेस करने के लिए xgboost
में caret
हाल ही में बदल गया है, यहाँ एक स्क्रिप्ट है कि का उपयोग करने का एक पूरी तरह से टिप्पणी की पूर्वाभ्यास प्रदान करता है caret
धुन पर xgboost
अति मानकों।
इसके लिए, मैं कैगल प्रतियोगिता "गिव मी सम क्रेडिट" से प्रशिक्षण डेटा का उपयोग करूंगा ।
1. एक xgboost
मॉडल फिटिंग
इस अनुभाग में, हम:
xgboost
मनमाने ढंग से हाइपरपैरामीटर के साथ एक मॉडल फिट करें
- क्रॉस-वेलिडेशन (
xgb.cv
) का उपयोग करके नुकसान (एयूसी-आरओसी) का मूल्यांकन करें
- प्रशिक्षण बनाम परीक्षण मूल्यांकन मीट्रिक की साजिश रचें
ऐसा करने के लिए यहां कुछ कोड दिया गया है।
library(caret)
library(xgboost)
library(readr)
library(dplyr)
library(tidyr)
# load in the training data
df_train = read_csv("04-GiveMeSomeCredit/Data/cs-training.csv") %>%
na.omit() %>% # listwise deletion
select(-`[EMPTY]`) %>%
mutate(SeriousDlqin2yrs = factor(SeriousDlqin2yrs, # factor variable for classification
labels = c("Failure", "Success")))
# xgboost fitting with arbitrary parameters
xgb_params_1 = list(
objective = "binary:logistic", # binary classification
eta = 0.01, # learning rate
max.depth = 3, # max tree depth
eval_metric = "auc" # evaluation/loss metric
)
# fit the model with the arbitrary parameters specified above
xgb_1 = xgboost(data = as.matrix(df_train %>%
select(-SeriousDlqin2yrs)),
label = df_train$SeriousDlqin2yrs,
params = xgb_params_1,
nrounds = 100, # max number of trees to build
verbose = TRUE,
print.every.n = 1,
early.stop.round = 10 # stop if no improvement within 10 trees
)
# cross-validate xgboost to get the accurate measure of error
xgb_cv_1 = xgb.cv(params = xgb_params_1,
data = as.matrix(df_train %>%
select(-SeriousDlqin2yrs)),
label = df_train$SeriousDlqin2yrs,
nrounds = 100,
nfold = 5, # number of folds in K-fold
prediction = TRUE, # return the prediction using the final model
showsd = TRUE, # standard deviation of loss across folds
stratified = TRUE, # sample is unbalanced; use stratified sampling
verbose = TRUE,
print.every.n = 1,
early.stop.round = 10
)
# plot the AUC for the training and testing samples
xgb_cv_1$dt %>%
select(-contains("std")) %>%
mutate(IterationNum = 1:n()) %>%
gather(TestOrTrain, AUC, -IterationNum) %>%
ggplot(aes(x = IterationNum, y = AUC, group = TestOrTrain, color = TestOrTrain)) +
geom_line() +
theme_bw()
यहाँ परीक्षण बनाम प्रशिक्षण AUC जैसा दिखता है:
2. हाइपरपरमेटर खोज का उपयोग करना train
हाइपरपैरमीटर खोज के लिए, हम निम्नलिखित चरण करते हैं:
data.frame
हम जिन मापदंडों के लिए प्रशिक्षित मॉडल चाहते हैं, उनके अनूठे संयोजन बनाएं ।
- क्रॉस-वेलिडेशन मापदंडों सहित प्रत्येक मॉडल के प्रशिक्षण पर लागू होने वाले नियंत्रण मापदंडों को निर्दिष्ट करें, और निर्दिष्ट करें कि संभावनाओं की गणना की जानी चाहिए ताकि AUC की गणना की जा सके
- प्रत्येक पैरामीटर के लिए AUC को सहेजते हुए, प्रत्येक पैरामीटर संयोजन के लिए मॉडल को क्रॉस-मान्य करें और प्रशिक्षित करें।
यहाँ कुछ कोड है जो दिखाता है कि यह कैसे करना है।
# set up the cross-validated hyper-parameter search
xgb_grid_1 = expand.grid(
nrounds = 1000,
eta = c(0.01, 0.001, 0.0001),
max_depth = c(2, 4, 6, 8, 10),
gamma = 1
)
# pack the training control parameters
xgb_trcontrol_1 = trainControl(
method = "cv",
number = 5,
verboseIter = TRUE,
returnData = FALSE,
returnResamp = "all", # save losses across all models
classProbs = TRUE, # set to TRUE for AUC to be computed
summaryFunction = twoClassSummary,
allowParallel = TRUE
)
# train the model for each parameter combination in the grid,
# using CV to evaluate
xgb_train_1 = train(
x = as.matrix(df_train %>%
select(-SeriousDlqin2yrs)),
y = as.factor(df_train$SeriousDlqin2yrs),
trControl = xgb_trcontrol_1,
tuneGrid = xgb_grid_1,
method = "xgbTree"
)
# scatter plot of the AUC against max_depth and eta
ggplot(xgb_train_1$results, aes(x = as.factor(eta), y = max_depth, size = ROC, color = ROC)) +
geom_point() +
theme_bw() +
scale_size_continuous(guide = "none")
अंत में, आप AUC की विविधताओं के लिए बबलपॉट बना सकते हैं eta
और max_depth
: