मैं मधुमेह का अनुमान लगाने के लिए एसवीएम का उपयोग कर रहा हूं। मैं इस उद्देश्य के लिए BRFSS डेटा सेट का उपयोग कर रहा हूं । डेटा सेट में का आयाम है और तिरछा है। लक्ष्य चर में s का प्रतिशत जबकि शेष गठन है ।11 % 89 %Y
मैं डेटा सेट से केवल स्वतंत्र चर 15
का उपयोग कर रहा हूं 136
। डेटा सेट को कम करने के कारणों में से एक में अधिक प्रशिक्षण के नमूने होने थे जब पंक्तियों NA
को छोड़ दिया गया था।
इन 15
चर का चयन सांख्यिकीय विधियों जैसे कि यादृच्छिक पेड़, लॉजिस्टिक प्रतिगमन और यह पता लगाने के बाद किया गया था कि परिणामी मॉडल से कौन से चर महत्वपूर्ण हैं। उदाहरण के लिए, लॉजिस्टिक रिग्रेशन चलाने के बाद हम p-value
सबसे महत्वपूर्ण चर ऑर्डर करते थे।
क्या परिवर्तनशील चयन करने की मेरी विधि सही है? किसी भी सुझाव का बहुत स्वागत है।
निम्नलिखित मेरा R
कार्यान्वयन है।
library(e1071) # Support Vector Machines
# read brfss file (huge 135 MB file)
y <- read.csv("http://www.hofroe.net/stat579/brfss%2009/brfss-2009-clean.csv")
indicator <- c("DIABETE2", "GENHLTH", "PERSDOC2", "SEX", "FLUSHOT3", "PNEUVAC3",
target <- "DIABETE2";
diabetes <- y[, indicator];
# recode DIABETE2
x <- diabetes$DIABETE2;
x[x > 1] <- 'N';
x[x != 'N'] <- 'Y';
diabetes$DIABETE2 <- x;
# remove NA
x <- na.omit(diabetes);
diabetes <- x;
# reproducible research
nsamples <- 1000;
sample.diabetes <- diabetes[sample(nrow(diabetes), nsamples), ];
# split the dataset into training and test
ratio <- 0.7;
train.samples <- ratio*nsamples;
train.rows <- c(sample(nrow(sample.diabetes), trunc(train.samples)));
train.set <- sample.diabetes[train.rows, ];
test.set <- sample.diabetes[-train.rows, ];
train.result <- train.set[ , which(names(train.set) == target)];
test.result <- test.set[ , which(names(test.set) == target)];
formula <- as.formula(factor(DIABETE2) ~ . );
svm.tune <- tune.svm(formula, data = train.set,
gamma = 10^(-3:0), cost = 10^(-1:1));
svm.model <- svm(formula, data = train.set,
kernel = "linear",
gamma = svm.tune$best.parameters$gamma,
cost = svm.tune$best.parameters$cost);
# Confusion matrix
train.pred <- predict(svm.model, train.set);
test.pred <- predict(svm.model, test.set);
svm.table <- table(pred = test.pred, true = test.result);
मैं (प्रशिक्षण = 700 और परीक्षण = 300 ) नमूनों के साथ भागा क्योंकि यह मेरे लैपटॉप में तेज है। परीक्षण डेटा ( 300 नमूने) के लिए भ्रम का मैट्रिक्स मुझे काफी बुरा लगता है।
pred N Y
N 262 38
Y 0 0
मुझे Y
कक्षा के लिए अपनी भविष्यवाणी में सुधार करने की आवश्यकता है । वास्तव में, मुझे जितना संभव हो उतना ही सटीक होना चाहिए, Y
भले ही मैं खराब प्रदर्शन करूं N
। वर्गीकरण की सटीकता में सुधार के लिए किसी भी सुझाव की बहुत सराहना की जाएगी।