मेरे पास आउटलेट्स की एक श्रृंखला के लिए बिक्री डेटा है, और समय के साथ उनके घटता के आकार के आधार पर उन्हें वर्गीकृत करना चाहते हैं। डेटा लगभग इस तरह दिखता है (लेकिन स्पष्ट रूप से यादृच्छिक नहीं है, और कुछ लापता डेटा है):
n.quarters <- 100
n.stores <- 20
if (exists("test.data")){
rm(test.data)
}
for (i in 1:n.stores){
interval <- runif(1, 1, 200)
new.df <- data.frame(
var0 = interval + c(0, cumsum(runif(49, -5, 5))),
date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters),
store = rep(paste("Store", i, sep=""), n.quarters))
if (exists("test.data")){
test.data <- rbind(test.data, new.df)
} else {
test.data <- new.df
}
}
test.data$store <- factor(test.data$store)
मैं जानना चाहता हूं कि आर में घटता के आकार के आधार पर मैं कैसे क्लस्टर कर सकता हूं। मैंने निम्नलिखित दृष्टिकोण पर विचार किया था:
- पूरे समय श्रृंखला के लिए 0.0 और 1.0 के बीच के मान को प्रत्येक स्टोर के var0 को रैखिक रूप से परिवर्तित करके एक नया कॉलम बनाएं।
- क्लस्टर इन परिवर्तित घटता R में
kml
पैकेज का उपयोग कर ।
मेरे दो सवाल हैं:
- क्या यह एक उचित खोजपूर्ण दृष्टिकोण है?
- मैं अपने डेटा को अनुदैर्ध्य डेटा प्रारूप में कैसे बदल सकता हूं जो
kml
समझ में आएगा? किसी भी आर स्निपेट बहुत सराहना की जाएगी!
kml
?