एक data.table कॉलम में टेक्स्ट स्ट्रिंग को विभाजित करें

Question 1

मेरे पास एक स्क्रिप्ट है जो सीएसवी फ़ाइल से डेटा को एक में पढ़ता है data.tableऔर फिर एक कॉलम में कई नए कॉलमों में पाठ को विभाजित करता है। मैं वर्तमान में ऐसा करने के लिए lapplyऔर strsplitकार्यों का उपयोग कर रहा हूं । यहाँ एक उदाहरण है:

library("data.table")
df = data.table(PREFIX = c("A_B","A_C","A_D","B_A","B_C","B_D"),
                VALUE  = 1:6)
dt = as.data.table(df)

# split PREFIX into new columns
dt$PX = as.character(lapply(strsplit(as.character(dt$PREFIX), split="_"), "[", 1))
dt$PY = as.character(lapply(strsplit(as.character(dt$PREFIX), split="_"), "[", 2))

dt 
#    PREFIX VALUE PX PY
# 1:    A_B     1  A  B
# 2:    A_C     2  A  C
# 3:    A_D     3  A  D
# 4:    B_A     4  B  A
# 5:    B_C     5  B  C
# 6:    B_D     6  B  D

कॉलम के ऊपर के उदाहरण PREFIXमें दो नए कॉलम PXऔर PY"_" वर्ण पर विभाजित किया गया है ।

हालांकि यह ठीक काम करता है, मैं सोच रहा था कि क्या इस का उपयोग करने के लिए एक बेहतर (अधिक कुशल) तरीका है data.table। मेरे असली डेटासेट में> = 10M + पंक्तियाँ हैं, इसलिए समय / मेमोरी दक्षता वास्तव में महत्वपूर्ण हो जाती है।

अपडेट करें:

@ फ्रैंक के सुझाव के बाद मैंने एक बड़ा परीक्षण मामला बनाया और सुझाए गए आदेशों का उपयोग किया, लेकिन stringr::str_split_fixedमूल विधि की तुलना में बहुत अधिक समय लगता है।

library("data.table")
library("stringr")
system.time ({
    df = data.table(PREFIX = rep(c("A_B","A_C","A_D","B_A","B_C","B_D"), 1000000),
                    VALUE  = rep(1:6, 1000000))
    dt = data.table(df)
})
#   user  system elapsed 
#  0.682   0.075   0.758 

system.time({ dt[, c("PX","PY") := data.table(str_split_fixed(PREFIX,"_",2))] })
#    user  system elapsed 
# 738.283   3.103 741.674 

rm(dt)
system.time ( {
    df = data.table(PREFIX = rep(c("A_B","A_C","A_D","B_A","B_C","B_D"), 1000000),
                     VALUE = rep(1:6, 1000000) )
    dt = as.data.table(df)
})
#    user  system elapsed 
#   0.123   0.000   0.123 

# split PREFIX into new columns
system.time ({
    dt$PX = as.character(lapply(strsplit(as.character(dt$PREFIX), split="_"), "[", 1))
    dt$PY = as.character(lapply(strsplit(as.character(dt$PREFIX), split="_"), "[", 2))
})
#    user  system elapsed 
#  33.185   0.000  33.191

इसलिए इस str_split_fixedविधि में लगभग 20 गुना अधिक समय लगता है।

Question 2

अपडेट: संस्करण 1.9.6 (सेप 15 के रूप में सीआरएएन) से, हम tstrsplit()सीधे परिणाम प्राप्त करने के लिए फ़ंक्शन का उपयोग कर सकते हैं (और बहुत अधिक कुशल तरीके से):

require(data.table) ## v1.9.6+
dt[, c("PX", "PY") := tstrsplit(PREFIX, "_", fixed=TRUE)]
#    PREFIX VALUE PX PY
# 1:    A_B     1  A  B
# 2:    A_C     2  A  C
# 3:    A_D     3  A  D
# 4:    B_A     4  B  A
# 5:    B_C     5  B  C
# 6:    B_D     6  B  D

tstrsplit()मूल रूप से एक रैपर है transpose(strsplit()), जहां transpose()फ़ंक्शन, हाल ही में लागू किया गया है, एक सूची स्थानांतरित करता है। कृपया देखें ?tstrsplit()और ?transpose()उदाहरण के लिए।

पुराने उत्तरों के लिए इतिहास देखें।

Question 3

मैं किसी ऐसे व्यक्ति के लिए उत्तर जोड़ता हूं जो data.table v1.9.5 का उपयोग नहीं करता है और एक लाइन समाधान भी चाहता है।

dt[, c('PX','PY') := do.call(Map, c(f = c, strsplit(PREFIX, '-'))) ]

Question 4

splitstackshapeपैकेज का उपयोग :

library(splitstackshape)
cSplit(df, splitCols = "PREFIX", sep = "_", direction = "wide", drop = FALSE)
#    PREFIX VALUE PREFIX_1 PREFIX_2
# 1:    A_B     1        A        B
# 2:    A_C     2        A        C
# 3:    A_D     3        A        D
# 4:    B_A     4        B        A
# 5:    B_C     5        B        C
# 6:    B_D     6        B        D

Question 5

हम प्रयास कर सकते हैं:

cbind(dt, fread(text = dt$PREFIX, sep = "_", header = FALSE))
#    PREFIX VALUE V1 V2
# 1:    A_B     1  A  B
# 2:    A_C     2  A  C
# 3:    A_D     3  A  D
# 4:    B_A     4  B  A
# 5:    B_C     5  B  C
# 6:    B_D     6  B  D

Question 6

समाधान के साथ समाधान है:

separate(df,col = "PREFIX",into = c("PX", "PY"), sep = "_")