मेरे पास एक ऑनलाइन सर्वेक्षण से डेटा है जहां उत्तरदाता 1-3 बार प्रश्नों के एक लूप से गुजरते हैं। सर्वेक्षण सॉफ्टवेयर (Qualtrics) एकाधिक स्तंभों-वह यह है कि यह डेटा रिकॉर्ड करता है, सर्वेक्षण में Q3.2 कॉलम होगा Q3.2.1.
, Q3.2.2.
और Q3.2.3.
:
df <- data.frame(
id = 1:10,
time = as.Date('2009-01-01') + 0:9,
Q3.2.1. = rnorm(10, 0, 1),
Q3.2.2. = rnorm(10, 0, 1),
Q3.2.3. = rnorm(10, 0, 1),
Q3.3.1. = rnorm(10, 0, 1),
Q3.3.2. = rnorm(10, 0, 1),
Q3.3.3. = rnorm(10, 0, 1)
)
# Sample data
id time Q3.2.1. Q3.2.2. Q3.2.3. Q3.3.1. Q3.3.2. Q3.3.3.
1 1 2009-01-01 -0.2059165 -0.29177677 -0.7107192 1.52718069 -0.4484351 -1.21550600
2 2 2009-01-02 -0.1981136 -1.19813815 1.1750200 -0.40380049 -1.8376094 1.03588482
3 3 2009-01-03 0.3514795 -0.27425539 1.1171712 -1.02641801 -2.0646661 -0.35353058
...
मैं सभी QN.N * कॉलम को अलग-अलग QN.N कॉलम में संयोजित करना चाहता हूं, अंत में कुछ इस तरह से समाप्त करता हूं:
id time loop_number Q3.2 Q3.3
1 1 2009-01-01 1 -0.20591649 1.52718069
2 2 2009-01-02 1 -0.19811357 -0.40380049
3 3 2009-01-03 1 0.35147949 -1.02641801
...
11 1 2009-01-01 2 -0.29177677 -0.4484351
12 2 2009-01-02 2 -1.19813815 -1.8376094
13 3 2009-01-03 2 -0.27425539 -2.0646661
...
21 1 2009-01-01 3 -0.71071921 -1.21550600
22 2 2009-01-02 3 1.17501999 1.03588482
23 3 2009-01-03 3 1.11717121 -0.35353058
...
tidyr
पुस्तकालय है gather()
समारोह है, जो के संयोजन के लिए अच्छा काम करता है एक कॉलम के सेट:
library(dplyr)
library(tidyr)
library(stringr)
df %>% gather(loop_number, Q3.2, starts_with("Q3.2")) %>%
mutate(loop_number = str_sub(loop_number,-2,-2)) %>%
select(id, time, loop_number, Q3.2)
id time loop_number Q3.2
1 1 2009-01-01 1 -0.20591649
2 2 2009-01-02 1 -0.19811357
3 3 2009-01-03 1 0.35147949
...
29 9 2009-01-09 3 -0.58581232
30 10 2009-01-10 3 -2.33393981
परिणामी डेटा फ़्रेम में 30 पंक्तियाँ हैं, जैसा कि अपेक्षित (10 व्यक्ति, 3 लूप प्रत्येक)। हालाँकि, स्तंभों के दूसरे सेट को इकट्ठा करने से सही तरीके से काम नहीं होता है - यह दो संयुक्त स्तंभों को सफलतापूर्वक बनाता है Q3.2
और Q3.3
, 30 की बजाय 90 पंक्तियों के साथ समाप्त होता है (10 व्यक्तियों के सभी संयोजन, Q3.2 के 3 छोरों, और Q3 के 3 छोरों .3; वास्तविक डेटा में कॉलम के प्रत्येक समूह के लिए संयोजन में काफी वृद्धि होगी):
df %>% gather(loop_number, Q3.2, starts_with("Q3.2")) %>%
gather(loop_number, Q3.3, starts_with("Q3.3")) %>%
mutate(loop_number = str_sub(loop_number,-2,-2))
id time loop_number Q3.2 Q3.3
1 1 2009-01-01 1 -0.20591649 1.52718069
2 2 2009-01-02 1 -0.19811357 -0.40380049
3 3 2009-01-03 1 0.35147949 -1.02641801
...
89 9 2009-01-09 3 -0.58581232 -0.13187024
90 10 2009-01-10 3 -2.33393981 -0.48502131
क्या इस तरह से कई कॉल का उपयोग करने का एक तरीका है gather()
, पंक्तियों की सही संख्या को बनाए रखते हुए इस तरह से कॉलम के छोटे सबसेट को जोड़ना?
seperate()
Q3.3 को विभाजित करने के लिए कॉल के कुछ प्रकार को शामिल करता हूं (और परे) मूल्यों को अपने स्वयं के कॉलम में। लेकिन यह अभी भी एक सच में राउंडअबाउट हैकी समाधान की तरह लगता है ...
spread
मैं अब एक समाधान पर काम कर रहा हूँ: पी
df %>% gather(question_number, Q3.2, starts_with("Q3.")) %>% mutate(loop_number = str_sub(question_number,-2,-2), question_number = str_sub(question_number,1,4)) %>% select(id, time, loop_number, question_number, Q3.2) %>% spread(key = question_number, value = Q3.2)
spread()
। हालाँकि कई कॉल्स अपरिहार्य प्रतीत होते हैं, फिर चाहे वह generate()
उस काम का एक गुच्छा हो या नेस्टेड spread()
एस ...
df %>% gather(loop_number, Q3.2, starts_with("Q3."))