समूह द्वारा शीर्ष मान प्राप्त करना


93

यहां एक नमूना डेटा फ़्रेम दिया गया है:

d <- data.frame(
  x   = runif(90),
  grp = gl(3, 30)
) 

मैं प्रत्येक मूल्य के लिए dशीर्ष 5 मानों वाली पंक्तियों को शामिल करना चाहता हूं ।xgrp

बेस-आर का उपयोग, मेरा दृष्टिकोण कुछ इस तरह होगा:

ordered <- d[order(d$x, decreasing = TRUE), ]    
splits <- split(ordered, ordered$grp)
heads <- lapply(splits, head)
do.call(rbind, heads)
##              x grp
## 1.19 0.8879631   1
## 1.4  0.8844818   1
## 1.12 0.8596197   1
## 1.26 0.8481809   1
## 1.18 0.8461516   1
## 1.29 0.8317092   1
## 2.31 0.9751049   2
## 2.34 0.9269764   2
## 2.57 0.8964114   2
## 2.58 0.8896466   2
## 2.45 0.8888834   2
## 2.35 0.8706823   2
## 3.74 0.9884852   3
## 3.73 0.9837653   3
## 3.83 0.9375398   3
## 3.64 0.9229036   3
## 3.69 0.8021373   3
## 3.86 0.7418946   3

उपयोग करते हुए dplyr, मुझे उम्मीद है कि यह काम करेगा:

d %>%
  arrange_(~ desc(x)) %>%
  group_by_(~ grp) %>%
  head(n = 5)

लेकिन यह केवल समग्र शीर्ष 5 पंक्तियों को लौटाता है।

अदला-बदली headके लिए top_nरिटर्न के पूरे d

d %>%
  arrange_(~ desc(x)) %>%
  group_by_(~ grp) %>%
  top_n(n = 5)

मुझे सही सबसेट कैसे मिलेगा?

जवाबों:


126

से 1.0.0 dplyr , " slice_min()और slice_max()कम से कम या एक चर की अधिकतम मूल्यों के साथ पंक्तियों का चयन करें, भ्रामक से इसे लेते हुए top_n()."

d %>% group_by(grp) %>% slice_max(order_by = x, n = 5)
# # A tibble: 15 x 2
# # Groups:   grp [3]
#     x grp  
# <dbl> <fct>
#  1 0.994 1    
#  2 0.957 1    
#  3 0.955 1    
#  4 0.940 1    
#  5 0.900 1    
#  6 0.963 2    
#  7 0.902 2    
#  8 0.895 2    
#  9 0.858 2    
# 10 0.799 2    
# 11 0.985 3    
# 12 0.893 3    
# 13 0.886 3    
# 14 0.815 3    
# 15 0.812 3

पूर्व dplyr 1.0.0का उपयोग कर top_n:

से ?top_n, के बारे में wtतर्क:

आदेश देने के लिए उपयोग करने वाला चर [...] tbl में अंतिम चर के लिए चूक "।

आपके डेटा सेट में अंतिम चर "जीआरपी" है, जो वह वैरिएबल नहीं है जिसे आप रैंक करना चाहते हैं, और यही कारण है कि आपका top_nप्रयास "संपूर्ण डी" लौटाता है। इस प्रकार, यदि आप अपने डेटा सेट में "x" द्वारा रैंक करना चाहते हैं, तो आपको निर्दिष्ट करने की आवश्यकता है wt = x

d %>%
  group_by(grp) %>%
  top_n(n = 5, wt = x)

डेटा:

set.seed(123)
d <- data.frame(
  x = runif(90),
  grp = gl(3, 30))

7
वहाँ वैसे भी संबंधों की अनदेखी है?
मटियास गुज़मैन नारंजो


41

बहुत आसान के साथ data.table...

library(data.table)
setorder(setDT(d), -x)[, head(.SD, 5), keyby = grp]

या

setorder(setDT(d), grp, -x)[, head(.SD, 5), by = grp]

या (बड़े डेटा सेट के लिए तेज़ होना चाहिए क्योंकि .SDप्रत्येक समूह के लिए कॉल करने से बचना चाहिए )

setorder(setDT(d), grp, -x)[, indx := seq_len(.N), by = grp][indx <= 5]

संपादित करें: यहाँ है कैसे dplyrकी तुलना data.table(यदि किसी की रुचि)

set.seed(123)
d <- data.frame(
  x   = runif(1e6),
  grp = sample(1e4, 1e6, TRUE))

library(dplyr)
library(microbenchmark)
library(data.table)
dd <- copy(d)

microbenchmark(
  top_n = {d %>%
             group_by(grp) %>%
             top_n(n = 5, wt = x)},
  dohead = {d %>%
              arrange_(~ desc(x)) %>%
              group_by_(~ grp) %>%
              do(head(., n = 5))},
  slice = {d %>%
             arrange_(~ desc(x)) %>%
             group_by_(~ grp) %>%
             slice(1:5)},
  filter = {d %>% 
              arrange(desc(x)) %>%
              group_by(grp) %>%
              filter(row_number() <= 5L)},
  data.table1 = setorder(setDT(dd), -x)[, head(.SD, 5L), keyby = grp],
  data.table2 = setorder(setDT(dd), grp, -x)[, head(.SD, 5L), grp],
  data.table3 = setorder(setDT(dd), grp, -x)[, indx := seq_len(.N), grp][indx <= 5L],
  times = 10,
  unit = "relative"
)


#        expr        min         lq      mean     median        uq       max neval
#       top_n  24.246401  24.492972 16.300391  24.441351 11.749050  7.644748    10
#      dohead 122.891381 120.329722 77.763843 115.621635 54.996588 34.114738    10
#       slice  27.365711  26.839443 17.714303  26.433924 12.628934  7.899619    10
#      filter  27.755171  27.225461 17.936295  26.363739 12.935709  7.969806    10
# data.table1  13.753046  16.631143 10.775278  16.330942  8.359951  5.077140    10
# data.table2  12.047111  11.944557  7.862302  11.653385  5.509432  3.642733    10
# data.table3   1.000000   1.000000  1.000000   1.000000  1.000000  1.000000    10

थोड़ा तेज data.tableसमाधान जोड़ना :

set.seed(123L)
d <- data.frame(
    x   = runif(1e8),
    grp = sample(1e4, 1e8, TRUE))
setDT(d)
setorder(d, grp, -x)
dd <- copy(d)

library(microbenchmark)
microbenchmark(
    data.table3 = d[, indx := seq_len(.N), grp][indx <= 5L],
    data.table4 = dd[dd[, .I[seq_len(.N) <= 5L], grp]$V1],
    times = 10L
)

समय उत्पादन:

Unit: milliseconds
        expr      min       lq     mean   median        uq      max neval
 data.table3 826.2148 865.6334 950.1380 902.1689 1006.1237 1260.129    10
 data.table4 729.3229 783.7000 859.2084 823.1635  966.8239 1014.397    10

एक और data.tableतरीका जोड़ना जो थोड़ा तेज होना चाहिए:dt <- setorder(setDT(dd), grp, -x); dt[dt[, .I[seq_len(.N) <= 5L], grp]$V1]
chinsoon12

@ chinsoon12 मेरे मेहमान बनें। मेरे पास इन समाधानों को फिर से बेंचमार्क करने का समय नहीं है।
डेविड अर्नबर्ग

एक और data.tableतरीका आसान जोड़ना :setDT(d)[order(-x),x[1:5],keyby = .(grp)]
ताओ हू

@ ताओहु यह पहले दो समाधानों की तरह बहुत सुंदर है। मुझे नहीं लगता कि :हरा होगाhead
डेविड Arenburg

@DavidArenburg हाँ av मैं आपसे सहमत हूँ, मुझे लगता है कि सबसे अधिक अंतर इससे भी setorderतेज हैorder
ताओ हू

34

आपको headकॉल करने के लिए लपेटना होगा do। निम्नलिखित कोड में, .वर्तमान समूह का प्रतिनिधित्व करता है ( सहायता पृष्ठ ...में विवरण देखें do)।

d %>%
  arrange_(~ desc(x)) %>%
  group_by_(~ grp) %>%
  do(head(., n = 5))

जैसा कि अक्रुन द्वारा उल्लेख किया गया है, sliceएक विकल्प है।

d %>%
  arrange_(~ desc(x)) %>%
  group_by_(~ grp) %>%
  slice(1:5)

हालाँकि मैंने यह नहीं पूछा था, पूर्णता के लिए, एक संभावित data.tableसंस्करण है (फिक्स के लिए @Arun के लिए धन्यवाद):

setDT(d)[order(-x), head(.SD, 5), by = grp]

1
@akrun धन्यवाद। मुझे उस फंक्शन के बारे में नहीं पता था।
रिची कॉटन

@DavidArenburg धन्यवाद। जल्दबाजी में जवाब पोस्ट करने की बात आती है। मैंने बकवास हटा दी है।
रिची कॉटन

2
रिची, एफडब्ल्यूआईडब्ल्यू आपको बस एक छोटे से अतिरिक्त की आवश्यकता है:setDT(d)[order(-x), head(.SD, 5L), by=grp]
अरुण

यह उत्तर थोड़ा पुराना है, लेकिन दूसरा भाग अगर आप को छोड़ दें ~और उपयोग करें arrangeऔर group_byइसके बजाय और उपयोग करेंarrange_group_by_
Moody_Mudskipper

15

बेस आर में मेरा दृष्टिकोण होगा:

ordered <- d[order(d$x, decreasing = TRUE), ]
ordered[ave(d$x, d$grp, FUN = seq_along) <= 5L,]

और dplyr का उपयोग करते हुए, sliceसंभवतया सबसे तेज़ है, लेकिन आप यह भी उपयोग कर सकते हैं filterजो संभवतः उपयोग करने की तुलना में तेज़ होगा do(head(., 5)):

d %>% 
  arrange(desc(x)) %>%
  group_by(grp) %>%
  filter(row_number() <= 5L)

dplyr बेंचमार्क

set.seed(123)
d <- data.frame(
  x   = runif(1e6),
  grp = sample(1e4, 1e6, TRUE))

library(microbenchmark)

microbenchmark(
  top_n = {d %>%
             group_by(grp) %>%
             top_n(n = 5, wt = x)},
  dohead = {d %>%
              arrange_(~ desc(x)) %>%
              group_by_(~ grp) %>%
              do(head(., n = 5))},
  slice = {d %>%
             arrange_(~ desc(x)) %>%
             group_by_(~ grp) %>%
             slice(1:5)},
  filter = {d %>% 
              arrange(desc(x)) %>%
              group_by(grp) %>%
              filter(row_number() <= 5L)},
  times = 10,
  unit = "relative"
)

Unit: relative
   expr       min        lq    median        uq       max neval
  top_n  1.042735  1.075366  1.082113  1.085072  1.000846    10
 dohead 18.663825 19.342854 19.511495 19.840377 17.433518    10
  slice  1.000000  1.000000  1.000000  1.000000  1.000000    10
 filter  1.048556  1.044113  1.042184  1.180474  1.053378    10

@akrun filterको एक अतिरिक्त फ़ंक्शन की आवश्यकता होती है, जबकि आपका sliceसंस्करण नहीं ...
डेविड अरेनबर्ग

1
आप जानते हैं कि आपने data.tableयहां क्यों नहीं जोड़ा ;)
डेविड अर्नबर्ग

5
मुझे यह पता है और मैं आपको बता सकता हूं: क्योंकि सवाल विशेष रूप से एक दुस्साहसी समाधान के लिए पूछ रहा था।
तात

1
मैं सिर्फ मजाक कर रहा था ... ऐसा नहीं है कि आपने कभी ऐसा नहीं किया (सिर्फ विपरीत डाइरेक्टॉन पर)।
डेविड ऐरनबर्ग

@DavidArenburg, मैं यह नहीं कह रहा था कि यह "गैरकानूनी" है या डेटाटेबल जवाब देने के लिए कुछ भी है। निश्चित रूप से आप ऐसा कर सकते हैं और आपको कोई भी बेंचमार्क प्रदान कर सकते हैं :) Btw, आपके द्वारा जोड़ा गया प्रश्न एक अच्छा उदाहरण है जहां dplyr सिंटैक्स डेटा की तुलना में अधिक सुविधाजनक है (मुझे पता है, व्यक्तिपरक!)।
ताल

1

top_n (n = 1) अभी भी प्रत्येक समूह के लिए कई पंक्तियाँ लौटाएगा यदि प्रत्येक समूह के भीतर क्रम चर अद्वितीय नहीं है। प्रत्येक समूह के लिए ठीक एक घटना का चयन करने के लिए, प्रत्येक पंक्ति में एक अद्वितीय चर जोड़ें:

set.seed(123)
d <- data.frame(
  x   = runif(90),
  grp = gl(3, 30))

d %>%
  mutate(rn = row_number()) %>% 
  group_by(grp) %>%
  top_n(n = 1, wt = rn)

0

data.tableइसके संक्षिप्त वाक्य-विन्यास को उजागर करने के लिए एक और उपाय:

setDT(d)
d[order(-x), .SD[1:5], grp]
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.