dantonnoriega/random-datatable-if_any-testing.R

## random-datatable-if_any-testing.R
library(tidyverse)
dat <- as_tibble(mtcars) %>%
  mutate(vs = as.character(vs),
         am = as.character(am)) #just to make some non-numeric
dd0 <- dat %>%
  select(where(is_numeric)) %>%
  filter(if_any(disp:wt, ~ .x > 100))
dd0

library(data.table)
dd  = data.table::as.data.table(dat)
rdx = dd[, .SD, .SDcols = is.numeric]
# Reduce lists using vectorized "or" ('|')
ii = rdx[, Reduce('|', lapply(.SD, '>', 100)), .SDcols = disp:wt]
## keep where any true
dd1 = rdx[ii]
identical(setDT(dd0), dd1)
# all at once
rdx[rdx[, Reduce('|', lapply(.SD, '>', 100)), .SDcols = disp:wt]]

# benchmark
library(data.table)
set.seed(1000)
n_m = expand.grid(n = c(3,12), m = c(2.5,100)*1e4)
#
results = mapply(function(n,m) {
  my.df <- sample(1:80, m*n, replace=TRUE)
  dim(my.df) <- c(m,n)
  my.df <- as.data.frame(my.df)
  names(my.df) <- c(LETTERS,letters)[1:n]
  my.dt <- as.data.table(my.df)
  bench::mark(
    # using Reduce with lapply()
    tm1 = my.dt[my.dt[, Reduce('|', lapply(.SD, '>', 75))]],
    # using rowSums
    tm2 = my.dt[rowSums(my.dt[, lapply(.SD, '>', 75)]) > 0],
    # using apply with any()
    tm3 = my.dt[apply(my.dt[, lapply(.SD, '>', 75)], 1, any)],
    # dtplyr
    tm4 = my.dt %>% dplyr::filter(if_any(.fns = ~ .x > 75)),
    iterations=30L,
    time_unit = 's'
  ) %>%
    dplyr::mutate(n = n, m = m)
}, n = n_m$n, m = n_m$m, SIMPLIFY = FALSE)

dplyr::bind_rows(results) %>%
	dplyr::select(n, m, expression, median,
    total_time, `itr/sec`, mem_alloc,
    n_itr, n_gc)
	library(tidyverse)
	dat <- as_tibble(mtcars) %>%
	mutate(vs = as.character(vs),
	am = as.character(am)) #just to make some non-numeric
	dd0 <- dat %>%
	select(where(is_numeric)) %>%
	filter(if_any(disp:wt, ~ .x > 100))
	dd0

	library(data.table)
	dd = data.table::as.data.table(dat)
	rdx = dd[, .SD, .SDcols = is.numeric]
	# Reduce lists using vectorized "or" ('\|')
	ii = rdx[, Reduce('\|', lapply(.SD, '>', 100)), .SDcols = disp:wt]
	## keep where any true
	dd1 = rdx[ii]
	identical(setDT(dd0), dd1)
	# all at once
	rdx[rdx[, Reduce('\|', lapply(.SD, '>', 100)), .SDcols = disp:wt]]

	# benchmark
	library(data.table)
	set.seed(1000)
	n_m = expand.grid(n = c(3,12), m = c(2.5,100)*1e4)
	#
	results = mapply(function(n,m) {
	my.df <- sample(1:80, m*n, replace=TRUE)
	dim(my.df) <- c(m,n)
	my.df <- as.data.frame(my.df)
	names(my.df) <- c(LETTERS,letters)[1:n]
	my.dt <- as.data.table(my.df)
	bench::mark(
	# using Reduce with lapply()
	tm1 = my.dt[my.dt[, Reduce('\|', lapply(.SD, '>', 75))]],
	# using rowSums
	tm2 = my.dt[rowSums(my.dt[, lapply(.SD, '>', 75)]) > 0],
	# using apply with any()
	tm3 = my.dt[apply(my.dt[, lapply(.SD, '>', 75)], 1, any)],
	# dtplyr
	tm4 = my.dt %>% dplyr::filter(if_any(.fns = ~ .x > 75)),
	iterations=30L,
	time_unit = 's'
	) %>%
	dplyr::mutate(n = n, m = m)
	}, n = n_m$n, m = n_m$m, SIMPLIFY = FALSE)

	dplyr::bind_rows(results) %>%
	dplyr::select(n, m, expression, median,
	total_time, `itr/sec`, mem_alloc,
	n_itr, n_gc)