Keiichi Kuroyanagi Keiku

## chisq.test_by_group.r
library(dplyr)
library(broom)
library(lazyeval)

df <- data_frame(
  group = rep(letters[1:2], each = 50),
  cat1 = letters[round(runif(100) * 5) + 1],
  cat2 = letters[round(runif(100) * 3) + 1]
)

## generate_c_code.r
library(stringr)

add_backquotes <- function(x) paste0("`", x, "`")
add_doublequotes <- function(x) paste0("\"", x, "\"")

generate_c_code <- function(x){
  vec <- paste0(add_doublequotes(x), sep=",\n")
  vec_tail <- str_replace(tail(vec, 1), ",\n", "\n")
  vec_head <- head(vec, length(vec) - 1)
  vec <- c(vec_head, vec_tail)

## cut.py
import pandas as pd
from sklearn import datasets
iris = datasets.load_iris()

iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_df['species'] = iris.target
mapping = {0 : 'setosa', 1: 'versicolor', 2: 'virginica'}
iris_df = iris_df.replace({'species': mapping})

iris_df['sepal length (bins)'] = pd.cut(iris_df['sepal length (cm)'], bins=[0, 3, 6, 9], include_lowest=False, right=True)

## intersection.py
import pandas as pd

df1 = pd.DataFrame({'id': [1, 2, 3]})
df2 = pd.DataFrame({'id': [2, 3, 4]})
set(df1.id).intersection(set(df2.id))
# Out[73]: {2, 3}

## freq.py
import pandas as pd
from sklearn import datasets
iris = datasets.load_iris()

iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_df['species'] = iris.target
mapping = {0 : 'setosa', 1: 'versicolor', 2: 'virginica'}
iris_df = iris_df.replace({'species': mapping})

def freq(data, var):

## get_file_list.py
import os
import glob

# アスタリスクが必要
files = glob.glob('/home/dir1/*.zip')
for file in files:
    print(file)
    print('/home/dir2/' + os.path.basename(file))
# /home/dir1/subset3.zip
# /home/dir2/subset3.zip

## create_summary_report.r
library(dplyr)
library(tidyr)

iris %>%
  as_data_frame(.) %>%
  select(matches("Petal")) %>%
  summarise_all(.funs = c("01:sum" = "sum",
                          "02:min" = "min",
                          "03:q25" = "quantile(., 0.25)",
                          "04:median" = "median",

## convert_number_strings_to_numbers.py
import pandas as pd
import locale
from locale import atof

df = pd.DataFrame([['1,200', '4,200'], ['7,000', '-0.03'], ['5', '0']],
                  columns=['col1', 'col2'])
#     col1   col2
# 0  1,200  4,200
# 1  7,000  -0.03
# 2      5      0

## count_missing_values.r
library(mice)
library(purrr)

map_df(airquality, function(x) sum(is.na(x)))
# A tibble: 1 × 6
# Ozone Solar.R  Wind  Temp Month   Day
# <int>   <int> <int> <int> <int> <int>
# 1    37       7     0     0     0     0

## impute.r
library(dplyr)

data <- data_frame(var = c(0, NA, 2))
data %>% mutate(var = coalesce(var, 1))
data %>% mutate(var = replace(var, which(is.na(var)), 1))
data %>% mutate(var = if_else(is.na(var), 1, var))
# A tibble: 3 × 1
# var
# <dbl>
# 1     0
	library(dplyr)
	library(broom)
	library(lazyeval)

	df <- data_frame(
	group = rep(letters[1:2], each = 50),
	cat1 = letters[round(runif(100) * 5) + 1],
	cat2 = letters[round(runif(100) * 3) + 1]
	)
	library(stringr)

	add_backquotes <- function(x) paste0("`", x, "`")
	add_doublequotes <- function(x) paste0("\"", x, "\"")

	generate_c_code <- function(x){
	vec <- paste0(add_doublequotes(x), sep=",\n")
	vec_tail <- str_replace(tail(vec, 1), ",\n", "\n")
	vec_head <- head(vec, length(vec) - 1)
	vec <- c(vec_head, vec_tail)
	import pandas as pd
	from sklearn import datasets
	iris = datasets.load_iris()

	iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
	iris_df['species'] = iris.target
	mapping = {0 : 'setosa', 1: 'versicolor', 2: 'virginica'}
	iris_df = iris_df.replace({'species': mapping})

	iris_df['sepal length (bins)'] = pd.cut(iris_df['sepal length (cm)'], bins=[0, 3, 6, 9], include_lowest=False, right=True)
	import pandas as pd

	df1 = pd.DataFrame({'id': [1, 2, 3]})
	df2 = pd.DataFrame({'id': [2, 3, 4]})
	set(df1.id).intersection(set(df2.id))
	# Out[73]: {2, 3}
	import os
	import glob

	# アスタリスクが必要
	files = glob.glob('/home/dir1/*.zip')
	for file in files:
	print(file)
	print('/home/dir2/' + os.path.basename(file))
	# /home/dir1/subset3.zip
	# /home/dir2/subset3.zip
	library(dplyr)
	library(tidyr)

	iris %>%
	as_data_frame(.) %>%
	select(matches("Petal")) %>%
	summarise_all(.funs = c("01:sum" = "sum",
	"02:min" = "min",
	"03:q25" = "quantile(., 0.25)",
	"04:median" = "median",
	import pandas as pd
	import locale
	from locale import atof

	df = pd.DataFrame([['1,200', '4,200'], ['7,000', '-0.03'], ['5', '0']],
	columns=['col1', 'col2'])
	# col1 col2
	# 0 1,200 4,200
	# 1 7,000 -0.03
	# 2 5 0
	library(mice)
	library(purrr)

	map_df(airquality, function(x) sum(is.na(x)))
	# A tibble: 1 × 6
	# Ozone Solar.R Wind Temp Month Day
	# <int> <int> <int> <int> <int> <int>
	# 1 37 7 0 0 0 0
	library(dplyr)

	data <- data_frame(var = c(0, NA, 2))
	data %>% mutate(var = coalesce(var, 1))
	data %>% mutate(var = replace(var, which(is.na(var)), 1))
	data %>% mutate(var = if_else(is.na(var), 1, var))
	# A tibble: 3 × 1
	# var
	# <dbl>
	# 1 0