WenSui Liu statcompute

## grnn_bin.R
df1 <- read.table("credit_count.txt", header = T, sep = ",")
df2 <- df1[which(df1$CARDHLDR == 1), ]
Y <- df2$DEFAULT
X <- scale(df2[, 3:ncol(df2)])
i <- sample(seq(length(Y)), length(Y) / 2)

# WITHOUT BINNING
Y1 <- Y[i]
Y2 <- Y[-i]
X1 <- X[i, ]

## grnn_SmallSample.R
source("yager.R")
df <- read.table("lgd", header = T)[, 1:8]
Y <- 1 - df$rr
X <- scale(df[, 2:8])
pre.N <- 1000
trn.N <- 100
try.N <- 100
seeds <- floor(with(set.seed(2020), runif(try.N) * 1e8))

test_glm <- function(seed) {

## compare_gam.R
data(kyphosis, package = "gam")
y <- ifelse(kyphosis$Kyphosis == "present", 1, 0)
x <- scale(kyphosis[, -1])
### FIT A GRNN
net1 <- grnn.fit(x = x, y = y)
test <- grnn.search_auc(net1, sigmas = gen_sobol(min = 0.5, max = 1.5, n = 50), nfolds = 20)
net2 <- grnn.fit(x = x, y = y, sigma = min(test$best$sigma))
### FIT A GAM
library(gam)
gam1 <- gam(y~ Age + Number + Start, data = data.frame(y, x), family = binomial)

## use_pfi.R
### INITIATE A GRNN
net1 <- grnn.fit(x = X1, y = Y1)
### FIND THE OPTIMIZED PARAMETER
best <- grnn.optmiz_auc(net1, lower = 1, upper = 3)
### FIT A GRNN WITH THE OPTIMIZED PARAMETER
net2 <- grnn.fit(x = X1, y = Y1, sigma = best$sigma)
### CALCULATE PFI BY TRYING 1000 RANDOM PERMUTATIONS
pfi_rank <- grnn.pfi(net2, ntry = 1000)
# idx               var        pfi
#   9  woe.bureau_score 0.06821683

## keras_average.py
from numpy.random import seed
from pandas import read_csv, DataFrame
from sklearn.preprocessing import scale
from keras.layers.convolutional import Conv1D, MaxPooling1D
from keras.layers.merge import average
from keras.layers import Input, Dense, Flatten, Reshape, Dropout, SpatialDropout1D
from keras.models import Model
from keras.optimizers import SGD
from keras.utils import plot_model

## keras_average.R
library(keras)
df <- read.csv("credit_count.txt")
Y <- matrix(df[df$CARDHLDR == 1, ]$DEFAULT)
X <- scale(df[df$CARDHLDR == 1, ][3:14])

inputs <- layer_input(shape = c(ncol(X)))

mlp <- inputs %>%
  layer_dense(units = 64, activation = 'relu', kernel_initializer = 'he_uniform') %>%
  layer_dropout(rate = 0.2, seed = 1) %>%

## grnn.imp.R
Y <- df$bad
X <- scale(df_woe$df[, -1])
set.seed(2019)
i <- sample(seq(length(Y)), length(Y) / 4)
Y1 <- Y[i]
Y2 <- Y[-i]
X1 <- X[i, ]
X2 <- X[-i, ]
net1 <- grnn.fit(x = X1, y = Y1)
rst <- grnn.optmiz_auc(net1, lower = 1, upper = 3)

## grnn.optmiz_auc.R
df <- readRDS("df.rds")
source("mob.R")
source("grnnet.R")
bin_out <- batch_bin(df, 3)
df_woe <- batch_woe(df, bin_out$BinLst)
Y <- df$bad
X <- scale(df_woe$df[, -1])
set.seed(2019)
i <- sample(seq(length(Y)), length(Y) / 4)
Y1 <- Y[i]

## LossModels
Modeling Loss / Average Loss
  |
  |-- Loss without Zeroes
  |     |
  |     |-- Gamma
  |     |
  |     `-- Inverse Gaussian
  |
  |-- Loss with Some Zeros
  |     |

## FrequencyModels
Modeling Frequency
  |
  |-- Equi-Dispersion (Baseline)
  |     |
  |     `-- Standard Poisson
  |
  |-- Over-Dispersion
  |     |
  |     |-- Negative Binomial
  |     |
	df1 <- read.table("credit_count.txt", header = T, sep = ",")
	df2 <- df1[which(df1$CARDHLDR == 1), ]
	Y <- df2$DEFAULT
	X <- scale(df2[, 3:ncol(df2)])
	i <- sample(seq(length(Y)), length(Y) / 2)

	# WITHOUT BINNING
	Y1 <- Y[i]
	Y2 <- Y[-i]
	X1 <- X[i, ]
	source("yager.R")
	df <- read.table("lgd", header = T)[, 1:8]
	Y <- 1 - df$rr
	X <- scale(df[, 2:8])
	pre.N <- 1000
	trn.N <- 100
	try.N <- 100
	seeds <- floor(with(set.seed(2020), runif(try.N) * 1e8))

	test_glm <- function(seed) {
	data(kyphosis, package = "gam")
	y <- ifelse(kyphosis$Kyphosis == "present", 1, 0)
	x <- scale(kyphosis[, -1])
	### FIT A GRNN
	net1 <- grnn.fit(x = x, y = y)
	test <- grnn.search_auc(net1, sigmas = gen_sobol(min = 0.5, max = 1.5, n = 50), nfolds = 20)
	net2 <- grnn.fit(x = x, y = y, sigma = min(test$best$sigma))
	### FIT A GAM
	library(gam)
	gam1 <- gam(y~ Age + Number + Start, data = data.frame(y, x), family = binomial)
	### INITIATE A GRNN
	net1 <- grnn.fit(x = X1, y = Y1)
	### FIND THE OPTIMIZED PARAMETER
	best <- grnn.optmiz_auc(net1, lower = 1, upper = 3)
	### FIT A GRNN WITH THE OPTIMIZED PARAMETER
	net2 <- grnn.fit(x = X1, y = Y1, sigma = best$sigma)
	### CALCULATE PFI BY TRYING 1000 RANDOM PERMUTATIONS
	pfi_rank <- grnn.pfi(net2, ntry = 1000)
	# idx var pfi
	# 9 woe.bureau_score 0.06821683
	from numpy.random import seed
	from pandas import read_csv, DataFrame
	from sklearn.preprocessing import scale
	from keras.layers.convolutional import Conv1D, MaxPooling1D
	from keras.layers.merge import average
	from keras.layers import Input, Dense, Flatten, Reshape, Dropout, SpatialDropout1D
	from keras.models import Model
	from keras.optimizers import SGD
	from keras.utils import plot_model
	library(keras)
	df <- read.csv("credit_count.txt")
	Y <- matrix(df[df$CARDHLDR == 1, ]$DEFAULT)
	X <- scale(df[df$CARDHLDR == 1, ][3:14])

	inputs <- layer_input(shape = c(ncol(X)))

	mlp <- inputs %>%
	layer_dense(units = 64, activation = 'relu', kernel_initializer = 'he_uniform') %>%
	layer_dropout(rate = 0.2, seed = 1) %>%
	Y <- df$bad
	X <- scale(df_woe$df[, -1])
	set.seed(2019)
	i <- sample(seq(length(Y)), length(Y) / 4)
	Y1 <- Y[i]
	Y2 <- Y[-i]
	X1 <- X[i, ]
	X2 <- X[-i, ]
	net1 <- grnn.fit(x = X1, y = Y1)
	rst <- grnn.optmiz_auc(net1, lower = 1, upper = 3)
	df <- readRDS("df.rds")
	source("mob.R")
	source("grnnet.R")
	bin_out <- batch_bin(df, 3)
	df_woe <- batch_woe(df, bin_out$BinLst)
	Y <- df$bad
	X <- scale(df_woe$df[, -1])
	set.seed(2019)
	i <- sample(seq(length(Y)), length(Y) / 4)
	Y1 <- Y[i]
	Modeling Loss / Average Loss
	\|
	\|-- Loss without Zeroes
	\| \|
	\| \|-- Gamma
	\| \|
	\| `-- Inverse Gaussian
	\|
	\|-- Loss with Some Zeros
	\| \|
	Modeling Frequency
	\|
	\|-- Equi-Dispersion (Baseline)
	\| \|
	\| `-- Standard Poisson
	\|
	\|-- Over-Dispersion
	\| \|
	\| \|-- Negative Binomial
	\| \|