Hao Zhang klauszhang

## linear_regression_by_gradient_descent.R
##
## Linear regression by gradient descent
##
## A learning exercise to help build intuition about gradient descent.
## J. Christopher Bare, 2012
##

# set random seed
set.seed(12345)

## expedia.r
# read data
library(data.table)
train<-fread('train.csv',header=T)
test<-fread('test.csv',header=T)
gc()

# the label: is_booking, hotel_cluster
head(train)
head(test)
# process the data

## Simulation of Renewal Process.R
size<-1000
devider<-10
Nt<-numeric(size)
result<-numeric(size/devider)
for (i in 1:size) {
  X<-runif(1000, min=0, max=1)
  S<-cumsum(X)
  t<-100
  Nt[i]<-sum(S<t)
    result[i]<-sum(Nt)/i

## expedia_exp_1.r
# folked from https://www.kaggle.com/signochastic/expedia-hotel-recommendations/r-version-of-most-popular-local-hotel
## R version of most popular local hotels
library(data.table)
expedia_train <- fread('../input/train.csv', header=TRUE)
expedia_test <- fread('../input/test.csv', header=TRUE)

sum_and_count <- function(x){
  sum(x)*0.835 + length(x) *0.165
}

## expedia_exp_2.r
# folked from https://www.kaggle.com/zfturbo/expedia-hotel-recommendations/r-some-tweaks/code
## R version of most popular local hotels (change variable)

library(data.table)
expedia_train <- fread('../input/train.csv', header=TRUE)
expedia_test <- fread('../input/test.csv', header=TRUE)

sum_and_count <- function(x){
# take the weight of clicking and browsing
  sum(x)*0.95 + length(x) *0.05

## expedia_top_n.r
# Load data ####

library(data.table)

expedia_train <- fread('train.csv',header = T)
#expedia_test <- fread('test.csv',header = T)

#set training
smp_size <- floor(0.98 * nrow(expedia_train))
## set the seed to make your partition reproductible

## expedia.similarity.r
all_user_id <- unique(train$user_id)

similar_table<-list()
counter<-1
for (user in all_user_id) {
  similar_user<-c(user)
  current <- train[user_id == user,]
  for (next_user in all_user_id[-user]) {
    # calculate similarity
    # this is a test

## expedia.cluster_by_market.r
length(unique(train$hotel_market))
hotel_markets<-unique(train$hotel_market)
market<-train[hotel_market==hotel_markets[2],]
summary(market)
unique(market$hotel_continent)

setkey(market)

market$date_time<-as.POSIXct(market$date_time)
market<-market[-which(market$srch_ci==""),]

## expedia.boost.r
library(data.table)

#set sample size of test data
smp_size <- 10000
## set the seed to make your partition reproductible
set.seed(1234)
idx <- sample(seq_len(nrow(expedia_train)), size = smp_size)
test <- expedia_train[idx,]
train<-expedia_train[-idx,]

## process_dates.r
library(data.table)

# read csv
expedia_train <- fread('train.csv', header = T)

# create date object
dates <-
  list(expedia_train$date_time,
       expedia_train$srch_ci,
       expedia_train$srch_co)
	##
	## Linear regression by gradient descent
	##
	## A learning exercise to help build intuition about gradient descent.
	## J. Christopher Bare, 2012
	##

	# set random seed
	set.seed(12345)
	# read data
	library(data.table)
	train<-fread('train.csv',header=T)
	test<-fread('test.csv',header=T)
	gc()

	# the label: is_booking, hotel_cluster
	head(train)
	head(test)
	# process the data
	size<-1000
	devider<-10
	Nt<-numeric(size)
	result<-numeric(size/devider)
	for (i in 1:size) {
	X<-runif(1000, min=0, max=1)
	S<-cumsum(X)
	t<-100
	Nt[i]<-sum(S<t)
	result[i]<-sum(Nt)/i
	# folked from https://www.kaggle.com/signochastic/expedia-hotel-recommendations/r-version-of-most-popular-local-hotel
	## R version of most popular local hotels
	library(data.table)
	expedia_train <- fread('../input/train.csv', header=TRUE)
	expedia_test <- fread('../input/test.csv', header=TRUE)

	sum_and_count <- function(x){
	sum(x)0.835 + length(x) 0.165
	}
	# folked from https://www.kaggle.com/zfturbo/expedia-hotel-recommendations/r-some-tweaks/code
	## R version of most popular local hotels (change variable)

	library(data.table)
	expedia_train <- fread('../input/train.csv', header=TRUE)
	expedia_test <- fread('../input/test.csv', header=TRUE)

	sum_and_count <- function(x){
	# take the weight of clicking and browsing
	sum(x)0.95 + length(x) 0.05
	# Load data ####

	library(data.table)

	expedia_train <- fread('train.csv',header = T)
	#expedia_test <- fread('test.csv',header = T)

	#set training
	smp_size <- floor(0.98 * nrow(expedia_train))
	## set the seed to make your partition reproductible
	all_user_id <- unique(train$user_id)

	similar_table<-list()
	counter<-1
	for (user in all_user_id) {
	similar_user<-c(user)
	current <- train[user_id == user,]
	for (next_user in all_user_id[-user]) {
	# calculate similarity
	# this is a test
	length(unique(train$hotel_market))
	hotel_markets<-unique(train$hotel_market)
	market<-train[hotel_market==hotel_markets[2],]
	summary(market)
	unique(market$hotel_continent)

	setkey(market)

	market$date_time<-as.POSIXct(market$date_time)
	market<-market[-which(market$srch_ci==""),]
	library(data.table)

	#set sample size of test data
	smp_size <- 10000
	## set the seed to make your partition reproductible
	set.seed(1234)
	idx <- sample(seq_len(nrow(expedia_train)), size = smp_size)
	test <- expedia_train[idx,]
	train<-expedia_train[-idx,]
	library(data.table)

	# read csv
	expedia_train <- fread('train.csv', header = T)

	# create date object
	dates <-
	list(expedia_train$date_time,
	expedia_train$srch_ci,
	expedia_train$srch_co)