Szilard Pafka szilard

## lightgbm-R-gpu-fix.patch
--- build_r.R   2024-06-06 20:27:58.458131823 +0000
+++ build_r.R-fixed     2024-06-06 20:27:54.254093172 +0000
@@ -106,9 +106,9 @@
   install_libs_content <- gsub(
     pattern = paste0("command_line_args <- NULL")
     , replacement = paste0(
-      "command_line_args <- c(\'"
-      , paste(cmake_args_to_add, collapse = "', '")
-      , "')"
+      "command_line_args <- c(\""

## ML_pkgs.R
##install.packages("cranlogs")

library(data.table)
library(cranlogs)


##caret/models/file
## grep "library =" * | sed 's/.*=//' | sed 's/c(//' | sed 's/),/,/' | grep -v NULL | sed 's/,.*$/,/' | sort | uniq | tr -d '\n'

caret_pkgs <- c("rpart", "C50", "CHAID", "Cubist", "FCNN4R", "HDclassif", "HiDimDA", "KRLS", "LiblineaR",

## rpart_pruning.R
library(data.table)
library(rpart)

d_train <- fread("https://s3.amazonaws.com/benchm-ml--main/train-0.1m.csv")

md <- rpart(ifelse(dep_delayed_15min=="Y",1,0) ~ ., d_train,
            control = rpart.control(cp = 0.001))

plotcp(md)
printcp(md)

## lightgbm_example.R
library(data.table)
library(ROCR)
library(lightgbm)

set.seed(123)

d_train <- fread("/var/data/bm-ml/train-0.1m.csv")
d_test <- fread("/var/data/bm-ml/test.csv")


## simul_unbal_methods.R
## partial credit :) to @earino for the idea

library(lightgbm)
library(data.table)
library(ROCR)

d0_train <- fread("/var/data/bm-ml/train-10m.csv")
d0_test <- fread("/var/data/bm-ml/test.csv")
d0 <- rbind(d0_train, d0_test)

## dataset_size_openML.R
# OpenML Benchmarking Suites and the OpenML100
# https://arxiv.org/abs/1708.03731
# https://www.openml.org/s/14/data

library(OpenML)
ids <- getOMLStudy('OpenML100')$data$data.id
dsall <- listOMLDataSets()
sum(dsall$data.id %in% ids)   ## 96???
ds <- dsall[dsall$data.id %in% ids,]

## dataset_sizes_pmlb.py
## https://github.com/EpistasisLab/penn-ml-benchmarks

## pip install pmlb

import numpy as np
from pmlb import fetch_data
from pmlb import dataset_names

x = np.zeros(len(dataset_names))
for i, dn in enumerate(dataset_names):

## game_money_multi.c
#include <stdio.h>
#include <stdlib.h>

#define N 128
#define B0 100
#define R 1000000
#define M 1000

int cmpfunc (const void * a, const void * b)
{

## game_money.c
#include <stdio.h>
#include <stdlib.h>

#define N 100
#define B0 100
#define R 1000000

int main() {
  int b[N], rec[N];
  for (int i=0; i<N; i++) b[i] = B0;

## h2o_scoring.R
## training a model

library(h2o)
h2o.init(nthreads = -1)

dx_train <- h2o.importFile("https://s3.amazonaws.com/benchm-ml--main/train-0.1m.csv")

md_rf <- h2o.randomForest(x = 1:(ncol(dx_train)-1), y = ncol(dx_train), training_frame = dx_train,
                    model_id = "h2o_RF",
                    ntrees = 100, max_depth = 10, nbins = 100)
	--- build_r.R 2024-06-06 20:27:58.458131823 +0000
	+++ build_r.R-fixed 2024-06-06 20:27:54.254093172 +0000
	@@ -106,9 +106,9 @@
	install_libs_content <- gsub(
	pattern = paste0("command_line_args <- NULL")
	, replacement = paste0(
	- "command_line_args <- c(\'"
	- , paste(cmake_args_to_add, collapse = "', '")
	- , "')"
	+ "command_line_args <- c(\""
	##install.packages("cranlogs")

	library(data.table)
	library(cranlogs)


	##caret/models/file
	## grep "library =" * \| sed 's/.=//' \| sed 's/c(//' \| sed 's/),/,/' \| grep -v NULL \| sed 's/,.$/,/' \| sort \| uniq \| tr -d '\n'

	caret_pkgs <- c("rpart", "C50", "CHAID", "Cubist", "FCNN4R", "HDclassif", "HiDimDA", "KRLS", "LiblineaR",
	library(data.table)
	library(rpart)

	d_train <- fread("https://s3.amazonaws.com/benchm-ml--main/train-0.1m.csv")

	md <- rpart(ifelse(dep_delayed_15min=="Y",1,0) ~ ., d_train,
	control = rpart.control(cp = 0.001))

	plotcp(md)
	printcp(md)
	library(data.table)
	library(ROCR)
	library(lightgbm)

	set.seed(123)

	d_train <- fread("/var/data/bm-ml/train-0.1m.csv")
	d_test <- fread("/var/data/bm-ml/test.csv")
	## partial credit :) to @earino for the idea

	library(lightgbm)
	library(data.table)
	library(ROCR)

	d0_train <- fread("/var/data/bm-ml/train-10m.csv")
	d0_test <- fread("/var/data/bm-ml/test.csv")
	d0 <- rbind(d0_train, d0_test)
	# OpenML Benchmarking Suites and the OpenML100
	# https://arxiv.org/abs/1708.03731
	# https://www.openml.org/s/14/data

	library(OpenML)
	ids <- getOMLStudy('OpenML100')$data$data.id
	dsall <- listOMLDataSets()
	sum(dsall$data.id %in% ids) ## 96???
	ds <- dsall[dsall$data.id %in% ids,]
	## https://github.com/EpistasisLab/penn-ml-benchmarks

	## pip install pmlb

	import numpy as np
	from pmlb import fetch_data
	from pmlb import dataset_names

	x = np.zeros(len(dataset_names))
	for i, dn in enumerate(dataset_names):
	#include <stdio.h>
	#include <stdlib.h>

	#define N 128
	#define B0 100
	#define R 1000000
	#define M 1000

	int cmpfunc (const void * a, const void * b)
	{
	#include <stdio.h>
	#include <stdlib.h>

	#define N 100
	#define B0 100
	#define R 1000000

	int main() {
	int b[N], rec[N];
	for (int i=0; i<N; i++) b[i] = B0;
	## training a model

	library(h2o)
	h2o.init(nthreads = -1)

	dx_train <- h2o.importFile("https://s3.amazonaws.com/benchm-ml--main/train-0.1m.csv")

	md_rf <- h2o.randomForest(x = 1:(ncol(dx_train)-1), y = ncol(dx_train), training_frame = dx_train,
	model_id = "h2o_RF",
	ntrees = 100, max_depth = 10, nbins = 100)