Makoto YUI myui

## sklearn-sparselr-spark-hdfs.py
import sys

from pyspark.context import SparkContext
from numpy import array, random as np_random
from sklearn import linear_model as lm
from sklearn.base import copy
from scipy import sparse as sp

#MAX_FEATURES=1000
MAX_FEATURES=16777216

## sklearn-denselr-spark-hdfs.py
import sys

from pyspark.context import SparkContext
from numpy import array, random as np_random
from sklearn import linear_model as lm
from sklearn.base import copy

ITERATIONS = 5
np_random.seed(seed=42)

## sparselr-predict.py
#! /usr/bin/env python

import sys

from sklearn.externals import joblib
from scipy import sparse as sp

MAX_FEATURES=16777216

def predict(sgd, line):

## file0.sql
create or replace view training2 as
select
  rowid,
  clicks,
  (impression - clicks) as noclick,
  mhash(concat("1_", displayurl)) as displayurl,
  mhash(concat("2_", adid)) as adid,
  ...
  -1 as bias
from (

## reservoir_sampling.java
T add(T item) {
    T old = null;
    if(position < numSamples) {// reservoir not yet full, just append
        samples[position] = item;
    } else {// find a item to replace
        int replaceIndex = rand.nextInt(position + 1);
        if(replaceIndex < numSamples) {// replacement opportunity decreases over a time
            old = samples[replaceIndex];
            samples[replaceIndex] = item;
        }

## TrainNewsGroups.java
public final class TrainNewsGroups {

  public static void main(String[] args) throws IOException {
    File base = new File(args[0]);

    Multiset<String> overallCounts = HashMultiset.create();

    int leakType = 0;
    if (args.length > 1) {
      leakType = Integer.parseInt(args[1]);

## train10k.scala
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.mllib.classification.LogisticRegressionWithSGD

val training = MLUtils.loadLibSVMFile(sc, "hdfs://dm01:8020/user/hive/warehouse/kdd12track2.db/training_libsvmfmt_10k",  multiclass = false, numFeatures = 16777216, minPartitions = 64)
//val training = MLUtils.loadLibSVMFile(sc, "hdfs://dm01:8020/user/hive/warehouse/kdd12track2.db/training_libsvmfmt_10k",  multiclass = false)

val model = LogisticRegressionWithSGD.train(training, numIterations = 1)
//val model = LogisticRegressionWithSGD.train(training, numIterations = 20)

## news20b-mllib_logress.md

      
              1 file
            
          
              0 forks
            
          
              9 comments
            
          
              1 star
            
          
                myui
                / news20b-mllib_logress.md
            
            
              Last active
              September 26, 2017 12:35
            
              
                Classification of news20.binary dataset by LogisticRegressionWithSGD (Spark 1.0 MLlib)
              
          
    The dataset used in the Evaluation

http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html#news20.binary
head -1000 news20.binary | sed 's/+1/1/g' | sed 's/-1/0/g' > news20.binary.1000
sort -R news20.binary > news20.random
head -1000 news20.random | sed 's/+1/1/g' | sed 's/-1/0/g' > news20.random.1000
Evaluated code


## liblinear_on_spark.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                myui
                / liblinear_on_spark.md
            
            
              Last active
              August 29, 2015 14:02
            
              
                liblinear on spark
              
          
    liblinear on spark

http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/distributed-liblinear/spark/running_spark_liblinear.html
SPARK_CLASSPATH=/opt/spark-1.0.0/extlib/spark-liblinear-1.94.jar ./bin/spark-shell
sc.addJar("./extlib/spark-liblinear-1.94.jar")
import tw.edu.ntu.csie.liblinear._


## vw-mr.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                myui
                / vw-mr.md
            
            
              Last active
              August 29, 2015 14:02
            
          
    Increasing LBFGS passes

[GD: 1 iters LBFGS: 20 iters mapper: 215]

> real    8m13.805s
> AUC  : 0.707109
> NWMAE: 0.049646
> WRMSE: 0.158077
	import sys

	from pyspark.context import SparkContext
	from numpy import array, random as np_random
	from sklearn import linear_model as lm
	from sklearn.base import copy
	from scipy import sparse as sp

	#MAX_FEATURES=1000
	MAX_FEATURES=16777216
	#! /usr/bin/env python

	import sys

	from sklearn.externals import joblib
	from scipy import sparse as sp

	MAX_FEATURES=16777216

	def predict(sgd, line):
	create or replace view training2 as
	select
	rowid,
	clicks,
	(impression - clicks) as noclick,
	mhash(concat("1_", displayurl)) as displayurl,
	mhash(concat("2_", adid)) as adid,
	...
	-1 as bias
	from (
	T add(T item) {
	T old = null;
	if(position < numSamples) {// reservoir not yet full, just append
	samples[position] = item;
	} else {// find a item to replace
	int replaceIndex = rand.nextInt(position + 1);
	if(replaceIndex < numSamples) {// replacement opportunity decreases over a time
	old = samples[replaceIndex];
	samples[replaceIndex] = item;
	}
	public final class TrainNewsGroups {

	public static void main(String[] args) throws IOException {
	File base = new File(args[0]);

	Multiset<String> overallCounts = HashMultiset.create();

	int leakType = 0;
	if (args.length > 1) {
	leakType = Integer.parseInt(args[1]);
	import org.apache.spark.mllib.util.MLUtils
	import org.apache.spark.mllib.classification.LogisticRegressionWithSGD

	val training = MLUtils.loadLibSVMFile(sc, "hdfs://dm01:8020/user/hive/warehouse/kdd12track2.db/training_libsvmfmt_10k", multiclass = false, numFeatures = 16777216, minPartitions = 64)
	//val training = MLUtils.loadLibSVMFile(sc, "hdfs://dm01:8020/user/hive/warehouse/kdd12track2.db/training_libsvmfmt_10k", multiclass = false)

	val model = LogisticRegressionWithSGD.train(training, numIterations = 1)
	//val model = LogisticRegressionWithSGD.train(training, numIterations = 20)