- Define the problem and assemble a dataset
- Choose a measure of success (loss function)
- Decide on an evaluation protocol
- K-Fold cross validation (= few samples)
- Iterated k-fold validation (model evaluation when little data)
- Prepare your data
def set_pos(row, key): | |
r = row.copy() | |
return str(r[key][0]) + "," + str(r[key][1]) | |
prec_pos_index = df_grouped.apply(lambda x:set_pos(x,"prec_point"), axis=1) | |
interv_pos_index = df_grouped.apply(lambda x:set_pos(x,"interv_point"), axis=1) |
def sampleToPoint(sample, prefix): | |
latStr = sample[prefix + "_lat"] | |
lat = stringPositionToInt(latStr) | |
lngStr = sample[prefix + "_lon"] | |
lng = stringPositionToInt(lngStr) | |
point = [lat, lng] | |
return point |
import pandas as pd | |
df = pd.read_csv("./data.csv",sep=";") | |
print("Shape:") | |
print(df.shape) | |
print(df.dtypes) | |
df.head(20) |
En quelques mots : curiosité, sérendipité et Lean => Techplorateur
Oct. 2017 - Avril 2018
# Libraries | |
import pandas as pd | |
import numpy as np | |
import random as rnd | |
import seaborn as sns | |
import matplotlib.pyplot as plt | |
%matplotlib inline | |
import sklearn as sk |
Au printemps 2016, Leonardo Noleto, à l’époque président de l’association Toulouse Data Science (un groupe meetup très productif et super sympa), annonçait qu’il partait de Toulouse pour Paris #sniff. Après pas mal de discussions sur “j’ai envie de tester la (… attention buzzword is coming…) Data Science, de voir concrètement ce que fait un (… buzzword is coming again…) Data Scientist au jour le jour afin de, pourquoi pas, envisager de travailler dans ce domaine”.
“Métier le plus sexy du 21ème siècle” qu’ils disaient.
Le meetup Toulouse Data Science : TDS
Leonardo me dirige donc vers un MOOC (Massive Online Open Course, un cours sur un internet) très populaire et très bien ficelé par le MIT (une petite université du Massachusetts) : The Analytics Edge.
En juin 2016, je me plonge dedans. J’y consacre 1h30 tous les matins avant de partir travailler (j’étais dans ma dynamique de Morning Routine). Le moins que l’on puisse dire est que c’était un sacré morceau ! Il me fallait 3–4 jours pour termi
# Let's read a file and see what is inside | |
who = read.csv("WHO.csv") | |
str(who) | |
summary(who) | |
# Divide and Conquer ! | |
who_europe = subset(who, Region == "Europe") | |
which.min(who$Under15) |
<!DOCTYPE html> | |
<html> | |
<head> | |
<title>srcUtils</title> | |
</head> | |
<body> | |
<?php | |
// echo "Start"; | |