Skip to content

Instantly share code, notes, and snippets.

View danielmoralesp's full-sized avatar
🎯
Focusing

Daniel M. danielmoralesp

🎯
Focusing
  • Software Engineer
  • Digital Nomad
View GitHub Profile
@danielmoralesp
danielmoralesp / SETTINGS.json
Last active June 21, 2021 13:36
DataSource.ai Competitions - SETTINGS.json
{
RAW_DATA_DIR: "./data/",
TRAIN_DATA_CLEAN_PATH: "./data/processed/train.csv",
TEST_DATA_CLEAN_PATH: "./data/processed/test.csv",
MODEL_CHECKPOINT_DIR: "./models/",
LOGS_DIR: "./logs/",
SUBMISSION_DIR: "./submissions/"
}
@danielmoralesp
danielmoralesp / model_directory_tree.txt
Created June 21, 2021 13:30
DataSource.ai Competitions - Directory Tree
.
./sample_comp_dir
./sample_comp_dir/documentation
./sample_comp_dir/EDA
./sample_comp_dir/code
./sample_comp_dir/logs
./sample_comp_dir/submissions
./sample_comp_dir/data
./sample_comp_dir/data/raw
./sample_comp_dir/data/processed
@danielmoralesp
danielmoralesp / requirements.txt
Created June 21, 2021 13:27
DataSource.ai Competitions - requirements.txt
autoflake==1.1
autopep8==1.3.5
flake8==3.5.0
h5py==2.7.1
Keras==2.1.4
numba==0.38.0
numpy==1.14.3
numpydoc==0.8.0
pandas==0.23.0
pandas-profiling==1.4.1
@danielmoralesp
danielmoralesp / README.md
Last active June 21, 2021 13:33
DataSource.ai Competitions - README.md

Hello!

Below you can find a outline of how to reproduce my solution for the competition. If you run into any trouble with the setup/code or have any questions please contact me at (email)

ARCHIVE CONTENTS

  • model.tgz : original model upload - contains original code, additional training examples, corrected labels, etc
  • comp_etc : contains ancillary information for prediction - clustering of training/test examples
  • comp_mdl : model binaries used in generating solution
  • comp_preds : model predictions
import operator
from collections import Counter
import random
import numpy as np
np.random.seed(1)
random.seed(1)
def split(dataset, labels, column):
data_subsets = []
label_subsets = []
@danielmoralesp
danielmoralesp / jupyter.md
Created June 6, 2020 02:11
Jupyter Commands
pip3 --version ## Para revisar la version de pip
sudo pip3 install virtualenv ## Para instalar virtualenv
virtualenv primer_proyecto ## Para crear la carpeta del entorno virtual
cd primer_proyecto ## para acceder a la carpeta del entorno virtual
source bin/activate ## Para activar el entorno virtual
pip3 install jupyter ## para instalar jupyter dentro del entorno virtual
jupyter notebook ## Para levantar el servidor local con jupyter notebook
deactivate ## Para desactivar el entorno virtual
CREATE TABLE trips (
  id INTEGER,
  date TEXT,
  pickup TEXT,
  dropoff TEXT,
  rider_id INTEGER,
  car_id INTEGER,
  type TEXT,
  cost INTEGER
@danielmoralesp
danielmoralesp / SQL project.md
Last active May 18, 2020 21:15
SQL project

Exploración de datos con SQL

Como la mayoría de las organizaciones, nuestra empresa utiliza SQL (Structured Query Language) para acceder a su base de datos.

Una base de datos es un conjunto de datos almacenados en una computadora. Estos datos suelen estar estructurados en tablas. Las tablas pueden crecer en tamaño y tener una multitud de columnas y registros.

Las hojas de cálculo, como Microsoft Excel y Google Sheets, permiten ver y manipular los datos directamente: con la selección, el filtrado, la clasificación, etc. Aplicando varias de estas operaciones se puede obtener el subconjunto de datos que se busca.

SQL (se pronuncia "S-Q-L" o "sequel") permite escribir consultas que definen el subconjunto de datos que se busca. A diferencia de Excel y Sheets, su computadora y SQL se encargarán de cómo obtener los datos; usted puede concentrarse en los datos que desea. Puede guardar estas consultas, refinarlas, compartirlas y ejecutarlas en diferentes bases de datos.

Es una gran manera de acceder a los datos

@danielmoralesp
danielmoralesp / sql project3 - multiples-tablas 2.md
Last active May 20, 2020 20:14
sql project3 - multiple tables

Multiples tablas

Practiquemos lo que aprendimos sobre los JOINS combinando filas de diferentes tablas.

Supongamos que eres un analista de datos una plataforma para compartir viajes en carro (RideSharing). Para un proyecto, y se le dijo que creara tres tablas

Warning: El objetivo de esta primera parte es entender que a veces debemos limpiar, arreglar, modificar, rellenar algunos datos, antes de subirlos a nuestra base de datos. Normalmente, nosotros como data scientists recibimos archivos .db, .sqlite, .csv que podria venir ya listo para trabajar, pero otras veces no contamos con esa suerte :). Por tanto, tenga en cuenta donde van las comas, los punto y comas, los espacios, los nils, etc. Recomendamos usar un editor de texto como Atom o Sublime (y usar los atajos que proveen) para facilitar la tarea de manipulacion de datos. Más adelante veremos otras herramientas, por ahora familiaricemonos con la manipulacion de datos directamente en sql.

  1. trips
@danielmoralesp
danielmoralesp / SQL Project #2.md
Last active May 18, 2020 18:19
SQL Project #2

Introducción

Una compañía de video, necesita tu ayuda para analizar los datos de sus usuarios.

Hemos creado una parte de su conjunto de datos en este enlace (descargguelo y explore los datos: https://drive.google.com/file/d/16h8JhQNmV6cOrVsA13yaQG2sbsVHvBsG/view?usp=sharing)

La base de datos contiene 3 tablas:

  • usuarios contiene los detalles básicos de la cuenta de cada usuario
  • pagos contiene los detalles de pago para un período de 3 meses