Skip to content

Instantly share code, notes, and snippets.

Avatar
🎯
Focusing

Daniel Morales danielmoralesp

🎯
Focusing
View GitHub Profile
@danielmoralesp
danielmoralesp / SETTINGS.json
Last active Jun 21, 2021
DataSource.ai Competitions - SETTINGS.json
View SETTINGS.json
{
RAW_DATA_DIR: "./data/",
TRAIN_DATA_CLEAN_PATH: "./data/processed/train.csv",
TEST_DATA_CLEAN_PATH: "./data/processed/test.csv",
MODEL_CHECKPOINT_DIR: "./models/",
LOGS_DIR: "./logs/",
SUBMISSION_DIR: "./submissions/"
}
@danielmoralesp
danielmoralesp / model_directory_tree.txt
Created Jun 21, 2021
DataSource.ai Competitions - Directory Tree
View model_directory_tree.txt
.
./sample_comp_dir
./sample_comp_dir/documentation
./sample_comp_dir/EDA
./sample_comp_dir/code
./sample_comp_dir/logs
./sample_comp_dir/submissions
./sample_comp_dir/data
./sample_comp_dir/data/raw
./sample_comp_dir/data/processed
@danielmoralesp
danielmoralesp / requirements.txt
Created Jun 21, 2021
DataSource.ai Competitions - requirements.txt
View requirements.txt
autoflake==1.1
autopep8==1.3.5
flake8==3.5.0
h5py==2.7.1
Keras==2.1.4
numba==0.38.0
numpy==1.14.3
numpydoc==0.8.0
pandas==0.23.0
pandas-profiling==1.4.1
@danielmoralesp
danielmoralesp / README.md
Last active Jun 21, 2021
DataSource.ai Competitions - README.md
View README.md

Hello!

Below you can find a outline of how to reproduce my solution for the competition. If you run into any trouble with the setup/code or have any questions please contact me at (email)

ARCHIVE CONTENTS

  • model.tgz : original model upload - contains original code, additional training examples, corrected labels, etc
  • comp_etc : contains ancillary information for prediction - clustering of training/test examples
  • comp_mdl : model binaries used in generating solution
  • comp_preds : model predictions
View tree.py
import operator
from collections import Counter
import random
import numpy as np
np.random.seed(1)
random.seed(1)
def split(dataset, labels, column):
data_subsets = []
label_subsets = []
View jupyter.md
pip3 --version ## Para revisar la version de pip
sudo pip3 install virtualenv ## Para instalar virtualenv
virtualenv primer_proyecto ## Para crear la carpeta del entorno virtual
cd primer_proyecto ## para acceder a la carpeta del entorno virtual
source bin/activate ## Para activar el entorno virtual
pip3 install jupyter ## para instalar jupyter dentro del entorno virtual
jupyter notebook ## Para levantar el servidor local con jupyter notebook
deactivate ## Para desactivar el entorno virtual
View multiple-tables-db.md
CREATE TABLE trips (
  id INTEGER,
  date TEXT,
  pickup TEXT,
  dropoff TEXT,
  rider_id INTEGER,
  car_id INTEGER,
  type TEXT,
  cost INTEGER
View SQL project.md

Exploración de datos con SQL

Como la mayoría de las organizaciones, nuestra empresa utiliza SQL (Structured Query Language) para acceder a su base de datos.

Una base de datos es un conjunto de datos almacenados en una computadora. Estos datos suelen estar estructurados en tablas. Las tablas pueden crecer en tamaño y tener una multitud de columnas y registros.

Las hojas de cálculo, como Microsoft Excel y Google Sheets, permiten ver y manipular los datos directamente: con la selección, el filtrado, la clasificación, etc. Aplicando varias de estas operaciones se puede obtener el subconjunto de datos que se busca.

SQL (se pronuncia "S-Q-L" o "sequel") permite escribir consultas que definen el subconjunto de datos que se busca. A diferencia de Excel y Sheets, su computadora y SQL se encargarán de cómo obtener los datos; usted puede concentrarse en los datos que desea. Puede guardar estas consultas, refinarlas, compartirlas y ejecutarlas en diferentes bases de datos.

Es una gran manera de acceder a los datos

View sql project3 - multiples-tablas 2.md

Multiples tablas

Practiquemos lo que aprendimos sobre los JOINS combinando filas de diferentes tablas.

Supongamos que eres un analista de datos una plataforma para compartir viajes en carro (RideSharing). Para un proyecto, y se le dijo que creara tres tablas

Warning: El objetivo de esta primera parte es entender que a veces debemos limpiar, arreglar, modificar, rellenar algunos datos, antes de subirlos a nuestra base de datos. Normalmente, nosotros como data scientists recibimos archivos .db, .sqlite, .csv que podria venir ya listo para trabajar, pero otras veces no contamos con esa suerte :). Por tanto, tenga en cuenta donde van las comas, los punto y comas, los espacios, los nils, etc. Recomendamos usar un editor de texto como Atom o Sublime (y usar los atajos que proveen) para facilitar la tarea de manipulacion de datos. Más adelante veremos otras herramientas, por ahora familiaricemonos con la manipulacion de datos directamente en sql.

  1. trips
View SQL Project #2.md

Introducción

Una compañía de video, necesita tu ayuda para analizar los datos de sus usuarios.

Hemos creado una parte de su conjunto de datos en este enlace (descargguelo y explore los datos: https://drive.google.com/file/d/16h8JhQNmV6cOrVsA13yaQG2sbsVHvBsG/view?usp=sharing)

La base de datos contiene 3 tablas:

  • usuarios contiene los detalles básicos de la cuenta de cada usuario
  • pagos contiene los detalles de pago para un período de 3 meses