Daniel M. danielmoralesp

## SETTINGS.json
{
  RAW_DATA_DIR: "./data/",
  TRAIN_DATA_CLEAN_PATH: "./data/processed/train.csv",
  TEST_DATA_CLEAN_PATH: "./data/processed/test.csv",
  MODEL_CHECKPOINT_DIR: "./models/",
  LOGS_DIR: "./logs/",
  SUBMISSION_DIR: "./submissions/"
}

## model_directory_tree.txt
.
./sample_comp_dir
./sample_comp_dir/documentation
./sample_comp_dir/EDA
./sample_comp_dir/code
./sample_comp_dir/logs
./sample_comp_dir/submissions
./sample_comp_dir/data
./sample_comp_dir/data/raw
./sample_comp_dir/data/processed

## requirements.txt
autoflake==1.1
autopep8==1.3.5
flake8==3.5.0
h5py==2.7.1
Keras==2.1.4
numba==0.38.0
numpy==1.14.3
numpydoc==0.8.0
pandas==0.23.0
pandas-profiling==1.4.1

## README.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                danielmoralesp
                / README.md
            
            
              Last active
              June 21, 2021 13:33
            
              
                DataSource.ai Competitions - README.md
              
          
    Hello!

Below you can find a outline of how to reproduce my solution for the  competition.
If you run into any trouble with the setup/code or have any questions please contact me at (email)
ARCHIVE CONTENTS


model.tgz                   : original model upload - contains original code, additional training examples, corrected labels, etc
comp_etc                    : contains ancillary information for prediction - clustering of training/test examples
comp_mdl                    : model binaries used in generating solution
comp_preds : model predictions


## tree.py
import operator
from collections import Counter
import random
import numpy as np
np.random.seed(1)
random.seed(1)

def split(dataset, labels, column):
    data_subsets = []
    label_subsets = []

## jupyter.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                danielmoralesp
                / jupyter.md
            
            
              Created
              June 6, 2020 02:11
            
              
                Jupyter Commands
              
          
    pip3 --version ## Para revisar la version de pip
sudo pip3 install virtualenv ## Para instalar virtualenv
virtualenv primer_proyecto ## Para crear la carpeta del entorno virtual
cd primer_proyecto ## para acceder a la carpeta del entorno virtual
source bin/activate ## Para activar el entorno virtual
pip3 install jupyter ## para instalar jupyter dentro del entorno virtual
jupyter notebook ## Para levantar el servidor local con jupyter notebook
deactivate ## Para desactivar el entorno virtual


## multiple-tables-db.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                danielmoralesp
                / multiple-tables-db.md
            
            
              Created
              May 19, 2020 01:40
            
              
                multiple-tables-db
              
          
    CREATE TABLE trips (
  id INTEGER,
  date TEXT,
  pickup TEXT,
  dropoff TEXT,
  rider_id INTEGER,
  car_id INTEGER,
  type TEXT,
  cost INTEGER


## SQL project.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                danielmoralesp
                / SQL project.md
            
            
              Last active
              May 18, 2020 21:15
            
              
                SQL project
              
          
    Exploración de datos con SQL

Como la mayoría de las organizaciones, nuestra empresa utiliza SQL (Structured Query Language) para acceder a su base de datos.
Una base de datos es un conjunto de datos almacenados en una computadora. Estos datos suelen estar estructurados en tablas. Las tablas pueden crecer en tamaño y tener una multitud de columnas y registros.
Las hojas de cálculo, como Microsoft Excel y Google Sheets, permiten ver y manipular los datos directamente: con la selección, el filtrado, la clasificación, etc. Aplicando varias de estas operaciones se puede obtener el subconjunto de datos que se busca.
SQL (se pronuncia "S-Q-L" o "sequel") permite escribir consultas que definen el subconjunto de datos que se busca. A diferencia de Excel y Sheets, su computadora y SQL se encargarán de cómo obtener los datos; usted puede concentrarse en los datos que desea. Puede guardar estas consultas, refinarlas, compartirlas y ejecutarlas en diferentes bases de datos.
Es una gran manera de acceder a los datos

  
## sql project3 - multiples-tablas 2.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                danielmoralesp
                / sql project3 - multiples-tablas 2.md
            
            
              Last active
              May 20, 2020 20:14
            
              
                sql project3 - multiple tables
              
          
    Multiples tablas

Practiquemos lo que aprendimos sobre los JOINS combinando filas de diferentes tablas.
Supongamos que eres un analista de datos una plataforma para compartir viajes en carro (RideSharing). Para un proyecto, y se le dijo que creara tres tablas
Warning: El objetivo de esta primera parte es entender que a veces debemos limpiar, arreglar, modificar, rellenar algunos datos, antes de subirlos a nuestra base de datos. Normalmente, nosotros como data scientists recibimos archivos .db, .sqlite, .csv que podria venir ya listo para trabajar, pero otras veces no contamos con esa suerte :). Por tanto, tenga en cuenta donde van las comas, los punto y comas, los espacios, los nils, etc. Recomendamos usar un editor de texto como Atom o Sublime (y usar los atajos que proveen) para facilitar la tarea de manipulacion de datos. Más adelante veremos otras herramientas, por ahora familiaricemonos con la manipulacion de datos directamente en sql.


trips


## SQL Project #2.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                danielmoralesp
                / SQL Project #2.md
            
            
              Last active
              May 18, 2020 18:19
            
              
                SQL Project #2
              
          
    Introducción

Una compañía de video, necesita tu ayuda para analizar los datos de sus usuarios.
Hemos creado una parte de su conjunto de datos en este enlace (descargguelo y explore los datos: https://drive.google.com/file/d/16h8JhQNmV6cOrVsA13yaQG2sbsVHvBsG/view?usp=sharing)
La base de datos contiene 3 tablas:

usuarios contiene los detalles básicos de la cuenta de cada usuario
pagos contiene los detalles de pago para un período de 3 meses
	{
	RAW_DATA_DIR: "./data/",
	TRAIN_DATA_CLEAN_PATH: "./data/processed/train.csv",
	TEST_DATA_CLEAN_PATH: "./data/processed/test.csv",
	MODEL_CHECKPOINT_DIR: "./models/",
	LOGS_DIR: "./logs/",
	SUBMISSION_DIR: "./submissions/"
	}
	.
	./sample_comp_dir
	./sample_comp_dir/documentation
	./sample_comp_dir/EDA
	./sample_comp_dir/code
	./sample_comp_dir/logs
	./sample_comp_dir/submissions
	./sample_comp_dir/data
	./sample_comp_dir/data/raw
	./sample_comp_dir/data/processed
	autoflake==1.1
	autopep8==1.3.5
	flake8==3.5.0
	h5py==2.7.1
	Keras==2.1.4
	numba==0.38.0
	numpy==1.14.3
	numpydoc==0.8.0
	pandas==0.23.0
	pandas-profiling==1.4.1
	import operator
	from collections import Counter
	import random
	import numpy as np
	np.random.seed(1)
	random.seed(1)

	def split(dataset, labels, column):
	data_subsets = []
	label_subsets = []