This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Below you can find a outline of how to reproduce my solution for the competition.
If you run into any trouble with the setup/code or have any questions please contact me at (email)
ARCHIVE CONTENTS
model.tgz : original model upload - contains original code, additional training examples, corrected labels, etc
comp_etc : contains ancillary information for prediction - clustering of training/test examples
comp_mdl : model binaries used in generating solution
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
pip3 --version ## Para revisar la version de pip
sudo pip3 install virtualenv ## Para instalar virtualenv
virtualenv primer_proyecto ## Para crear la carpeta del entorno virtual
cd primer_proyecto ## para acceder a la carpeta del entorno virtual
source bin/activate ## Para activar el entorno virtual
pip3 install jupyter ## para instalar jupyter dentro del entorno virtual
jupyter notebook ## Para levantar el servidor local con jupyter notebook
deactivate ## Para desactivar el entorno virtual
Como la mayoría de las organizaciones, nuestra empresa utiliza SQL (Structured Query Language) para acceder a su base de datos.
Una base de datos es un conjunto de datos almacenados en una computadora. Estos datos suelen estar estructurados en tablas. Las tablas pueden crecer en tamaño y tener una multitud de columnas y registros.
Las hojas de cálculo, como Microsoft Excel y Google Sheets, permiten ver y manipular los datos directamente: con la selección, el filtrado, la clasificación, etc. Aplicando varias de estas operaciones se puede obtener el subconjunto de datos que se busca.
SQL (se pronuncia "S-Q-L" o "sequel") permite escribir consultas que definen el subconjunto de datos que se busca. A diferencia de Excel y Sheets, su computadora y SQL se encargarán de cómo obtener los datos; usted puede concentrarse en los datos que desea. Puede guardar estas consultas, refinarlas, compartirlas y ejecutarlas en diferentes bases de datos.
Practiquemos lo que aprendimos sobre los JOINS combinando filas de diferentes tablas.
Supongamos que eres un analista de datos una plataforma para compartir viajes en carro (RideSharing). Para un proyecto, y se le dijo que creara tres tablas
Warning: El objetivo de esta primera parte es entender que a veces debemos limpiar, arreglar, modificar, rellenar algunos datos, antes de subirlos a nuestra base de datos. Normalmente, nosotros como data scientists recibimos archivos .db, .sqlite, .csv que podria venir ya listo para trabajar, pero otras veces no contamos con esa suerte :). Por tanto, tenga en cuenta donde van las comas, los punto y comas, los espacios, los nils, etc. Recomendamos usar un editor de texto como Atom o Sublime (y usar los atajos que proveen) para facilitar la tarea de manipulacion de datos. Más adelante veremos otras herramientas, por ahora familiaricemonos con la manipulacion de datos directamente en sql.