Skip to content

Instantly share code, notes, and snippets.

@pr3ssh
Created April 27, 2018 07:26
Show Gist options
  • Save pr3ssh/203a97baab7d28ed361cca87a75a0a7f to your computer and use it in GitHub Desktop.
Save pr3ssh/203a97baab7d28ed361cca87a75a0a7f to your computer and use it in GitHub Desktop.
Agenda del Taller de Webscraping con Python y Beautiful Soup

TALLER DE WEBSCRAPING CON PYTHON

AGENDA

  1. Intro a Python
  2. Por qué webscraping
  3. Beautiful Soup
  4. El flujo básico del webscraping
  5. Ejercicio: Países miembros de la Unión Europera
  6. Ejercicio: Precios de las viviendas
  7. Ejercicio: Tesis doctorales de la Universidad de Huelva
  8. Ejercicio personal
  9. Retos
  10. Algunos proyectos (cívicos) interesantes
  11. Enlaces de referencia

Intro a Python

  • Lenguaje interpretado

  • Debilmente tipado

  • Lenguaje imperativo (y orientado a objetos) con trazas funcionales

  • Muy bueno para aprender

  • Mejor para el mundo real

  • Gran comunidad

  • "Casi" infinito código contribuido por la comunidad

  • Virtualenvs

  • Pip packages

  • REPL (o iPython)

Por qué webscraping

Podemos ver la web como una gran base de datos

Beautiful Soup

  • Librería para webscraping
  • Escrita en Python
  • Fácil de usar
  • Educativa

El flujo básico

  1. Seleccionar el contenido
  2. Obtener la url inicial
  3. Obtener el HTML de la url
  4. Parsear el texto del HTML
  5. Seleccionar datos
  6. Procesar los datos
  7. (Volver a 3 si hay más urls)

Ejercicio: Países miembros de la Unión Europera

Ejercicio: Precios de las viviendas

Ejercicio: Tesis doctorales de la Universidad de Huelva

Ejercicio personal

  • Cada persona un ejercicio de webscraping
  • Basado en los los conocimientos adquiridos
  • Hay que justificar la selección de datos realizada
  • Si no da tiempo, se ha de especificar dónde se quería llegar

Retos

  • GET vs POST
  • Cabeceras (headers)
  • Cookies
  • Comportamiento robótico
  • Multi-hilo
  • Multi-máquinas
  • Banear IPs
  • Cambios en el HTML

Algunos proyectos (cívicos) interesantes

Enlaces de referencia

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment