Skip to content

Instantly share code, notes, and snippets.

@pr3ssh
Last active February 24, 2019 15:59
Show Gist options
  • Save pr3ssh/3a06ab226d7c98609a6af643bf1b991c to your computer and use it in GitHub Desktop.
Save pr3ssh/3a06ab226d7c98609a6af643bf1b991c to your computer and use it in GitHub Desktop.
Agenda del Taller de webcrawling con Python y Beautiful Soup [uhu.es/etsi '19]

TALLER DE webcrawling CON PYTHON

Pablo Martín (@pr3ssh)

21 de febrero de 2019

AGENDA

  1. Por qué webcrawling
  2. Beautiful Soup
  3. El flujo básico del webcrawling
  4. Ejercicio: Países miembros de la Unión Europera
  5. Ejercicio: Tesis doctorales de la Universidad de Huelva
  6. Retos
  7. Algunos proyectos (cívicos) interesantes
  8. Enlaces de referencia

Por qué webcrawling

Podemos ver la web como una gran base de datos


Beautiful Soup

  • Librería para webcrawling
  • Escrita en Python
  • Fácil de usar
  • Educativa
  • Documentación

El flujo básico

  1. Buscar la información en la Web
  2. Obtener la url inicial
  3. Obtener el HTML de la url
  4. Parsear el contenido HTML
  5. Seleccionar datos
  6. Procesar los datos
  7. (Volver a 3 si hay más urls)

Ejercicio: Países miembros de la Unión Europea


Ejercicio: Tesis doctorales de la Universidad de Huelva


Retos

  • Peticiones POST
  • Modificar cabeceras (headers)
  • Cookies
  • Multi-hilo
  • Multi-máquina
  • Evitar baneo de IPs
  • No parecer robótico
  • Cambios en el HTML

Algunos proyectos (cívicos) interesantes


Enlaces de referencia

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment