Pablo Martín (@pr3ssh)
21 de febrero de 2019
- Por qué webcrawling
- Beautiful Soup
- El flujo básico del webcrawling
- Ejercicio: Países miembros de la Unión Europera
- Ejercicio: Tesis doctorales de la Universidad de Huelva
- Retos
- Algunos proyectos (cívicos) interesantes
- Enlaces de referencia
Podemos ver la web como una gran base de datos
- Librería para webcrawling
- Escrita en Python
- Fácil de usar
- Educativa
- Documentación
- Buscar la información en la Web
- Obtener la url inicial
- Obtener el HTML de la url
- Parsear el contenido HTML
- Seleccionar datos
- Procesar los datos
- (Volver a 3 si hay más urls)
- Peticiones POST
- Modificar cabeceras (headers)
- Cookies
- Multi-hilo
- Multi-máquina
- Evitar baneo de IPs
- No parecer robótico
- Cambios en el HTML