pr3ssh/agenda.md

## agenda.md

      
    Raw
  

              agenda.md
            
          
    TALLER DE webcrawling CON PYTHON

Pablo Martín (@pr3ssh)
21 de febrero de 2019
AGENDA


Por qué webcrawling
Beautiful Soup
El flujo básico del webcrawling
Ejercicio: Países miembros de la Unión Europera
Ejercicio: Tesis doctorales de la Universidad de Huelva
Retos
Algunos proyectos (cívicos) interesantes
Enlaces de referencia


Por qué webcrawling

Podemos ver la web como una gran base de datos

Beautiful Soup


Librería para webcrawling
Escrita en Python
Fácil de usar
Educativa
Documentación


El flujo básico


Buscar la información en la Web
Obtener la url inicial
Obtener el HTML de la url
Parsear el contenido HTML
Seleccionar datos
Procesar los datos
(Volver a 3 si hay más urls)


Ejercicio: Países miembros de la Unión Europea


Contenido
Código


Ejercicio: Tesis doctorales de la Universidad de Huelva


Contenido
Código


Retos


Peticiones POST
Modificar cabeceras (headers)
Cookies
Multi-hilo
Multi-máquina
Evitar baneo de IPs
No parecer robótico
Cambios en el HTML


Algunos proyectos (cívicos) interesantes


Political Watch
LibreBORME
Data Hippo
Proyecto Colibrí
BOE API


Enlaces de referencia


Documentación de Beautiful Soup
Documenatación de Scrapy
Selenium
Intro to Web Scraping with Python and Beautiful Soup
Better web scraping in Python with Selenium, Beautiful Soup, and Pandas