REPO: https://github.com/mgaitan/trestapas
Esta es una propuesta para desarrollar en el hackaton del Congreso de periodismo digital de FOPEA http://congresodigitalfopea.com/hackaton/
Quiero hacer una plataforma de adquisición (scrapping web) y análisis temático de los titulares y artículos de opinión de los principales diarios argentinos.
Tanto para el periodismo como para la ciudadanía es importante analizar la "agenda histórica" periodística. ¿Cuándo "empezó" y "terminó" un tema para un diario? ¿Cómo relevancia le dan los distintos medios? ¿Quién y cuándo "empieza" un tema?
El sistema de reportes deberia permitir consultas y visualizar gráficos. Por ejemplo:
- palabras más usadas en los titulares o articulos de uno o más diarios en un periodo de tiempo. La visualización puede ser como una nube de palabras que cambia dinámicamente moviendo una linea de tiempo.
- temas de tapa: historico de palabras o frases en tapa. Gráfico similar a https://books.google.com/ngrams donde el eje de ordernadas debe ponderar el "peso" relativo (por ejemplo, tamaño del titular)
- análisis de sentimiento de titulares. Se puede utilizar alguna API externa y mostrar como un "mapa de calor"