Skip to content

Instantly share code, notes, and snippets.

@mgaitan
Last active August 29, 2015 14:00
Show Gist options
  • Save mgaitan/11179437 to your computer and use it in GitHub Desktop.
Save mgaitan/11179437 to your computer and use it in GitHub Desktop.
Propuesta para el hackaton FOPEA

REPO: https://github.com/mgaitan/trestapas

Tres tapas

Esta es una propuesta para desarrollar en el hackaton del Congreso de periodismo digital de FOPEA http://congresodigitalfopea.com/hackaton/

Quiero hacer una plataforma de adquisición (scrapping web) y análisis temático de los titulares y artículos de opinión de los principales diarios argentinos.

Tanto para el periodismo como para la ciudadanía es importante analizar la "agenda histórica" periodística. ¿Cuándo "empezó" y "terminó" un tema para un diario? ¿Cómo relevancia le dan los distintos medios? ¿Quién y cuándo "empieza" un tema?

El sistema de reportes deberia permitir consultas y visualizar gráficos. Por ejemplo:

  • palabras más usadas en los titulares o articulos de uno o más diarios en un periodo de tiempo. La visualización puede ser como una nube de palabras que cambia dinámicamente moviendo una linea de tiempo.
  • temas de tapa: historico de palabras o frases en tapa. Gráfico similar a https://books.google.com/ngrams donde el eje de ordernadas debe ponderar el "peso" relativo (por ejemplo, tamaño del titular)
  • análisis de sentimiento de titulares. Se puede utilizar alguna API externa y mostrar como un "mapa de calor"
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment