- Arquitectura general del sistema (No cambiará)
- Proceso ETL (No cambiará)
- Modelo de datos (Puede cambiar 3.3)
Se ha implementado un sistema de segmentación de datos que procesa los logs de NGINX de la plataforma gob.pe, clasificando los eventos web en múltiples dimensiones de análisis: temporal, usuario único, sesión, dispositivo, entidad pública, tipo de contenido, descargas y detección de bots.
El sistema ETL aplica un proceso de filtrado multicapa que conserva únicamente los eventos que representan interacción real de usuarios con contenido de entidades públicas, descartando recursos técnicos y tráfico automatizado sin valor analítico. Los datos procesados se almacenan en ClickHouse con estructura optimizada que habilita la generación de indicadores de comportamiento de usuarios, métricas por entidad pública, análisis de contenido y métricas técnicas.
La implementación utiliza tecnologías robustas y escalables: Python 3.12 para el proceso ETL, PostgreSQL 16 para catálogo de entidades y caché de mapeos, ClickHouse 24