Un produit existe déjà sur http://codedutravail-dev.num.social.gouv.fr
Documentation & sources : https://github.com/SocialGouv/code-du-travail-numerique
Nous utilisons ElasticSearch pour ingérer les données publiques issues de différentes sources.
Recap issues ES dans SocialGouv/code-du-travail-numerique#405
Source | Documents |
---|---|
KALI | 351 |
IDCC | 844 |
code du travail | 10948 |
fiches service public | 678 |
fiches min.travail | 822 |
faq | 105 |
faq CC | 46 |
courriers | 6 |
outils | 1 |
TOTAL | 13839 |
Le setup est expliqué dans le README du projet. Il faut initialiement lancer une commande pour indexer les données dans ElasticSearch. Les données sont incluses dans le projet: cf dataset.
- Le front est en ReactJS / Next.js
- Une API en NodeJS traite les requêtes de l'UI et interroge Elastic search.
- Un script Python traite plusieurs fichiers JSON/CSV, crée l'index ES et indexe les documents.
- Audit/Conseil sur l'index et architecture actuels
- Correction de problèmes de pertinence/tuning identifiés : cf GitHub
- Conseil sur une architecture plus scalable/résiliente et sécurisée
Recherches NLP vec Onogone : https://gist.github.com/revolunet/bcc2fe58d5bb2199d2745b538f210dda