Skip to content

Instantly share code, notes, and snippets.

@revolunet
Last active December 21, 2018 20:30
Show Gist options
  • Save revolunet/bcc2fe58d5bb2199d2745b538f210dda to your computer and use it in GitHub Desktop.
Save revolunet/bcc2fe58d5bb2199d2745b538f210dda to your computer and use it in GitHub Desktop.
CDTN-onogone-21122018

Recap Onogone 21/12/2018

On organise la restitution en même temps que le kickoff ElasticSearch le 07/01 ?

Classification

Classification des contenus par thème "ePoseidon" en utilisant la citation d'articles, méthode qui performe mieux que le NLP dans les expériences menées. Plus d'exploration et de données nécessaires pour améliorer les résultats.

A tester : En ajoutant du "word embedding" sur les contenus en "language naturel" qu'on peut extraire car liés par un même thème (faq, titres des fiches), on pourrait rapprocher un texte libre de contenus sémantiquements proches.

Techniquement, le word embedding pourrait intervenir ici, juste avant la requete Elastic : un script permettrait d'utiliser une liste de mots/expressions proches avec des weights au lieu d'une seule valeur.

▶️ Conserver un système de themes commes ePoseidon est très utile pour lier ensemble les documents.

▶️ Creuser le "word embedding" pour rapprocher automagiquement

Scénarios de recherche

Algorithme qui permet de classifier une question dans un des scénarii définis dans l'excel des scénarios, qui correspond à un thème ePoseidon et permet de proposer des résultats classifiés dans ce thème.

Implementé séparement dans une API python

  • Il faut encore du travail côté métier pour affiner le tableau et l'agorithme avant d'intégrer ce travail dans le front. Objectifs ?.
  • Le tableau peut être enrichi avec d'autres colonnes. ex: hierarchie des normes à appliquer, filtres ES...

Pour l'instant la recherche utilise Elastic Search donc il faudrait également ajouter du "Word Embedding" pour pouvoir faire de la recherche sémantique.

▶️ Solution à tester/valider rapidement qui nécessite d'affiner le tableau en continu (=modifier les thèmes)

▶️ Les données vont permettre de consolider plusieurs informations utiles pour améliorer les recherches

▶️ Pourquoi ne pas utiliser les thèmes des "scénarios" pour gérer les catégories en bas du site ?

▶️ Creuser le "word embedding" pour rapprocher automagiquement

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment