Created May 23, 2022 08:55
Tokenize js
function tokenize(txt) {
// on sépare en phrases pour avoir quelques points de départ dans la génération
let tokens = [];
const sentences = txt.split(/\n/gim).filter((x) => x);
// on tokenize chaque phrase en splitant les mots
for (let i = 0; i < sentences.length; i++) {
// on insert un START
let tks = sentences[i].match(/\S+/gim).filter((x) => x); => tokens.push(token));
return tokens;
