Les grands modèles de langage sont des modèles d'intelligence artificielle conçus pour comprendre et générer du texte. Ils sont entraînés sur de grandes quantités de texte non étiqueté en utilisant l'apprentissage auto-supervisé ou l'apprentissage semi-supervisé. Ces modèles sont capables de capturer une grande partie de la syntaxe et de la sémantique du langage humain, permettant ainsi de retraduire une connaissance générale sur le monde.
Les grands modèles de langage utilisent généralement une architecture basée sur un mécanisme d'attention, appelée transformeur. Cette architecture permet de traiter des données séquentielles tout en étant parallélisable lors de l'entraînement. Les LLM peuvent également être entraînés sur des tâches auxiliaires qui testent leur compréhension de la distribution des données, telles que la prédiction de la phrase suivante.