Skip to content

Instantly share code, notes, and snippets.

@Dpbm
Created May 28, 2022 17:42
Show Gist options
  • Save Dpbm/c63e076aca0c155212095b34630a888f to your computer and use it in GitHub Desktop.
Save Dpbm/c63e076aca0c155212095b34630a888f to your computer and use it in GitHub Desktop.
Anotações do evento "Foundation Language Models - o que são, pra que servem, aplicações e oportunidades" do Bradesco

Foundation language models

Modelos atuais GPT-3, BERT, ELMo, XLM, ROberta, entre outros.

  • Pega dados genéricos sem muito tratamento da web

  • A partir desse modelo genérico a gente consegue fazer um downstream task (fazer tarefas mais especificas)


Maneiras de usar

  • off-the-shelf: pegar o modelo inteiro --> sentence embedding (codificação do input) --> joga para outro modelo --> pega o resultado

  • model tuning: foundation model com o outro modelo junto de forma que eles se conversem e o foundation model consiga devolver algo mais fácil para o outro modelo usado

  • fine-tuned language model(ts): passar os parâmetros do foundation model para o modelo especifico

  • zero-shot-leaning: modelo que não precisa de treinamento com exemplos

  • self-supervised LM: o modelo tem tantos dados para treino que algumas downstream tasks ja estão subentendidos no meio dos dados, então ele já consegue fazer essas tarefas, alem disso você consegue fazer ela aprender outras tasks tbm com pouco ou nenhum treino (zero-shot-leaning ou few-shot-learning)


modelos com mais parâmetros geralmente são melhores


como crescer muito um modelo?

  • transformers: arquitetura de rede neural

    • se baseia no mecanismo chamado attention, que por consequência se baseia no modelo de encoder-decoder

    • encoder decoder --> texto passa pelo decoder e returna um vetor(contexto), decoder pega esse vetor e codifica ele

    • arquitetura encoder --> self-attention para uma feed-forward

    • arquitetura decoder --> self-attention para encoder-decoder para attention para feed forward

    • isso é usado pois você consegue empilhar vários encoder-decoder e rodar paralelamente

    • modelos encoder-only(bons em codificar texto) --> BERT ROBERTA

    • modelos decoder only(bons em geração de texto) --> GPTs, PaLM, Gopher

    • modelos encoder decoder --> BART, T5


  • modelo supervisionado --> dados que possuem rótulos
  • modelo não supervisionado --> dados parecidos
  • self-supervision --> os próprios dados ja possuem rótulos

Treinando modelos de tradução

	frases em ingles(x) 
	frases em português(y, tradução em português)
	resultado joga no modelo e ele vai aprendendo

Treino dos GPTs

	frases faltando uma parte para entender o que ela significa, dps o resultado(y)

	exemplo:
	x --> the mouse ate the 
	y --> cheese

	joga no modelo e ele vai aprendendo

Funcionamento modelo BERT (masked language model)

 	deixa o texto com um dado tampado
	a partir dai ele tenta prever essa palavra na saída para pegar o contexto da frase

Coisas para pesquisar após tudo isso

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment