Dpbm/notes.md

## notes.md

      
    Raw
  

              notes.md
            
          
    Foundation language models

Modelos atuais GPT-3, BERT, ELMo, XLM, ROberta, entre outros.


Pega dados genéricos sem muito tratamento da web


A partir desse modelo genérico a gente consegue fazer um downstream task (fazer tarefas mais especificas)


Maneiras de usar


off-the-shelf:  pegar o modelo inteiro --> sentence embedding (codificação do input) --> joga para outro modelo --> pega o resultado


model tuning: foundation model com o outro modelo junto de forma que eles se conversem e o foundation model consiga devolver algo mais fácil para o outro modelo usado


fine-tuned language model(ts): passar os parâmetros do foundation model para o modelo especifico


zero-shot-leaning: modelo que não precisa de treinamento com exemplos


self-supervised LM: o modelo tem tantos  dados para treino que algumas downstream tasks ja estão subentendidos no meio dos dados, então ele já consegue fazer essas tarefas, alem disso você consegue fazer ela aprender outras tasks tbm com pouco ou nenhum treino (zero-shot-leaning ou few-shot-learning)


modelos com mais parâmetros geralmente são melhores


como crescer muito um modelo?


transformers: arquitetura de rede neural


se baseia no mecanismo chamado attention, que por consequência se baseia no modelo de encoder-decoder


encoder decoder --> texto passa pelo decoder e returna um vetor(contexto), decoder pega esse vetor e codifica ele


arquitetura encoder --> self-attention para uma feed-forward


arquitetura decoder --> self-attention para encoder-decoder para attention para feed forward


isso é usado pois você consegue empilhar vários encoder-decoder e rodar paralelamente


modelos encoder-only(bons em codificar texto) --> BERT ROBERTA


modelos decoder only(bons em geração de texto) --> GPTs, PaLM, Gopher


modelos encoder decoder --> BART, T5


modelo supervisionado --> dados que possuem rótulos
modelo não supervisionado --> dados parecidos
self-supervision --> os próprios dados ja possuem rótulos


Treinando modelos de tradução
	frases em ingles(x) 
	frases em português(y, tradução em português)
	resultado joga no modelo e ele vai aprendendo


Treino dos GPTs
	frases faltando uma parte para entender o que ela significa, dps o resultado(y)

	exemplo:
	x --> the mouse ate the 
	y --> cheese

	joga no modelo e ele vai aprendendo

Funcionamento modelo BERT (masked language model)
 	deixa o texto com um dado tampado
	a partir dai ele tenta prever essa palavra na saída para pegar o contexto da frase


Coisas para pesquisar após tudo isso

feature engineer
Gato --> modelo novo da deepmind
self-attention
modelo não supervisionado
masked language model
https://stanford-cs324.github.io/winter2022/lectures/
https://jalammar.github.io/illustrated-transformer/
https://beta.openai.com/playground