Modelos atuais GPT-3, BERT, ELMo, XLM, ROberta, entre outros.
-
Pega dados genéricos sem muito tratamento da web
-
A partir desse modelo genérico a gente consegue fazer um downstream task (fazer tarefas mais especificas)
Maneiras de usar
-
off-the-shelf: pegar o modelo inteiro --> sentence embedding (codificação do input) --> joga para outro modelo --> pega o resultado
-
model tuning: foundation model com o outro modelo junto de forma que eles se conversem e o foundation model consiga devolver algo mais fácil para o outro modelo usado
-
fine-tuned language model(ts): passar os parâmetros do foundation model para o modelo especifico
-
zero-shot-leaning: modelo que não precisa de treinamento com exemplos
-
self-supervised LM: o modelo tem tantos dados para treino que algumas downstream tasks ja estão subentendidos no meio dos dados, então ele já consegue fazer essas tarefas, alem disso você consegue fazer ela aprender outras tasks tbm com pouco ou nenhum treino (zero-shot-leaning ou few-shot-learning)
modelos com mais parâmetros geralmente são melhores
como crescer muito um modelo?
-
transformers: arquitetura de rede neural
-
se baseia no mecanismo chamado attention, que por consequência se baseia no modelo de encoder-decoder
-
encoder decoder --> texto passa pelo decoder e returna um vetor(contexto), decoder pega esse vetor e codifica ele
-
arquitetura encoder --> self-attention para uma feed-forward
-
arquitetura decoder --> self-attention para encoder-decoder para attention para feed forward
-
isso é usado pois você consegue empilhar vários encoder-decoder e rodar paralelamente
-
modelos encoder-only(bons em codificar texto) --> BERT ROBERTA
-
modelos decoder only(bons em geração de texto) --> GPTs, PaLM, Gopher
-
modelos encoder decoder --> BART, T5
-
- modelo supervisionado --> dados que possuem rótulos
- modelo não supervisionado --> dados parecidos
- self-supervision --> os próprios dados ja possuem rótulos
Treinando modelos de tradução
frases em ingles(x)
frases em português(y, tradução em português)
resultado joga no modelo e ele vai aprendendo
Treino dos GPTs
frases faltando uma parte para entender o que ela significa, dps o resultado(y)
exemplo:
x --> the mouse ate the
y --> cheese
joga no modelo e ele vai aprendendo
Funcionamento modelo BERT (masked language model)
deixa o texto com um dado tampado
a partir dai ele tenta prever essa palavra na saída para pegar o contexto da frase
Coisas para pesquisar após tudo isso
- feature engineer
- Gato --> modelo novo da deepmind
- self-attention
- modelo não supervisionado
- masked language model
- https://stanford-cs324.github.io/winter2022/lectures/
- https://jalammar.github.io/illustrated-transformer/
- https://beta.openai.com/playground