thiagomarzagao/bert_test.py

## bert_test.py
import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained('neuralmind/bert-large-portuguese-cased')
model = AutoModelForTokenClassification.from_pretrained('neuralmind/bert-large-portuguese-cased')

label_list = [
    'O', # outside of a named entity
    'B-MISC', # beginning of a miscellaneous entity right after another miscellaneous entity
    'I-MISC', # miscellaneous entity
    'B-PER', # beginning of a person's name right after another person's name
    'I-PER', # person's name
    'B-ORG', # beginning of a location right after another location
    'I-LOC' # location
    ]

text = 'Luiz Henrique Mandetta (Campo Grande, 30 de novembro de 1964) é um médico ortopedista e político brasileiro. Foi deputado federal e atualmente é Ministro da Saúde no governo de Jair Bolsonaro.'

tokens = tokenizer.tokenize(tokenizer.decode(tokenizer.encode(text)))
inputs = tokenizer.encode(text, return_tensors = 'pt')

outputs = model(inputs)[0]
predictions = torch.argmax(outputs, dim = 2)

print([(token, label_list[prediction]) for token, prediction in zip(tokens, predictions[0].tolist())])
	import torch
	from transformers import AutoTokenizer, AutoModelForTokenClassification

	tokenizer = AutoTokenizer.from_pretrained('neuralmind/bert-large-portuguese-cased')
	model = AutoModelForTokenClassification.from_pretrained('neuralmind/bert-large-portuguese-cased')

	label_list = [
	'O', # outside of a named entity
	'B-MISC', # beginning of a miscellaneous entity right after another miscellaneous entity
	'I-MISC', # miscellaneous entity
	'B-PER', # beginning of a person's name right after another person's name
	'I-PER', # person's name
	'B-ORG', # beginning of a location right after another location
	'I-LOC' # location
	]

	text = 'Luiz Henrique Mandetta (Campo Grande, 30 de novembro de 1964) é um médico ortopedista e político brasileiro. Foi deputado federal e atualmente é Ministro da Saúde no governo de Jair Bolsonaro.'

	tokens = tokenizer.tokenize(tokenizer.decode(tokenizer.encode(text)))
	inputs = tokenizer.encode(text, return_tensors = 'pt')

	outputs = model(inputs)[0]
	predictions = torch.argmax(outputs, dim = 2)

	print([(token, label_list[prediction]) for token, prediction in zip(tokens, predictions[0].tolist())])