microcoder-py/layoutlm_text_labelling.py

## layoutlm_text_labelling.py
from transformers import LayoutLMTokenizer, LayoutLMForTokenClassification
import torch

tokenizer = LayoutLMTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
model = LayoutLMForTokenClassification.from_pretrained("microsoft/layoutlm-base-uncased")

words = ["Hello", "world"]
normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]

token_boxes = []
for word, box in zip(words, normalized_word_boxes):
    word_tokens = tokenizer.tokenize(word)
    token_boxes.extend([box] * len(word_tokens))
# add bounding boxes of cls + sep tokens
token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]

encoding = tokenizer(" ".join(words), return_tensors="pt")
input_ids = encoding["input_ids"]
attention_mask = encoding["attention_mask"]
token_type_ids = encoding["token_type_ids"]
bbox = torch.tensor([token_boxes])
token_labels = torch.tensor([1, 1, 0, 0]).unsqueeze(0)  # batch size of 1

outputs = model(
    input_ids=input_ids,
    bbox=bbox,
    attention_mask=attention_mask,
    token_type_ids=token_type_ids,
    labels=token_labels,
)

loss = outputs.loss
logits = outputs.logits
	from transformers import LayoutLMTokenizer, LayoutLMForTokenClassification
	import torch

	tokenizer = LayoutLMTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
	model = LayoutLMForTokenClassification.from_pretrained("microsoft/layoutlm-base-uncased")

	words = ["Hello", "world"]
	normalized_word_boxes = [637, 773, 693, 782], [698, 773, 733, 782]

	token_boxes = []
	for word, box in zip(words, normalized_word_boxes):
	word_tokens = tokenizer.tokenize(word)
	token_boxes.extend([box] * len(word_tokens))
	# add bounding boxes of cls + sep tokens
	token_boxes = [[0, 0, 0, 0]] + token_boxes + [[1000, 1000, 1000, 1000]]

	encoding = tokenizer(" ".join(words), return_tensors="pt")
	input_ids = encoding["input_ids"]
	attention_mask = encoding["attention_mask"]
	token_type_ids = encoding["token_type_ids"]
	bbox = torch.tensor([token_boxes])
	token_labels = torch.tensor([1, 1, 0, 0]).unsqueeze(0) # batch size of 1

	outputs = model(
	input_ids=input_ids,
	bbox=bbox,
	attention_mask=attention_mask,
	token_type_ids=token_type_ids,
	labels=token_labels,
	)

	loss = outputs.loss
	logits = outputs.logits