cstorm125/tokenizer_train.py

## tokenizer_train.py
from pathlib import Path

from tokenizers import ByteLevelBPETokenizer

paths = [str(x) for x in Path("cleaned_data/oscar").glob("**/*.txt")]

# Initialize a tokenizer
tokenizer = ByteLevelBPETokenizer()

# Customize training
tokenizer.train(files=paths, vocab_size=50_000, min_frequency=2, special_tokens=[
    "<s>",
    "<pad>",
    "</s>",
    "<unk>",
    "<mask>",
])

# Save files to disk
tokenizer.save(".", "thai")
	from pathlib import Path

	from tokenizers import ByteLevelBPETokenizer

	paths = [str(x) for x in Path("cleaned_data/oscar").glob("*/.txt")]

	# Initialize a tokenizer
	tokenizer = ByteLevelBPETokenizer()

	# Customize training
	tokenizer.train(files=paths, vocab_size=50_000, min_frequency=2, special_tokens=[
	"<s>",
	"<pad>",
	"</s>",
	"<unk>",
	"<mask>",
	])

	# Save files to disk
	tokenizer.save(".", "thai")