henry16lin/create_token.py

## create_token.py
# get pre-train tokenizer
tokenizer = BertTokenizer.from_pretrained(PRETRAINED_MODEL_NAME)
vocab = tokenizer.vocab
print("dict size", len(vocab))

# see some token and index mapping
import random
random_tokens = random.sample(list(vocab), 10)
random_ids = [vocab[t] for t in random_tokens]

print("{0:20}{1:15}".format("token", "index"))
print("-" * 25)
for t, id in zip(random_tokens, random_ids): #隨便看幾個字
    print("{0:15}{1:10}".format(t, id))
	# get pre-train tokenizer
	tokenizer = BertTokenizer.from_pretrained(PRETRAINED_MODEL_NAME)
	vocab = tokenizer.vocab
	print("dict size", len(vocab))

	# see some token and index mapping
	import random
	random_tokens = random.sample(list(vocab), 10)
	random_ids = [vocab[t] for t in random_tokens]

	print("{0:20}{1:15}".format("token", "index"))
	print("-" * 25)
	for t, id in zip(random_tokens, random_ids): #隨便看幾個字
	print("{0:15}{1:10}".format(t, id))