que-nguyen/vietnamese_token_inspector_gpt4o.py

## vietnamese_token_inspector_gpt4o.py
import tiktoken
from lingua import Language, LanguageDetectorBuilder

detector = LanguageDetectorBuilder.from_all_languages().build()
T = tiktoken.get_encoding("o200k_base")

token_lengths = []
for i in range(T.n_vocab):
    try:
        token = T.decode([i])
        if detector.detect_language_of(token) == Language.VIETNAMESE:
            token_lengths.append((i, token, len(token)))
    except:
        continue

token_lengths.sort(key=lambda x: -x[2])

# In ra 1000 từ Tiếng Việt
# LƯU Ý: lingua có thể không nhận diện chính xác tiếng Việt do giới hạn của thư viện :)
for idx, token, _ in token_lengths[:1000]:
    print(idx, token)

'''
Result:
...
46901  trường
56202  nghiệp
61975  thường
76781  thương
77258  phương
80691  chuyển
83881  chuyên
91902  nghiệm
98606  nguyên
104745  truyền
107116  nghiền
107483  khoảng
121297  chuyện
...
131196  xử
131934 ươi
132945 ãng
135386 Bạn
137082  ưu
137746  cố
138394  Uy
138461  bố
139089 .Th
139745 ịtị
143913  tố
146655  dữ
147406  kể
150454  sẻ
151210  tô
152775  lã
'''
	import tiktoken
	from lingua import Language, LanguageDetectorBuilder

	detector = LanguageDetectorBuilder.from_all_languages().build()
	T = tiktoken.get_encoding("o200k_base")

	token_lengths = []
	for i in range(T.n_vocab):
	try:
	token = T.decode([i])
	if detector.detect_language_of(token) == Language.VIETNAMESE:
	token_lengths.append((i, token, len(token)))
	except:
	continue

	token_lengths.sort(key=lambda x: -x[2])

	# In ra 1000 từ Tiếng Việt
	# LƯU Ý: lingua có thể không nhận diện chính xác tiếng Việt do giới hạn của thư viện :)
	for idx, token, _ in token_lengths[:1000]:
	print(idx, token)

	'''
	Result:
	...
	46901 trường
	56202 nghiệp
	61975 thường
	76781 thương
	77258 phương
	80691 chuyển
	83881 chuyên
	91902 nghiệm
	98606 nguyên
	104745 truyền
	107116 nghiền
	107483 khoảng
	121297 chuyện
	...
	131196 xử
	131934 ươi
	132945 ãng
	135386 Bạn
	137082 ưu
	137746 cố
	138394 Uy
	138461 bố
	139089 .Th
	139745 ịtị
	143913 tố
	146655 dữ
	147406 kể
	150454 sẻ
	151210 tô
	152775 lã
	'''