ctlllll/longest_chinese_tokens_gpt4o.py

## longest_chinese_tokens_gpt4o.py
import tiktoken
import langdetect
T = tiktoken.get_encoding("o200k_base")

length_dict = {}

for i in range(T.n_vocab):
    try:
        length_dict[i] = len(T.decode([i]))
    except:
        pass

# Sort by length
length_dict = dict(sorted(length_dict.items(), key=lambda item: -item[1]))

# Print the top 100 chinese words
tot = 0
for item in length_dict:
    try:
        if langdetect.detect(T.decode([item])) == "zh-cn":
            print(item, T.decode([item]))
            tot += 1
    except:
        pass
    if tot == 100:
        break

"""
Output:

有点离谱。。。

185118 _日本毛片免费视频观看
116852  中国福利彩票天天
128031 久久免费热在线精品
154809 无码不卡高清免费v
172750  大发快三大小单双
177431 给主人留下些什么吧
181679  qq的天天中彩票
184969 _日本一级特黄大片
187822  大发快三开奖结果
49649  彩神争霸邀请码
89409 免费视频在线观看
122333 无码不卡高清免费
122712 无码一区二区三区
128600  大发时时彩计划
133274 】【：】【“】【
135161  大发时时彩开奖
149168  大发时时彩怎么
160029  大发快三是国家
160131  大发快三是不是
160267  天天中彩票网站
176039 精品一区二区三区
186348  大发快三是什么
187516  大发快三走势图
187810 在线观看中文字幕
191179  大发快三怎么看
193825 中国特色社会主义
194062  彩神争霸是不是
70506  彩神争霸大发
74929  大发时时彩是
78249  大发彩票官网
83405  彩神争霸官网
95565  大发快三怎么
99813  大发快三开奖
101303  大发游戏官网
115319  大发快三和值
119247  北京赛车开奖
136533  大发快三计划
136840 久久综合久久爱
138985 下载安装到手机
141777  重庆时时彩的
143802  大发快三官网
144879  大发快三豹子
155245 中华人民共和国
156153  彩神争霸网站
160344  中国福利彩票
160540 彩神争霸邀请码
166783  一级a做爰片
170426  大发快三如何
178597  久久精品国产
182584 热这里只有精品
187784  重庆时时彩杀
189467  亚洲男人天堂
199053  北京赛车投注
12284  大发时时彩
31385 视频在线观看
34342 一区二区三区
36308 的天天中彩票
46373  大发快三是
50020  彩神争霸是
86301 视频免费观看
86435 《凤凰大参考
92481  菲律宾申博
95335 一级特黄大片
95376 视频在线播放
98829 。...


98909  彩神争霸的
102670 免费视频观看
105303 在天天中彩票
107781 在线观看视频
109323  大发快三的
114332 电影在线观看
117836 免费资料大全
122693  北京赛车的
126418 无码中文字幕
128539 在线观看免费
128805 开奖结果查询
132560 久久国产视频
136710 免费观看视频
138225 开奖现场直播
138258 在线视频观看
146082 棋牌游戏官网
157965  亚历山大发
170040  香港赛马会
173342 娱乐平台注册
173836 北京赛车计划
174322 娱乐官方网站
175645 中文字幕无码
177689 免费在线观看
180574 免费人成视频
180660 中文字幕在线
182251 高清在线观看
184003 人片在线观看
184694 久久综合久久
184811 彩网大发快三
186005 网站免费观看
186328 。


186863 手机在线观看
187540  日本一本道
195091 在线视频精品
195213  大发彩票网
"""
	import tiktoken
	import langdetect
	T = tiktoken.get_encoding("o200k_base")

	length_dict = {}

	for i in range(T.n_vocab):
	try:
	length_dict[i] = len(T.decode([i]))
	except:
	pass

	# Sort by length
	length_dict = dict(sorted(length_dict.items(), key=lambda item: -item[1]))

	# Print the top 100 chinese words
	tot = 0
	for item in length_dict:
	try:
	if langdetect.detect(T.decode([item])) == "zh-cn":
	print(item, T.decode([item]))
	tot += 1
	except:
	pass
	if tot == 100:
	break

	"""
	Output:

	有点离谱。。。

	185118 _日本毛片免费视频观看
	116852 中国福利彩票天天
	128031 久久免费热在线精品
	154809 无码不卡高清免费v
	172750 大发快三大小单双
	177431 给主人留下些什么吧
	181679 qq的天天中彩票
	184969 _日本一级特黄大片
	187822 大发快三开奖结果
	49649 彩神争霸邀请码
	89409 免费视频在线观看
	122333 无码不卡高清免费
	122712 无码一区二区三区
	128600 大发时时彩计划
	133274 】【：】【“】【
	135161 大发时时彩开奖
	149168 大发时时彩怎么
	160029 大发快三是国家
	160131 大发快三是不是
	160267 天天中彩票网站
	176039 精品一区二区三区
	186348 大发快三是什么
	187516 大发快三走势图
	187810 在线观看中文字幕
	191179 大发快三怎么看
	193825 中国特色社会主义
	194062 彩神争霸是不是
	70506 彩神争霸大发
	74929 大发时时彩是
	78249 大发彩票官网
	83405 彩神争霸官网
	95565 大发快三怎么
	99813 大发快三开奖
	101303 大发游戏官网
	115319 大发快三和值
	119247 北京赛车开奖
	136533 大发快三计划
	136840 久久综合久久爱
	138985 下载安装到手机
	141777 重庆时时彩的
	143802 大发快三官网
	144879 大发快三豹子
	155245 中华人民共和国
	156153 彩神争霸网站
	160344 中国福利彩票
	160540 彩神争霸邀请码
	166783 一级a做爰片
	170426 大发快三如何
	178597 久久精品国产
	182584 热这里只有精品
	187784 重庆时时彩杀
	189467 亚洲男人天堂
	199053 北京赛车投注
	12284 大发时时彩
	31385 视频在线观看
	34342 一区二区三区
	36308 的天天中彩票
	46373 大发快三是
	50020 彩神争霸是
	86301 视频免费观看
	86435 《凤凰大参考
	92481 菲律宾申博
	95335 一级特黄大片
	95376 视频在线播放
	98829 。...


	98909 彩神争霸的
	102670 免费视频观看
	105303 在天天中彩票
	107781 在线观看视频
	109323 大发快三的
	114332 电影在线观看
	117836 免费资料大全
	122693 北京赛车的
	126418 无码中文字幕
	128539 在线观看免费
	128805 开奖结果查询
	132560 久久国产视频
	136710 免费观看视频
	138225 开奖现场直播
	138258 在线视频观看
	146082 棋牌游戏官网
	157965 亚历山大发
	170040 香港赛马会
	173342 娱乐平台注册
	173836 北京赛车计划
	174322 娱乐官方网站
	175645 中文字幕无码
	177689 免费在线观看
	180574 免费人成视频
	180660 中文字幕在线
	182251 高清在线观看
	184003 人片在线观看
	184694 久久综合久久
	184811 彩网大发快三
	186005 网站免费观看
	186328 。





	186863 手机在线观看
	187540 日本一本道
	195091 在线视频精品
	195213 大发彩票网
	"""