Skip to content

Instantly share code, notes, and snippets.

@ctlllll
Created May 13, 2024 19:53
Show Gist options
  • Save ctlllll/4451e94f3b2ca415515f3ee369c8c374 to your computer and use it in GitHub Desktop.
Save ctlllll/4451e94f3b2ca415515f3ee369c8c374 to your computer and use it in GitHub Desktop.
Longest Chinese tokens in gpt4o
import tiktoken
import langdetect
T = tiktoken.get_encoding("o200k_base")
length_dict = {}
for i in range(T.n_vocab):
try:
length_dict[i] = len(T.decode([i]))
except:
pass
# Sort by length
length_dict = dict(sorted(length_dict.items(), key=lambda item: -item[1]))
# Print the top 100 chinese words
tot = 0
for item in length_dict:
try:
if langdetect.detect(T.decode([item])) == "zh-cn":
print(item, T.decode([item]))
tot += 1
except:
pass
if tot == 100:
break
"""
Output:
有点离谱。。。
185118 _日本毛片免费视频观看
116852 中国福利彩票天天
128031 久久免费热在线精品
154809 无码不卡高清免费v
172750 大发快三大小单双
177431 给主人留下些什么吧
181679 qq的天天中彩票
184969 _日本一级特黄大片
187822 大发快三开奖结果
49649 彩神争霸邀请码
89409 免费视频在线观看
122333 无码不卡高清免费
122712 无码一区二区三区
128600 大发时时彩计划
133274 】【:】【“】【
135161 大发时时彩开奖
149168 大发时时彩怎么
160029 大发快三是国家
160131 大发快三是不是
160267 天天中彩票网站
176039 精品一区二区三区
186348 大发快三是什么
187516 大发快三走势图
187810 在线观看中文字幕
191179 大发快三怎么看
193825 中国特色社会主义
194062 彩神争霸是不是
70506 彩神争霸大发
74929 大发时时彩是
78249 大发彩票官网
83405 彩神争霸官网
95565 大发快三怎么
99813 大发快三开奖
101303 大发游戏官网
115319 大发快三和值
119247 北京赛车开奖
136533 大发快三计划
136840 久久综合久久爱
138985 下载安装到手机
141777 重庆时时彩的
143802 大发快三官网
144879 大发快三豹子
155245 中华人民共和国
156153 彩神争霸网站
160344 中国福利彩票
160540 彩神争霸邀请码
166783 一级a做爰片
170426 大发快三如何
178597 久久精品国产
182584 热这里只有精品
187784 重庆时时彩杀
189467 亚洲男人天堂
199053 北京赛车投注
12284 大发时时彩
31385 视频在线观看
34342 一区二区三区
36308 的天天中彩票
46373 大发快三是
50020 彩神争霸是
86301 视频免费观看
86435 《凤凰大参考
92481 菲律宾申博
95335 一级特黄大片
95376 视频在线播放
98829 。...
98909 彩神争霸的
102670 免费视频观看
105303 在天天中彩票
107781 在线观看视频
109323 大发快三的
114332 电影在线观看
117836 免费资料大全
122693 北京赛车的
126418 无码中文字幕
128539 在线观看免费
128805 开奖结果查询
132560 久久国产视频
136710 免费观看视频
138225 开奖现场直播
138258 在线视频观看
146082 棋牌游戏官网
157965 亚历山大发
170040 香港赛马会
173342 娱乐平台注册
173836 北京赛车计划
174322 娱乐官方网站
175645 中文字幕无码
177689 免费在线观看
180574 免费人成视频
180660 中文字幕在线
182251 高清在线观看
184003 人片在线观看
184694 久久综合久久
184811 彩网大发快三
186005 网站免费观看
186328 。
186863 手机在线观看
187540 日本一本道
195091 在线视频精品
195213 大发彩票网
"""
@rich5000
Copy link

给主人留下些什么吧?

@Tsukumizu
Copy link

chinaunix.net的回复栏:给主人留下些什么吧

@z31312
Copy link

z31312 commented May 14, 2024

很疑惑,这是扩大了中文语料训练范围才导致的问题吗?因为GPT-4似乎没有这么严重的问题

@uluckyXH
Copy link

....真的离谱

@lone-wolf-akela
Copy link

是真的离谱,gpt-4o现在连“中国特色社会主义”有几个字都数不明白了。

@skystarspython
Copy link

数据污染有点严重?

@Mohan-Zhang-u
Copy link

笑死

@cjyyx
Copy link

cjyyx commented May 15, 2024

😅😅😅

@studyww0
Copy link

牛的

@secsilm
Copy link

secsilm commented May 15, 2024

这个和“数据污染”没关系,增加语料后训练了新的分词器,扩增了vocab,正常现象,不然tokenizer compression怎么来的?要查应该去查Gujarati、telugu这种压缩率很高的语言。

如果有人感兴趣,我把gpt4和gpt4o分词器中的中文token抽了出来:https://github.com/secsilm/chinese-tokens-in-tiktoken

@luochen1990
Copy link

umm, 难道大模型就不应该学辣鸡么 (思考

@mxdlzg
Copy link

mxdlzg commented May 15, 2024

难绷

@enze5088
Copy link

umm, 难道大模型就不应该学辣鸡么 (思考

不应该,这些低质量的数据一早就应该过滤掉的。

@enze5088
Copy link

umm, 难道大模型就不应该学辣鸡么 (思考

cc net 之类的数据有很多外网的中文站,特别多这种低质量数据。单一的一两个这种广告文本混入都算好的。有的爬下来可能影响了整个获取文本的布局。还有什么乱码之类的

@enze5088
Copy link

以及这些token可以拿来反向清洗数据了感觉。。

@TonyHanzhiSU
Copy link

不仅仅是前100个,我找了所有的中文token,4个字长度的token几乎全军覆没,基本上都是垃圾语料。甚至在两个字长的token当中也有很多色情赌博词语
截屏2024-05-15 01 57 41
截屏2024-05-15 02 00 03
截屏2024-05-15 01 59 53
截屏2024-05-15 01 59 41
截屏2024-05-15 01 59 27
截屏2024-05-15 01 59 02
截屏2024-05-15 01 58 28
截屏2024-05-15 01 58 14
截屏2024-05-15 01 58 00

@ice1000
Copy link

ice1000 commented May 15, 2024

离巨谱

@906051999
Copy link

网页端 会屏蔽这些词的吧,是不是只有API可以返回

@enze5088
Copy link

谷歌搜索结果页就经常被这种内容农场关键词污染,谷歌都清洗不掉,更何况不是专业做爬虫的openai

求个文本版的23333 想用来洗数据

@LanYunDev
Copy link

简中互联网之垃圾信息

@TonyHanzhiSU
Copy link

谷歌搜索结果页就经常被这种内容农场关键词污染,谷歌都清洗不掉,更何况不是专业做爬虫的openai

求个文本版的23333 想用来洗数据

你需要吗,我整理了到了一个pickle 文件

@enze5088
Copy link

简中互联网之垃圾信息

虽然但是,CCNet这种一般爬的是海外站,至少不是传统意义上的简中。像大发快三这类都是博彩信息。

@enze5088
Copy link

谷歌搜索结果页就经常被这种内容农场关键词污染,谷歌都清洗不掉,更何况不是专业做爬虫的openai

求个文本版的23333 想用来洗数据

你需要吗,我整理了到了一个pickle 文件

求一份求一份

@tianyilover
Copy link

Screenshot_2024-05-18-08-52-47-556_com openai chatgpt-edit

@rcwoshimao
Copy link

好崩溃

@rynewu224
Copy link

它太饿了,参数几百B,没这么多中文语料

@keliew
Copy link

keliew commented May 20, 2024

最搞笑的是 chatgpt中文用户基本上都在海外(包括香港省和台湾省)。这是说明海外同胞的素质比国内同胞,有什么需要改正的?

@ch89644698
Copy link

最搞笑的是 chatgpt中文用户基本上都在海外(包括香港省和台湾省)。这是说明海外同胞的素质比国内同胞,有什么需要改正的?

看下就知道内容从国内网站来的

@lingium
Copy link

lingium commented May 28, 2024

这个和“数据污染”没关系,增加语料后训练了新的分词器,扩增了vocab,正常现象,不然tokenizer compression怎么来的?要查应该去查Gujarati、telugu这种压缩率很高的语言。

如果有人感兴趣,我把gpt4和gpt4o分词器中的中文token抽了出来:https://github.com/secsilm/chinese-tokens-in-tiktoken

这里面显示gpt4o只有3000多个token,但是实际上gpt4o支持的汉字远远比这个多,是我哪里理解错了吗😂

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment