-
-
Save ctlllll/4451e94f3b2ca415515f3ee369c8c374 to your computer and use it in GitHub Desktop.
import tiktoken | |
import langdetect | |
T = tiktoken.get_encoding("o200k_base") | |
length_dict = {} | |
for i in range(T.n_vocab): | |
try: | |
length_dict[i] = len(T.decode([i])) | |
except: | |
pass | |
# Sort by length | |
length_dict = dict(sorted(length_dict.items(), key=lambda item: -item[1])) | |
# Print the top 100 chinese words | |
tot = 0 | |
for item in length_dict: | |
try: | |
if langdetect.detect(T.decode([item])) == "zh-cn": | |
print(item, T.decode([item])) | |
tot += 1 | |
except: | |
pass | |
if tot == 100: | |
break | |
""" | |
Output: | |
有点离谱。。。 | |
185118 _日本毛片免费视频观看 | |
116852 中国福利彩票天天 | |
128031 久久免费热在线精品 | |
154809 无码不卡高清免费v | |
172750 大发快三大小单双 | |
177431 给主人留下些什么吧 | |
181679 qq的天天中彩票 | |
184969 _日本一级特黄大片 | |
187822 大发快三开奖结果 | |
49649 彩神争霸邀请码 | |
89409 免费视频在线观看 | |
122333 无码不卡高清免费 | |
122712 无码一区二区三区 | |
128600 大发时时彩计划 | |
133274 】【:】【“】【 | |
135161 大发时时彩开奖 | |
149168 大发时时彩怎么 | |
160029 大发快三是国家 | |
160131 大发快三是不是 | |
160267 天天中彩票网站 | |
176039 精品一区二区三区 | |
186348 大发快三是什么 | |
187516 大发快三走势图 | |
187810 在线观看中文字幕 | |
191179 大发快三怎么看 | |
193825 中国特色社会主义 | |
194062 彩神争霸是不是 | |
70506 彩神争霸大发 | |
74929 大发时时彩是 | |
78249 大发彩票官网 | |
83405 彩神争霸官网 | |
95565 大发快三怎么 | |
99813 大发快三开奖 | |
101303 大发游戏官网 | |
115319 大发快三和值 | |
119247 北京赛车开奖 | |
136533 大发快三计划 | |
136840 久久综合久久爱 | |
138985 下载安装到手机 | |
141777 重庆时时彩的 | |
143802 大发快三官网 | |
144879 大发快三豹子 | |
155245 中华人民共和国 | |
156153 彩神争霸网站 | |
160344 中国福利彩票 | |
160540 彩神争霸邀请码 | |
166783 一级a做爰片 | |
170426 大发快三如何 | |
178597 久久精品国产 | |
182584 热这里只有精品 | |
187784 重庆时时彩杀 | |
189467 亚洲男人天堂 | |
199053 北京赛车投注 | |
12284 大发时时彩 | |
31385 视频在线观看 | |
34342 一区二区三区 | |
36308 的天天中彩票 | |
46373 大发快三是 | |
50020 彩神争霸是 | |
86301 视频免费观看 | |
86435 《凤凰大参考 | |
92481 菲律宾申博 | |
95335 一级特黄大片 | |
95376 视频在线播放 | |
98829 。... | |
98909 彩神争霸的 | |
102670 免费视频观看 | |
105303 在天天中彩票 | |
107781 在线观看视频 | |
109323 大发快三的 | |
114332 电影在线观看 | |
117836 免费资料大全 | |
122693 北京赛车的 | |
126418 无码中文字幕 | |
128539 在线观看免费 | |
128805 开奖结果查询 | |
132560 久久国产视频 | |
136710 免费观看视频 | |
138225 开奖现场直播 | |
138258 在线视频观看 | |
146082 棋牌游戏官网 | |
157965 亚历山大发 | |
170040 香港赛马会 | |
173342 娱乐平台注册 | |
173836 北京赛车计划 | |
174322 娱乐官方网站 | |
175645 中文字幕无码 | |
177689 免费在线观看 | |
180574 免费人成视频 | |
180660 中文字幕在线 | |
182251 高清在线观看 | |
184003 人片在线观看 | |
184694 久久综合久久 | |
184811 彩网大发快三 | |
186005 网站免费观看 | |
186328 。 | |
186863 手机在线观看 | |
187540 日本一本道 | |
195091 在线视频精品 | |
195213 大发彩票网 | |
""" |
是真的离谱,gpt-4o现在连“中国特色社会主义”有几个字都数不明白了。
数据污染有点严重?
笑死
😅😅😅
牛的
这个和“数据污染”没关系,增加语料后训练了新的分词器,扩增了vocab,正常现象,不然tokenizer compression怎么来的?要查应该去查Gujarati、telugu这种压缩率很高的语言。
如果有人感兴趣,我把gpt4和gpt4o分词器中的中文token抽了出来:https://github.com/secsilm/chinese-tokens-in-tiktoken
umm, 难道大模型就不应该学辣鸡么 (思考
难绷
umm, 难道大模型就不应该学辣鸡么 (思考
不应该,这些低质量的数据一早就应该过滤掉的。
umm, 难道大模型就不应该学辣鸡么 (思考
cc net 之类的数据有很多外网的中文站,特别多这种低质量数据。单一的一两个这种广告文本混入都算好的。有的爬下来可能影响了整个获取文本的布局。还有什么乱码之类的
以及这些token可以拿来反向清洗数据了感觉。。
离巨谱
网页端 会屏蔽这些词的吧,是不是只有API可以返回
谷歌搜索结果页就经常被这种内容农场关键词污染,谷歌都清洗不掉,更何况不是专业做爬虫的openai
求个文本版的23333 想用来洗数据
简中互联网之垃圾信息
谷歌搜索结果页就经常被这种内容农场关键词污染,谷歌都清洗不掉,更何况不是专业做爬虫的openai
求个文本版的23333 想用来洗数据
你需要吗,我整理了到了一个pickle 文件
简中互联网之垃圾信息
虽然但是,CCNet这种一般爬的是海外站,至少不是传统意义上的简中。像大发快三这类都是博彩信息。
谷歌搜索结果页就经常被这种内容农场关键词污染,谷歌都清洗不掉,更何况不是专业做爬虫的openai
求个文本版的23333 想用来洗数据
你需要吗,我整理了到了一个pickle 文件
求一份求一份
好崩溃
它太饿了,参数几百B,没这么多中文语料
最搞笑的是 chatgpt中文用户基本上都在海外(包括香港省和台湾省)。这是说明海外同胞的素质比国内同胞,有什么需要改正的?
这个和“数据污染”没关系,增加语料后训练了新的分词器,扩增了vocab,正常现象,不然tokenizer compression怎么来的?要查应该去查Gujarati、telugu这种压缩率很高的语言。
如果有人感兴趣,我把gpt4和gpt4o分词器中的中文token抽了出来:https://github.com/secsilm/chinese-tokens-in-tiktoken
这里面显示gpt4o只有3000多个token,但是实际上gpt4o支持的汉字远远比这个多,是我哪里理解错了吗😂
一位來自香港的研究員Henry Luo發表了一篇有趣的博客文章,他查詢了GPT-4o中不同語言的最長標記,發現它們似乎有不同的主題。俄語標記反映了與政府和公共機構有關的語言,而日語標記中有很多不同方式的「謝謝」。
https://wish.with.tw/blogs/with-note/openai-s-latest-blunder-shows-the-challenges-facing-chinese-ai-models
https://medium.com/@henryhengluo/bias-alignment-atypical-stereotypical-nationality-analysis-7ffbef9ee967
大受震撼
😅😅😅
....真的离谱