한국어 Windows OS에서 Marian 기반 일본어 → 한국어 번역 모델을 만들면서 겪은 일들을 남겨둡니다.
내가 썼던 데이터셋에는 각종 보이지않는 유니코드 문자들이 텍스트에 섞여있어서 데이터 전처리와 훈련을 망치게 했었다.
그래서 대충 이런식으로 필요없는 공백과 문제를 일으키는 특문들을 정리했었다.
tp.source = line.rstrip().replace("\u200B", "").replace("\u2028","").replace("\u2029","")
특히 HelsinkiNLP/tatoeba 에서 공개한 데이터셋은 윈도우에서 작업된 텍스트 파일이어서인지 줄바꿈 문자가 리눅스와 다르기 때문에, dos2unix
로 줄바꿈 문자를 한번 정리해줘야한다.
그러지 않고 리눅스에서 작업한 다른 데이터셋과 병합하면 문제를 일으킬 수 있으니 주의할 것.