Skip to content

Instantly share code, notes, and snippets.

@nvlong198
Last active April 8, 2019 23:04
Show Gist options
  • Save nvlong198/378c1d0cb25c17770d7f49c0ff79b8cb to your computer and use it in GitHub Desktop.
Save nvlong198/378c1d0cb25c17770d7f49c0ff79b8cb to your computer and use it in GitHub Desktop.
Unicode dựng sẵn là cách dùng phổ biến và có nhiều ưu điểm so với tổ hợp nhưng không phải người dùng đều dùng unicode dựng sẵn. Đoạn code này dùng để chuyển đổi chuỗi Unicode tổ hợp sang Unicode dựng sẵn trong Python3 .
unicode_tohop = ['ẻ', 'é', 'è', 'ẹ', 'ẽ', 'ể', 'ế', 'ề', 'ệ', 'ễ', 'ỷ', 'ý', 'ỳ', 'ỵ', 'ỹ', 'ủ', 'ú', 'ù', 'ụ', 'ũ', 'ử', 'ứ', 'ừ', 'ự', 'ữ', 'ỉ', 'í', 'ì', 'ị', 'ĩ', 'ỏ', 'ó', 'ò', 'ọ', 'õ', 'ở', 'ớ', 'ờ', 'ợ', 'ỡ', 'ổ', 'ố', 'ồ', 'ộ', 'ỗ', 'ả', 'á', 'à', 'ạ', 'ã', 'ẳ', 'ắ', 'ằ', 'ặ', 'ẵ', 'ẩ', 'ấ', 'ầ', 'ậ', 'ẫ', 'Ẻ', 'É', 'È', 'Ẹ', 'Ẽ', 'Ể', 'Ế', 'Ề', 'Ệ', 'Ễ', 'Ỷ', 'Ý', 'Ỳ', 'Ỵ', 'Ỹ', 'Ủ', 'Ú', 'Ù', 'Ụ', 'Ũ', 'Ử', 'Ứ', 'Ừ', 'Ự', 'Ữ', 'Ỉ', 'Í', 'Ì', 'Ị', 'Ĩ', 'Ỏ', 'Ó', 'Ò', 'Ọ', 'Õ', 'Ở', 'Ớ', 'Ờ', 'Ợ', 'Ỡ', 'Ổ', 'Ố', 'Ồ', 'Ộ', 'Ỗ', 'Ả', 'Á', 'À', 'Ạ', 'Ã', 'Ẳ', 'Ắ', 'Ằ', 'Ặ', 'Ẵ', 'Ẩ', 'Ấ', 'Ầ', 'Ậ', 'Ẫ']
unicode_dungsan = ['ẻ', 'é', 'è', 'ẹ', 'ẽ', 'ể', 'ế', 'ề', 'ệ', 'ễ', 'ỷ', 'ý', 'ỳ', 'ỵ', 'ỹ', 'ủ', 'ú', 'ù', 'ụ', 'ũ', 'ử', 'ứ', 'ừ', 'ự', 'ữ', 'ỉ', 'í', 'ì', 'ị', 'ĩ', 'ỏ', 'ó', 'ò', 'ọ', 'õ', 'ở', 'ớ', 'ờ', 'ợ', 'ỡ', 'ổ', 'ố', 'ồ', 'ộ', 'ỗ', 'ả', 'á', 'à', 'ạ', 'ã', 'ẳ', 'ắ', 'ằ', 'ặ', 'ẵ', 'ẩ', 'ấ', 'ầ', 'ậ', 'ẫ', 'Ẻ', 'É', 'È', 'Ẹ', 'Ẽ', 'Ể', 'Ế', 'Ề', 'Ệ', 'Ễ', 'Ỷ', 'Ý', 'Ỳ', 'Ỵ', 'Ỹ', 'Ủ', 'Ú', 'Ù', 'Ụ', 'Ũ', 'Ử', 'Ứ', 'Ừ', 'Ự', 'Ữ', 'Ỉ', 'Í', 'Ì', 'Ị', 'Ĩ', 'Ỏ', 'Ó', 'Ò', 'Ọ', 'Õ', 'Ở', 'Ớ', 'Ờ', 'Ợ', 'Ỡ', 'Ổ', 'Ố', 'Ồ', 'Ộ', 'Ỗ', 'Ả', 'Á', 'À', 'Ạ', 'Ã', 'Ẳ', 'Ắ', 'Ằ', 'Ặ', 'Ẵ', 'Ẩ', 'Ấ', 'Ầ', 'Ậ', 'Ẫ']
dic = dict(zip(unicode_tohop, unicode_dungsan)) # Make a pair of 2 lists and convert them to dict()
text = 'Mới đây, Phương Ly cũng vừa đăng ảnh check-in cùng hoa anh đào tại cả 3 địa điểm trên khiến dân tình mê mệt vì cả hoa và người đều đẹp "10 phân vẹn mười"'
for tohop, dungsan in dic.items():
text = text.replace(tohop, dungsan)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment