Skip to content

Instantly share code, notes, and snippets.

@vipranarayan14
Last active October 7, 2021 14:12
Show Gist options
  • Save vipranarayan14/0b37fa18cc5807dcb91dd0e6f52dcc5f to your computer and use it in GitHub Desktop.
Save vipranarayan14/0b37fa18cc5807dcb91dd0e6f52dcc5f to your computer and use it in GitHub Desktop.
Characters in a OCRed English-Sanskrit document. (HoD Kane)
import glob
file_paths = glob.glob('/home/prasanna/Documents/Projects/Hobbies/Programming/kalpAntaram-content/kANe/**/*.md', recursive=True)
chars = {' '}
for file_path in file_paths[:1]:
with open(file_path) as file:
content = file.read()
chars.update(list(content))
print(sorted(chars))
# GROUPED BY VISUAL SIMILARITY
'A', 'À', 'Á', 'Â', 'Ã', 'Ä', 'Å', 'Æ', 'Ą', 'Ā',
'B',
'C',
'D',
'E',
'È', 'É', 'Ê', 'Ë', 'Ē', 'Ę', 'Ệ',
'F',
'G',
'H', 'Ħ',
'I', 'Ì', 'Í', 'Ī', 'Į', 'İ', 'Ị',
'J',
'K', 'Ķ',
'L',
'M',
'N', 'Ņ',
'O', 'Ó', 'Ô', 'Ö',
'P',
'Q',
'R', 'Ř',
'S', 'Ś', 'Ş','Š',
'T', 'Ţ', 'Ț',
'U', 'Ù', 'Ú', 'Ü', 'Ū', 'Ų', 'Ư',
'V',
'W',
'X',
'Y',
'Z', 'Ž',
'a', 'ā', 'ă', 'ą', 'đ', 'à', 'á', 'â', 'ã', 'ä', 'å', 'æ', 'ə', 'а', 'ạ', 'ả', 'ấ', 'ầ', 'ẫ', 'ậ', 'ặ',
'b',
'c', 'ç', 'с',
'd',
'e', 'ę', 'ě', 'ē', 'ė', 'è', 'é', 'ê', 'ë', 'ế', 'ệ',
'f',
'g', 'ğ', 'ģ',
'h', 'ḥ',
'i', 'ì', 'í', 'į', 'ī', 'ı', 'ỉ', 'ị',
'j', 'ј',
'k',
'l', 'ļ', 'ł',
'm', 'ṁ',
'n', 'ñ', 'ń', 'ņ', 'ň', 'ṇ',
'o', 'ð', 'ò', 'ó', 'ô', 'õ', 'ö', 'ø', 'о', 'ọ', 'ộ', 'ở', 'ợ',
'p', 'þ',
'q',
'r', 'ř',
's', 'ś', 'ş', 'š', 'ș', 'ṣ',
't', 'ţ', 'ț',
'u', 'ù', 'ú', 'û', 'ü', 'ũ', 'ū', 'ů', 'ű', 'ư', 'ụ', 'ữ',
'v',
'w', 'ш',
'x',
'y', 'ý',
'z', 'ż', 'ž',
=====
# STRANGE CHARS
tibetan chars: 'ི', 'ུ', 'ེ', 'ོ', 'ཾ', 'ྥ', 'ྩ', 'ྪ', 'ྱ', 'ྷ',
non-alpha chars: '£', '¥', '©', '«', '®', '°', '·', '»', 'ʻ',
=====
# ALL CHARS: SORTED
'\n', ' ', '!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/',
'0', '1', '2', '3', '4', '5', '6', '7', '8', '9',
':', ';', '=', '>', '?', '@',
'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z',
'[', '\\', ']', '_',
'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z',
'{', '|', '}', '~', '£', '¥', '©', '«', '®', '°', '·', '»',
'À', 'Á', 'Â', 'Ã', 'Ä', 'Å', 'Æ', 'È', 'É', 'Ê', 'Ë', 'Ì', 'Í', 'Ó', 'Ô', 'Ö', 'Ù', 'Ú', 'Ü', 'à', 'á', 'â', 'ã', 'ä', 'å', 'æ',
'ç', 'è', 'é', 'ê', 'ë', 'ì', 'í', 'ð', 'ñ', 'ò', 'ó', 'ô', 'õ', 'ö', 'ø', 'ù', 'ú', 'û', 'ü', 'ý', 'þ', 'Ā', 'ā', 'ă', 'Ą', 'ą',
'đ', 'Ē', 'ē', 'ė', 'Ę', 'ę', 'ě', 'ğ', 'ģ', 'Ħ', 'Ī', 'ī', 'Į', 'į', 'İ', 'ı', 'Ķ', 'ļ', 'ł', 'ń', 'Ņ', 'ņ', 'ň', 'Ř', 'ř',
'Ś', 'ś', 'Ş', 'ş', 'Š', 'š', 'Ţ', 'ţ', 'ũ', 'Ū', 'ū', 'ů', 'ű', 'Ų', 'ż', 'Ž', 'ž', 'Ư', 'ư', 'ș', 'Ț', 'ț', 'ə', 'ʻ', 'а', 'о', 'с', 'ш', 'ј',
'ं', 'ः', 'अ', 'आ', 'इ', 'ई', 'उ', 'ऊ', 'ऋ', 'ए', 'ऐ', 'ओ', 'औ', 'क', 'ख', 'ग', 'घ', 'ङ',
'च', 'छ', 'ज', 'झ', 'ञ', 'ट', 'ठ', 'ड', 'ढ', 'ण', 'त', 'थ', 'द', 'ध', 'न',
'प', 'फ', 'ब', 'भ', 'म', 'य', 'र', 'ल', 'ळ', 'व', 'श', 'ष', 'स', 'ह',
'़', 'ऽ', 'ा', 'ि', 'ी', 'ु', 'ू', 'ृ', 'े', 'ै', 'ॊ', 'ो', 'ौ', '्', '॑',
'।', '॥', '०', '१', '२', '३', '४', '५', '६', '७', '८', '९',
'ঃ', 'আ', 'ই', 'খ', 'গ', 'ঘ', 'জ', 'ঞ', 'ট', 'ত', 'ন', 'ব', 'ভ', 'ম', 'য', 'র', 'ল', 'শ', 'ষ', 'স', 'া', 'ি', 'ী', 'ু', 'ে', '্', 'ཌ', 'བ', 'ཙ', 'ཚ', 'ཛ', 'ཧ',
'ཱ', 'ི', 'ུ', 'ེ', 'ོ', 'ཾ', 'ྥ', 'ྩ', 'ྪ', 'ྱ', 'ྷ',
'ḥ', 'ṁ', 'ṇ', 'ṣ', 'ạ', 'ả', 'ấ', 'ầ', 'ẫ', 'ậ', 'ặ', 'ế', 'Ệ', 'ệ', 'ỉ', 'Ị', 'ị', 'ọ', 'ộ', 'ở', 'ợ', 'ụ', 'ữ',
'–', '—', '‘', '’', '“', '”', '„', '•', '€', '→', '✓'
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment