andjc/icu_totitle.py

## icu_totitle.py
from icu import Locale, UnicodeString
# loc = Locale.createCanonical("haw_US")
loc = Locale("haw_US")
s1 = "ʻōlelo hawaiʻi"
s2 = "oude ijssel   "
print(UnicodeString(s1).toTitle(loc))
print(UnicodeString(s2).toTitle(Locale("nl_NL")).trim())

## to_title.py
import regex as re
def to_title(s, hyphens=False):
    def slice_group(grp):
        if grp.group(0)[0] == "ʻ":
            return grp.group(0)[0] + grp.group(0)[1].upper() + grp.group(0)[2:].lower()
        else:
            return grp.group(0)[0].upper() + grp.group(0)[1:].lower()
    pattern = r"[ʻ]?[\p{Alphabetic}]+([\-'·:\uA789\u2019]?[\p{Alphabetic}\p{Mn}\p{Mc}])+" if hyphens else r"[ʻ]?[\p{Alphabetic}]+(['·:\uA789\u2019]?[\p{Alphabetic}\p{Mn}\p{Mc}])+"
    regexPattern = re.compile(pattern, re.I)
    return regexPattern.sub(lambda grp: slice_group(grp), s)


s1 = "ʻōlelo hawaiʻi"
print(to_title(s1))
	from icu import Locale, UnicodeString
	# loc = Locale.createCanonical("haw_US")
	loc = Locale("haw_US")
	s1 = "ʻōlelo hawaiʻi"
	s2 = "oude ijssel "
	print(UnicodeString(s1).toTitle(loc))
	print(UnicodeString(s2).toTitle(Locale("nl_NL")).trim())
	import regex as re
	def to_title(s, hyphens=False):
	def slice_group(grp):
	if grp.group(0)[0] == "ʻ":
	return grp.group(0)[0] + grp.group(0)[1].upper() + grp.group(0)[2:].lower()
	else:
	return grp.group(0)[0].upper() + grp.group(0)[1:].lower()
	pattern = r"[ʻ]?[\p{Alphabetic}]+([\-'·:\uA789\u2019]?[\p{Alphabetic}\p{Mn}\p{Mc}])+" if hyphens else r"[ʻ]?[\p{Alphabetic}]+(['·:\uA789\u2019]?[\p{Alphabetic}\p{Mn}\p{Mc}])+"
	regexPattern = re.compile(pattern, re.I)
	return regexPattern.sub(lambda grp: slice_group(grp), s)


	s1 = "ʻōlelo hawaiʻi"
	print(to_title(s1))