panzerstadt/tokenize sentences in japanese and english

## tokenize sentences in japanese and english
from nltk.stem.lancaster import LancasterStemmer
from nltk.corpus import stopwords
from nltk import word_tokenize
from many_stop_words import get_stop_words
import re


def normalize_sentences(sentence, language='en', debug=False):
    stemmer = LancasterStemmer()

    # regex set to grab english and
    regex_ja = r"""
        [A-Za-z ]+|[\u3000-\u303F]+|[\u3040-\u309F]+|[\u30A0-\u30FF]+|[\uFF00-\uFFEF]+|[\u4E00-\u9FAF]+|[\u2605-\u2606]+|[\u2190-\u2195]+|\u203B
        """

    matches = re.finditer(regex_ja, sentence, re.MULTILINE | re.IGNORECASE | re.VERBOSE | re.UNICODE)
    matches = [match.group() for match in matches]

    s = ''.join(matches)

    # set ignored words (overly common words)
    # tokenize words
    if language == 'en':
        ignore_words = set(stopwords.words('english'))  # english
        # nltk's word_tokenize for english
        words = word_tokenize(s.lower())
    else:
        ignore_words = get_stop_words(language)  # has japanese
        # NOT using kytea (Kyoto University) for word tokenization (https://chezou.hatenablog.com/entry/20110715/1310699249)
        # using mecab for dictionary
        # with JapaneseTokenizer (https://pypi.org/project/JapaneseTokenizer/)
        import JapaneseTokenizer
        mecab_wrapper = JapaneseTokenizer.MecabWrapper(dictType='ipadic')
        words = mecab_wrapper.tokenize(s).convert_list_object()

        # clean blanks
        words = [w for w in words if w is not ' ']

    if debug: print('ignoring words: ', ignore_words)

    return [stemmer.stem(w.lower()) for w in words if w not in ignore_words]
	from nltk.stem.lancaster import LancasterStemmer
	from nltk.corpus import stopwords
	from nltk import word_tokenize
	from many_stop_words import get_stop_words
	import re


	def normalize_sentences(sentence, language='en', debug=False):
	stemmer = LancasterStemmer()

	# regex set to grab english and
	regex_ja = r"""
	[A-Za-z ]+\|[\u3000-\u303F]+\|[\u3040-\u309F]+\|[\u30A0-\u30FF]+\|[\uFF00-\uFFEF]+\|[\u4E00-\u9FAF]+\|[\u2605-\u2606]+\|[\u2190-\u2195]+\|\u203B
	"""

	matches = re.finditer(regex_ja, sentence, re.MULTILINE \| re.IGNORECASE \| re.VERBOSE \| re.UNICODE)
	matches = [match.group() for match in matches]

	s = ''.join(matches)

	# set ignored words (overly common words)
	# tokenize words
	if language == 'en':
	ignore_words = set(stopwords.words('english')) # english
	# nltk's word_tokenize for english
	words = word_tokenize(s.lower())
	else:
	ignore_words = get_stop_words(language) # has japanese
	# NOT using kytea (Kyoto University) for word tokenization (https://chezou.hatenablog.com/entry/20110715/1310699249)
	# using mecab for dictionary
	# with JapaneseTokenizer (https://pypi.org/project/JapaneseTokenizer/)
	import JapaneseTokenizer
	mecab_wrapper = JapaneseTokenizer.MecabWrapper(dictType='ipadic')
	words = mecab_wrapper.tokenize(s).convert_list_object()

	# clean blanks
	words = [w for w in words if w is not ' ']

	if debug: print('ignoring words: ', ignore_words)

	return [stemmer.stem(w.lower()) for w in words if w not in ignore_words]