prateekjoshi565/sequence_prep.py

## sequence_prep.py
# function to build a tokenizer
def tokenization(lines):
      tokenizer = Tokenizer()
      tokenizer.fit_on_texts(lines)
      return tokenizer

# prepare english tokenizer
eng_tokenizer = tokenization(deu_eng[:, 0])
eng_vocab_size = len(eng_tokenizer.word_index) + 1
eng_length = 8

# print('English Vocabulary Size: %d' % eng_vocab_size)

# prepare Deutch tokenizer
deu_tokenizer = tokenization(deu_eng[:, 1])
deu_vocab_size = len(deu_tokenizer.word_index) + 1
deu_length = 8

# print('Deutch Vocabulary Size: %d' % deu_vocab_size)
	# function to build a tokenizer
	def tokenization(lines):
	tokenizer = Tokenizer()
	tokenizer.fit_on_texts(lines)
	return tokenizer

	# prepare english tokenizer
	eng_tokenizer = tokenization(deu_eng[:, 0])
	eng_vocab_size = len(eng_tokenizer.word_index) + 1
	eng_length = 8

	# print('English Vocabulary Size: %d' % eng_vocab_size)

	# prepare Deutch tokenizer
	deu_tokenizer = tokenization(deu_eng[:, 1])
	deu_vocab_size = len(deu_tokenizer.word_index) + 1
	deu_length = 8

	# print('Deutch Vocabulary Size: %d' % deu_vocab_size)