dipanjanS/feature_engg_text_21.py

## feature_engg_text_21.py
from keras.preprocessing import text

tokenizer = text.Tokenizer()
tokenizer.fit_on_texts(norm_bible)

word2id = tokenizer.word_index
id2word = {v:k for k, v in word2id.items()}

vocab_size = len(word2id) + 1
embed_size = 100

wids = [[word2id[w] for w in text.text_to_word_sequence(doc)] for doc in norm_bible]
print('Vocabulary Size:', vocab_size)
print('Vocabulary Sample:', list(word2id.items())[:10])
	from keras.preprocessing import text

	tokenizer = text.Tokenizer()
	tokenizer.fit_on_texts(norm_bible)

	word2id = tokenizer.word_index
	id2word = {v:k for k, v in word2id.items()}

	vocab_size = len(word2id) + 1
	embed_size = 100

	wids = [[word2id[w] for w in text.text_to_word_sequence(doc)] for doc in norm_bible]
	print('Vocabulary Size:', vocab_size)
	print('Vocabulary Sample:', list(word2id.items())[:10])