AmrutaKoshe/token.py

## token.py
#tokenize features and labels

import tensorflow as tf
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import Tokenizer

# Tokenize feature data
vocab_size = 6000
oov_tok = '<>'

feature_tokenizer = Tokenizer(num_words=vocab_size, oov_token=oov_tok)
feature_tokenizer.fit_on_texts(features)

feature_index = feature_tokenizer.word_index
print(dict(list(feature_index.items())))

# Print example sequences from train and test datasets
train_feature_sequences = feature_tokenizer.texts_to_sequences(train_features)

test_feature_sequences = feature_tokenizer.texts_to_sequences(test_features)
	#tokenize features and labels

	import tensorflow as tf
	from tensorflow.keras.preprocessing.sequence import pad_sequences
	from tensorflow.keras.preprocessing.text import Tokenizer

	# Tokenize feature data
	vocab_size = 6000
	oov_tok = '<>'

	feature_tokenizer = Tokenizer(num_words=vocab_size, oov_token=oov_tok)
	feature_tokenizer.fit_on_texts(features)

	feature_index = feature_tokenizer.word_index
	print(dict(list(feature_index.items())))

	# Print example sequences from train and test datasets
	train_feature_sequences = feature_tokenizer.texts_to_sequences(train_features)

	test_feature_sequences = feature_tokenizer.texts_to_sequences(test_features)