zredlined/vectorize_text.py

## vectorize_text.py
# Count the unique characters in the file
vocab = sorted(set(text))

# Creating a mapping from unique characters to indices
char2idx = {u:i for i, u in enumerate(vocab)}
idx2char = np.array(vocab)
text_as_int = np.array([char2idx[c] for c in text])

print (f'Training set contains {len(vocab)} unique characters')
print (f'First 20 characters -> index mappings')
df = pd.DataFrame(zip(text, text_as_int), columns=['char','char2idx'])
df[:20]
	# Count the unique characters in the file
	vocab = sorted(set(text))

	# Creating a mapping from unique characters to indices
	char2idx = {u:i for i, u in enumerate(vocab)}
	idx2char = np.array(vocab)
	text_as_int = np.array([char2idx[c] for c in text])

	print (f'Training set contains {len(vocab)} unique characters')
	print (f'First 20 characters -> index mappings')
	df = pd.DataFrame(zip(text, text_as_int), columns=['char','char2idx'])
	df[:20]