chatrapathik/fit_generator.py

## fit_generator.py
import os
import pickle
import numpy as np

import tensorflow as tf
from keras.backend.tensorflow_backend import set_session
config = tf.ConfigProto()
config.gpu_options.per_process_gpu_memory_fraction = 0.4
set_session(tf.Session(config=config))

from keras.models import Sequential, load_model
from keras.layers import Dense, LSTM, Dropout
from keras.utils import to_categorical
from keras import optimizers

class StringEmbeddingsScript(object):
    CHAR_NONE = '\x00'
    CHAR_START = '\x01'
    CHAR_END = '\x02'

    WORDS = ['India', 'keras', 'stackoverflow', 'tensorflow']

    def create_model(self, num_units, word_len, num_unique_chars):
        input_shape = (word_len, num_unique_chars)

        model = Sequential()
        model.add(LSTM(num_units, input_shape=input_shape, unroll=True))
        model.add(Dense(num_unique_chars, activation='softmax'))

        model.compile(optimizer=optimizers.Adam(lr=0.003),
                        loss='categorical_crossentropy',
                        metrics=['mse'])
        return model

    def get_char_to_int(self):
        words = self.WORDS
        max_len = max(len(w) for w in words) + 2 # adding 2 for start and end chars
        nwords = len(words)

        chars = list(sorted(list(set(list(''.join(words))))))
        chars = [self.CHAR_NONE, self.CHAR_START, self.CHAR_END] + chars
        charmap = { c: i for i, c in enumerate(chars) }
        nchars = len(chars)

        return max_len, nchars, nwords, words, charmap

    def generator(self, max_len, nchars, nwords, words, charmap, b_size):
        while 1:
            char_none = to_categorical(charmap[self.CHAR_NONE], num_classes=nchars)
            num_batches = (nwords//b_size) + 1

            for i in range(num_batches):
                start = b_size * i
                end = b_size * (i + 1)

                split_words = words[start:end]
                n = len(split_words)

                data = np.zeros(shape=(n, max_len, nchars), dtype=np.float32)
                labels = np.zeros(shape=(n, nchars), dtype=np.float32)

                for i in range(n):
                    w = split_words[i][:-1]
                    last_char = split_words[i][-1]
                    w = '%s%s%s' % (self.CHAR_START, w, self.CHAR_END)
                    w = [to_categorical(charmap[x], num_classes=nchars) for x in w]
                    w = w + ([char_none] * (max_len - len(w)))
                    data[i] = w
                    labels[i] = to_categorical(charmap[last_char], num_classes=nchars

                yield data, labels

    def run(self):
        neurons = 128
        max_len, nchars, nwords, words, charmap = self.get_char_to_int()

        model = self.create_model(neurons, max_len, nchars)

        generator = self.generator(max_len, nchars, nwords, words, charmap, 2)
        model.fit_generator(generator, steps_per_epoch= nwords/2, epochs=10)

if __name__ == '__main__':
    StringEmbeddingsScript().run()
	import os
	import pickle
	import numpy as np

	import tensorflow as tf
	from keras.backend.tensorflow_backend import set_session
	config = tf.ConfigProto()
	config.gpu_options.per_process_gpu_memory_fraction = 0.4
	set_session(tf.Session(config=config))

	from keras.models import Sequential, load_model
	from keras.layers import Dense, LSTM, Dropout
	from keras.utils import to_categorical
	from keras import optimizers

	class StringEmbeddingsScript(object):
	CHAR_NONE = '\x00'
	CHAR_START = '\x01'
	CHAR_END = '\x02'

	WORDS = ['India', 'keras', 'stackoverflow', 'tensorflow']

	def create_model(self, num_units, word_len, num_unique_chars):
	input_shape = (word_len, num_unique_chars)

	model = Sequential()
	model.add(LSTM(num_units, input_shape=input_shape, unroll=True))
	model.add(Dense(num_unique_chars, activation='softmax'))

	model.compile(optimizer=optimizers.Adam(lr=0.003),
	loss='categorical_crossentropy',
	metrics=['mse'])
	return model

	def get_char_to_int(self):
	words = self.WORDS
	max_len = max(len(w) for w in words) + 2 # adding 2 for start and end chars
	nwords = len(words)

	chars = list(sorted(list(set(list(''.join(words))))))
	chars = [self.CHAR_NONE, self.CHAR_START, self.CHAR_END] + chars
	charmap = { c: i for i, c in enumerate(chars) }
	nchars = len(chars)

	return max_len, nchars, nwords, words, charmap

	def generator(self, max_len, nchars, nwords, words, charmap, b_size):
	while 1:
	char_none = to_categorical(charmap[self.CHAR_NONE], num_classes=nchars)
	num_batches = (nwords//b_size) + 1

	for i in range(num_batches):
	start = b_size * i
	end = b_size * (i + 1)

	split_words = words[start:end]
	n = len(split_words)

	data = np.zeros(shape=(n, max_len, nchars), dtype=np.float32)
	labels = np.zeros(shape=(n, nchars), dtype=np.float32)

	for i in range(n):
	w = split_words[i][:-1]
	last_char = split_words[i][-1]
	w = '%s%s%s' % (self.CHAR_START, w, self.CHAR_END)
	w = [to_categorical(charmap[x], num_classes=nchars) for x in w]
	w = w + ([char_none] * (max_len - len(w)))
	data[i] = w
	labels[i] = to_categorical(charmap[last_char], num_classes=nchars

	yield data, labels

	def run(self):
	neurons = 128
	max_len, nchars, nwords, words, charmap = self.get_char_to_int()

	model = self.create_model(neurons, max_len, nchars)

	generator = self.generator(max_len, nchars, nwords, words, charmap, 2)
	model.fit_generator(generator, steps_per_epoch= nwords/2, epochs=10)

	if __name__ == '__main__':
	StringEmbeddingsScript().run()