chssch/spacy_bytes_load.py

## spacy_bytes_load.py
def load_data(filename):

    traina =  cPickle.load( open( filename, "rb" ) )

    j = 0
    i = 0
    temp = None
    pairs = []

    for r in traina:
        d = spacy.tokens.doc.Doc(nlp.vocab)
        d.from_bytes(r)
        e = spacy.tokens.doc.Doc(nlp.vocab, words=[unicode(w) for w in d if not w.is_stop])

        if i % 2 == 1:
            pairs.append((e, temp))
            j += 1
        else:
            temp = e

        if i % 100 == 0:
            print(i)

        i += 1

     return pairs
	def load_data(filename):

	traina = cPickle.load( open( filename, "rb" ) )

	j = 0
	i = 0
	temp = None
	pairs = []

	for r in traina:
	d = spacy.tokens.doc.Doc(nlp.vocab)
	d.from_bytes(r)
	e = spacy.tokens.doc.Doc(nlp.vocab, words=[unicode(w) for w in d if not w.is_stop])

	if i % 2 == 1:
	pairs.append((e, temp))
	j += 1
	else:
	temp = e

	if i % 100 == 0:
	print(i)

	i += 1

	return pairs