davidlenz/spacy_lemmatizer.py

## spacy_lemmatizer.py
import spacy

settings.LEMMATIZER_BATCH_SIZE = 250
settings.LEMMATIZER_N_THREADS = -1

nlp = spacy.load('de')
nlp.disable_pipes('tagger', 'ner')

def spacy_lemmatizer(text, nlp):
    """text is a list of string. nlp is a spacy nlp object. Use nlp.disable_pipes('tagger','ner') to speed up lemmatization"""
    doclist = list(nlp.pipe(text, n_threads=settings.LEMMATIZER_N_THREADS,  batch_size=settings.LEMMATIZER_BATCH_SIZE))

    docs=[]
    for i, doc in enumerate(doclist):
        docs.append(' '.join([listitem.lemma_ for listitem in doc]))

    return docs
	import spacy

	settings.LEMMATIZER_BATCH_SIZE = 250
	settings.LEMMATIZER_N_THREADS = -1

	nlp = spacy.load('de')
	nlp.disable_pipes('tagger', 'ner')

	def spacy_lemmatizer(text, nlp):
	"""text is a list of string. nlp is a spacy nlp object. Use nlp.disable_pipes('tagger','ner') to speed up lemmatization"""
	doclist = list(nlp.pipe(text, n_threads=settings.LEMMATIZER_N_THREADS, batch_size=settings.LEMMATIZER_BATCH_SIZE))

	docs=[]
	for i, doc in enumerate(doclist):
	docs.append(' '.join([listitem.lemma_ for listitem in doc]))

	return docs