schaunwheeler/doc_to_spans.py

## doc_to_spans.py
from spacy import load as spacy_load

# This loads the largest English corpus, which must be downloaded
# separate from package installation. Other choices are available.
nlp = spacy_load('en_core_web_lg')


def doc_to_spans(list_of_texts, join_string=' ||| '):
    all_docs = nlp(' ||| '.join(list_of_texts))
    split_inds = [i for i, token in enumerate(all_docs) if token.text == '|||'] + [len(all_docs)]
    new_docs = [all_docs[(i + 1 if i > 0 else i):j] for i, j in zip([0] + split_inds[:-1], split_inds)]
    return new_docs
	from spacy import load as spacy_load

	# This loads the largest English corpus, which must be downloaded
	# separate from package installation. Other choices are available.
	nlp = spacy_load('en_core_web_lg')


	def doc_to_spans(list_of_texts, join_string=' \|\|\| '):
	all_docs = nlp(' \|\|\| '.join(list_of_texts))
	split_inds = [i for i, token in enumerate(all_docs) if token.text == '\|\|\|'] + [len(all_docs)]
	new_docs = [all_docs[(i + 1 if i > 0 else i):j] for i, j in zip([0] + split_inds[:-1], split_inds)]
	return new_docs