ecdedios/npr_coronavirus_extract.py

## npr_coronavirus_extract.py
import requests
import json
import time
import newspaper
import pickle

npr = newspaper.build('https://www.npr.org/sections/coronavirus-live-updates')

corpus = []
count = 0
for article in npr.articles:
    time.sleep(1)
    article.download()
    article.parse()
    text = article.text
    corpus.append(text)
    if count % 10 == 0 and count != 0:
        print('Obtained {} articles'.format(count))
    count += 1

corpus300 = corpus[:300]

with open("npr_coronavirus.txt", "wb") as fp:   # Pickling
    pickle.dump(corpus300, fp)

# with open("npr_coronavirus.txt", "rb") as fp:   # Unpickling
#     corpus = pickle.load(fp)
	import requests
	import json
	import time
	import newspaper
	import pickle

	npr = newspaper.build('https://www.npr.org/sections/coronavirus-live-updates')

	corpus = []
	count = 0
	for article in npr.articles:
	time.sleep(1)
	article.download()
	article.parse()
	text = article.text
	corpus.append(text)
	if count % 10 == 0 and count != 0:
	print('Obtained {} articles'.format(count))
	count += 1

	corpus300 = corpus[:300]

	with open("npr_coronavirus.txt", "wb") as fp: # Pickling
	pickle.dump(corpus300, fp)

	# with open("npr_coronavirus.txt", "rb") as fp: # Unpickling
	# corpus = pickle.load(fp)