quickcode00/app_functions.py

## app_functions.py
from sumy.parsers.html import HtmlParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lsa import LsaSummarizer as Summarizer
from sumy.nlp.stemmers import Stemmer
from sumy.utils import get_stop_words
import requests


def summarize_html(url: str, sentences_count: int, language: str = 'english') -> str:
    """
    Summarizes text from URL

    Inputs
    ----------
    url: URL for full text
    sentences_count: specifies max number of sentences for return value
    language: specifies language of text

    Return
    ----------
    summary of text from URL
    """
    parser = HtmlParser.from_url(url, Tokenizer(language))
    stemmer = Stemmer(language)
    summarizer = Summarizer(stemmer)
    summarizer.stop_words = get_stop_words(language)

    summary = ''
    for sentence in summarizer(parser.document, sentences_count):
        if not summary:
            summary += str(sentence)
        else:
            summary += ' ' + str(sentence)

    return summary


def news_api_request(url: str, **kwargs) -> list:
    """
    Sends GET request to News API endpoint

    Inputs
    ----------
    url: full URL for endpoint
    kwargs: please refer to
            News API documentations:
            https://newsapi.org/docs/endpoints/
            (apiKey argument is required)

    Return
    ----------
    list containing data for each article in response
    """
    params = kwargs
    res = requests.get(url, params=params)
    articles = res.json().get('articles')
    return articles


def summarize_news_api(articles: list, sentences_count: int) -> list:
    """
    summarizes text at URL for each element of articles dict
    (return value from news_api_request) and adds a new element
    articles dict where the key is 'summary' and the value is
    the summarized text

    Inputs
    ----------
    articles: list of dict returned from news_api_request()
    sentences_count: specifies max number of sentences for
                     return value

    Return
    ----------
    articles list with summary element added to each dict
    """
    for article in articles:
        summary = summarize_html(article.get('url'), sentences_count)
        article.update({'summary': summary})

    return articles


def search_articles(sentences_count: int, **kwargs) -> list:
    """
    Sends GET request to News API /v2/everything endpoint,
    and summarizes data at each URL

    Inputs
    ----------
    sentences_count: specifies max number of sentences
                     for return value
    kwargs: see News API
            documentation:
            https://newsapi.org/docs/endpoints/everything

    Return
    ----------
    list where each element is a dict containing info about a single article
    """
    url = 'https://newsapi.org/v2/everything/'
    articles = news_api_request(url, **kwargs)
    return summarize_news_api(articles, sentences_count)


def get_top_headlines(sentences_count: int, **kwargs) -> list:
    """
    Sends GET request to News API /v2/top-headlines endpoint,
    and summarizes data at each URL

    Inputs
    ----------
    sentences_count: specifies max number of sentences for return value
    kwargs: see News API
            documentation:
            https://newsapi.org/docs/endpoints/top-headlines

    Return
    ----------
    list where each element is a dict containing info
    about a single article
    """
    url = 'https://newsapi.org/v2/top-headlines/'
    articles = news_api_request(url, **kwargs)
    return summarize_news_api(articles, sentences_count)
	from sumy.parsers.html import HtmlParser
	from sumy.nlp.tokenizers import Tokenizer
	from sumy.summarizers.lsa import LsaSummarizer as Summarizer
	from sumy.nlp.stemmers import Stemmer
	from sumy.utils import get_stop_words
	import requests


	def summarize_html(url: str, sentences_count: int, language: str = 'english') -> str:
	"""
	Summarizes text from URL

	Inputs
	----------
	url: URL for full text
	sentences_count: specifies max number of sentences for return value
	language: specifies language of text

	Return
	----------
	summary of text from URL
	"""
	parser = HtmlParser.from_url(url, Tokenizer(language))
	stemmer = Stemmer(language)
	summarizer = Summarizer(stemmer)
	summarizer.stop_words = get_stop_words(language)

	summary = ''
	for sentence in summarizer(parser.document, sentences_count):
	if not summary:
	summary += str(sentence)
	else:
	summary += ' ' + str(sentence)

	return summary


	def news_api_request(url: str, **kwargs) -> list:
	"""
	Sends GET request to News API endpoint

	Inputs
	----------
	url: full URL for endpoint
	kwargs: please refer to
	News API documentations:
	https://newsapi.org/docs/endpoints/
	(apiKey argument is required)

	Return
	----------
	list containing data for each article in response
	"""
	params = kwargs
	res = requests.get(url, params=params)
	articles = res.json().get('articles')
	return articles


	def summarize_news_api(articles: list, sentences_count: int) -> list:
	"""
	summarizes text at URL for each element of articles dict
	(return value from news_api_request) and adds a new element
	articles dict where the key is 'summary' and the value is
	the summarized text

	Inputs
	----------
	articles: list of dict returned from news_api_request()
	sentences_count: specifies max number of sentences for
	return value

	Return
	----------
	articles list with summary element added to each dict
	"""
	for article in articles:
	summary = summarize_html(article.get('url'), sentences_count)
	article.update({'summary': summary})

	return articles


	def search_articles(sentences_count: int, **kwargs) -> list:
	"""
	Sends GET request to News API /v2/everything endpoint,
	and summarizes data at each URL

	Inputs
	----------
	sentences_count: specifies max number of sentences
	for return value
	kwargs: see News API
	documentation:
	https://newsapi.org/docs/endpoints/everything

	Return
	----------
	list where each element is a dict containing info about a single article
	"""
	url = 'https://newsapi.org/v2/everything/'
	articles = news_api_request(url, **kwargs)
	return summarize_news_api(articles, sentences_count)


	def get_top_headlines(sentences_count: int, **kwargs) -> list:
	"""
	Sends GET request to News API /v2/top-headlines endpoint,
	and summarizes data at each URL

	Inputs
	----------
	sentences_count: specifies max number of sentences for return value
	kwargs: see News API
	documentation:
	https://newsapi.org/docs/endpoints/top-headlines

	Return
	----------
	list where each element is a dict containing info
	about a single article
	"""
	url = 'https://newsapi.org/v2/top-headlines/'
	articles = news_api_request(url, **kwargs)
	return summarize_news_api(articles, sentences_count)