DimaK415/subreddit_scraper_script.py

## subreddit_scraper_script.py
print('Loading Libraries')

# Standard Libraries
import pandas as pd
import numpy as np
from datetime import datetime

# URL Parser
from urllib.parse import urlparse

# Reddit API
import praw

# Sentiment and NLP TextBlob
from textblob import TextBlob

# Newspaper3k
from newspaper import Article

# Subreddit Scraper Function
# from Scraper_Library import subreddit_title_scraper

print('Completed')


print('Loading Reddit Params')

fileObj = open('Scraper_Params.dat', mode='r')

reddit_params = {}

for line in fileObj:
    line = line.strip()

    key_value = line.split('=')
    if len(key_value) == 2:
        reddit_params[key_value[0].strip()] = key_value[1].strip()

print('Complete')
print('Assigning Variables')

red = praw.Reddit(client_id=      reddit_params['red_client_id'],
                  client_secret=  reddit_params['red_client_secret'],
                  password=       reddit_params['red_password'],
                  user_agent=     reddit_params['red_user_agent'],
                  username=       reddit_params['red_username'])

blu = praw.Reddit(client_id=      reddit_params['blu_client_id'],
                  client_secret=  reddit_params['blu_client_secret'],
                  password=       reddit_params['blu_password'],
                  user_agent=     reddit_params['blu_user_agent'],
                  username=       reddit_params['blu_username'])

red_sub_list = reddit_params['red_list'].strip().split(', ')
print(red_sub_list)
blu_sub_list = reddit_params['blu_list'].strip().split(', ')


sub_limit    = int(reddit_params['limit_per_sub'].strip().split(', ')[0])

print('Complete')

def subreddit_title_scraper(sub_list, api, limit, df = True):

    global red_sub_list

    posts_dict = {"post title"        : [],
                  "subreddit"         : [],
                  "is article"        : [],
                  "article title"     : [],
                  "title polarity"    : [],
                  "title objectivity" : [],
                  "keywords"          : [],
                  "domain"            : [],
                  "link"              : [],
                  "author"            : [],
                  "date"              : [],
                  "target"            : [],
                   }

    article_count = 0
    invalid_links = 0

    for sub in sub_list:
        submissions = (x for x in api.subreddit(sub).hot(limit=limit) if not x.stickied)

        for post in submissions:

            if sub_list is red_sub_list:
                posts_dict['target'].append(True)

            if sub_list == blu_sub_list:
                posts_dict['target'].append(False)

            posts_dict["post title"].append(post.title)           ## praw reddit scraping to dict##
            posts_dict["link"].append(post.url)
            posts_dict["subreddit"].append(sub)
            posts_dict["date"].append(datetime.fromtimestamp(post.created_utc))

            parsed_url = urlparse(post.url)                       ## Parse URL for domain
            posts_dict['domain'].append(parsed_url.netloc)

            post_blob = TextBlob(post.title)
            posts_dict["title polarity"].append(post_blob.sentiment[0])
            posts_dict["title objectivity"].append(post_blob.sentiment[1])
            posts_dict["keywords"].append(post_blob.noun_phrases)

            article = Article(post.url)                           ## Instantiate newspaper3k library ##
            if article.is_valid_url:                              ## Is post a URL?  ##

                try:
                    article.download()
                    article.parse()
                except:
                    posts_dict["is article"].append(False)
                    posts_dict["article title"].append(np.nan)
                    posts_dict["author"].append(np.nan)
                    continue

                if article.is_valid_body():                       ## Is post an article?  ##

                    article_count += 1
                    posts_dict["is article"].append(True)
                    posts_dict["article title"].append(article.title)
                    if article.authors != []:
                        posts_dict["author"].append(article.authors)

                    else:
                        posts_dict["author"].append(np.nan)

                    if article_count % 5 == 0:
                        print(f"Added {article_count} articles")

                else:

                    invalid_links += 1
                    posts_dict["is article"].append(False)
                    posts_dict["article title"].append(np.nan)
                    posts_dict["author"].append(np.nan)

                    if invalid_links % 5 == 0:
                        print(f"{invalid_links} invalid links skipped")

    if df:

        print(f"creating data frame from {article_count + invalid_links} links")

        posts_df = pd.DataFrame(posts_dict)                             ## Make it a dataframe ##
        posts_df =posts_df[["subreddit", "post title", "keywords",
                            "title polarity", "title objectivity",
                            "domain", "is article", "article title" ,
                            "link", "author", "date", "target"]]

        print(f"Done processing {article_count} articles and {invalid_links} non-articles as dataframe")

        return posts_df

    else:
        print(f"Done processing {article_count} articles and {invalid_links} non-articles as dictionary")

        return posts_dict

print(f"Pulling {sub_limit} posts from {str(blu_sub_list)} and {str(red_sub_list)}")

dfb = subreddit_title_scraper(red_sub_list, red, sub_limit, df = True)
dfr = subreddit_title_scraper(blu_sub_list, blu, sub_limit, df = True)

print('Complete')
	print('Loading Libraries')

	# Standard Libraries
	import pandas as pd
	import numpy as np
	from datetime import datetime

	# URL Parser
	from urllib.parse import urlparse

	# Reddit API
	import praw

	# Sentiment and NLP TextBlob
	from textblob import TextBlob

	# Newspaper3k
	from newspaper import Article

	# Subreddit Scraper Function
	# from Scraper_Library import subreddit_title_scraper

	print('Completed')


	print('Loading Reddit Params')

	fileObj = open('Scraper_Params.dat', mode='r')

	reddit_params = {}

	for line in fileObj:
	line = line.strip()

	key_value = line.split('=')
	if len(key_value) == 2:
	reddit_params[key_value[0].strip()] = key_value[1].strip()

	print('Complete')
	print('Assigning Variables')

	red = praw.Reddit(client_id= reddit_params['red_client_id'],
	client_secret= reddit_params['red_client_secret'],
	password= reddit_params['red_password'],
	user_agent= reddit_params['red_user_agent'],
	username= reddit_params['red_username'])

	blu = praw.Reddit(client_id= reddit_params['blu_client_id'],
	client_secret= reddit_params['blu_client_secret'],
	password= reddit_params['blu_password'],
	user_agent= reddit_params['blu_user_agent'],
	username= reddit_params['blu_username'])

	red_sub_list = reddit_params['red_list'].strip().split(', ')
	print(red_sub_list)
	blu_sub_list = reddit_params['blu_list'].strip().split(', ')


	sub_limit = int(reddit_params['limit_per_sub'].strip().split(', ')[0])

	print('Complete')

	def subreddit_title_scraper(sub_list, api, limit, df = True):

	global red_sub_list

	posts_dict = {"post title" : [],
	"subreddit" : [],
	"is article" : [],
	"article title" : [],
	"title polarity" : [],
	"title objectivity" : [],
	"keywords" : [],
	"domain" : [],
	"link" : [],
	"author" : [],
	"date" : [],
	"target" : [],
	}

	article_count = 0
	invalid_links = 0

	for sub in sub_list:
	submissions = (x for x in api.subreddit(sub).hot(limit=limit) if not x.stickied)

	for post in submissions:

	if sub_list is red_sub_list:
	posts_dict['target'].append(True)

	if sub_list == blu_sub_list:
	posts_dict['target'].append(False)

	posts_dict["post title"].append(post.title) ## praw reddit scraping to dict##
	posts_dict["link"].append(post.url)
	posts_dict["subreddit"].append(sub)
	posts_dict["date"].append(datetime.fromtimestamp(post.created_utc))

	parsed_url = urlparse(post.url) ## Parse URL for domain
	posts_dict['domain'].append(parsed_url.netloc)

	post_blob = TextBlob(post.title)
	posts_dict["title polarity"].append(post_blob.sentiment[0])
	posts_dict["title objectivity"].append(post_blob.sentiment[1])
	posts_dict["keywords"].append(post_blob.noun_phrases)

	article = Article(post.url) ## Instantiate newspaper3k library ##
	if article.is_valid_url: ## Is post a URL? ##

	try:
	article.download()
	article.parse()
	except:
	posts_dict["is article"].append(False)
	posts_dict["article title"].append(np.nan)
	posts_dict["author"].append(np.nan)
	continue

	if article.is_valid_body(): ## Is post an article? ##

	article_count += 1
	posts_dict["is article"].append(True)
	posts_dict["article title"].append(article.title)
	if article.authors != []:
	posts_dict["author"].append(article.authors)

	else:
	posts_dict["author"].append(np.nan)

	if article_count % 5 == 0:
	print(f"Added {article_count} articles")

	else:

	invalid_links += 1
	posts_dict["is article"].append(False)
	posts_dict["article title"].append(np.nan)
	posts_dict["author"].append(np.nan)

	if invalid_links % 5 == 0:
	print(f"{invalid_links} invalid links skipped")

	if df:

	print(f"creating data frame from {article_count + invalid_links} links")

	posts_df = pd.DataFrame(posts_dict) ## Make it a dataframe ##
	posts_df =posts_df[["subreddit", "post title", "keywords",
	"title polarity", "title objectivity",
	"domain", "is article", "article title" ,
	"link", "author", "date", "target"]]

	print(f"Done processing {article_count} articles and {invalid_links} non-articles as dataframe")

	return posts_df

	else:
	print(f"Done processing {article_count} articles and {invalid_links} non-articles as dictionary")

	return posts_dict

	print(f"Pulling {sub_limit} posts from {str(blu_sub_list)} and {str(red_sub_list)}")

	dfb = subreddit_title_scraper(red_sub_list, red, sub_limit, df = True)
	dfr = subreddit_title_scraper(blu_sub_list, blu, sub_limit, df = True)

	print('Complete')