kwcooper/linkGrabber.py

## linkGrabber.py
import re
import pandas as pd

# kwc 210310

data_fName = 'linkGrabberData.txt'
saveName = 'linkedinLinks.csv'
re_exp = '(((//)|(\\\\))+([\w\d:#@%/;$()~_?\+-=\\\.&](#!)?)*)'


# open the raw data file and find links with regex
with open(fName) as f:
    urls = f.read()
    #print(urls)
    links = re.findall(re_exp, urls)

# Add custom curation code here to further
# pipeline process the links as needed
good_links = []
for url in links:
    if 'linkedin' in url[0]:
        url1 = url[0].strip('//www.')
        url2 = url1.strip(')')
        good_links.append(url2)

# Convert to a dataframe for easy manipulation / exporting
df = pd.DataFrame(good_links)
df.to_csv(saveName)

# Old expressions I've used
#     re_exp = '[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)'
#     re_exp = '((http|https)\:\/\/)?[a-zA-Z0-9\.\/\?\:@\-_=#]+\.([a-zA-Z]){2,6}([a-zA-Z0-9\.\&\/\?\:@\-_=#])*'
#     re_exp = '((https?):((//)|(\\\\))+([\w\d:#@%/;$()~_?\+-=\\\.&](#!)?)*)'
	import re
	import pandas as pd

	# kwc 210310

	data_fName = 'linkGrabberData.txt'
	saveName = 'linkedinLinks.csv'
	re_exp = '(((//)\|(\\\\))+([\w\d:#@%/;$()~_?\+-=\\\.&](#!)?)*)'


	# open the raw data file and find links with regex
	with open(fName) as f:
	urls = f.read()
	#print(urls)
	links = re.findall(re_exp, urls)

	# Add custom curation code here to further
	# pipeline process the links as needed
	good_links = []
	for url in links:
	if 'linkedin' in url[0]:
	url1 = url[0].strip('//www.')
	url2 = url1.strip(')')
	good_links.append(url2)

	# Convert to a dataframe for easy manipulation / exporting
	df = pd.DataFrame(good_links)
	df.to_csv(saveName)

	# Old expressions I've used
	# re_exp = '[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)'
	# re_exp = '((http\|https)\:\/\/)?[a-zA-Z0-9\.\/\?\:@\-_=#]+\.([a-zA-Z]){2,6}([a-zA-Z0-9\.\&\/\?\:@\-_=#])*'
	# re_exp = '((https?):((//)\|(\\\\))+([\w\d:#@%/;$()~_?\+-=\\\.&](#!)?)*)'