Hispar/extract_domains.py

## extract_domains.py
# python 3 imports
from __future__ import unicode_literals, print_function

# imports
import re

# vars
text = " A long text with url like www.google.com and www.twitter.com and lorem ipsum dolor sit amet www.tabga.es"
regex = r'([a-z0-9][-a-z0-9]*[a-z0-9]|[a-z0-9])\.(([a-z]{2,4}|[a-z]{2,3}.uk))(?![-0-9a-z])(?!\.[a-z0-9])'

urls = set(re.findall(regex, text))

for url in urls:
    print('{}.{}'.format(url[0], url[1]))
	# python 3 imports
	from __future__ import unicode_literals, print_function

	# imports
	import re

	# vars
	text = " A long text with url like www.google.com and www.twitter.com and lorem ipsum dolor sit amet www.tabga.es"
	regex = r'([a-z0-9][-a-z0-9]*[a-z0-9]\|[a-z0-9])\.(([a-z]{2,4}\|[a-z]{2,3}.uk))(?![-0-9a-z])(?!\.[a-z0-9])'

	urls = set(re.findall(regex, text))

	for url in urls:
	print('{}.{}'.format(url[0], url[1]))