kowalcj0/extract_music_urls.py

## extract_music_urls.py
#! /usr/bin/python
"""Extract links to music websites from Mastodon's outbox.json
outbox.json contains all of your toots
"""
import json
from bs4 import BeautifulSoup as Soup


def extract_music_urls():
    with open("outbox.json") as f:
        j = json.loads(f.read())

    prefixes = ("https://youtu.be", "https://youtube.com",
                "https://www.youtube.com", "https://soundcloud.com",
                "https://m.soundcloud.com", "https://vimeo.com")
    links = []
    for m in j["orderedItems"]:
        if "content" in m["object"]:
            html = Soup(m["object"]["content"], 'html.parser')
            hrefs = [a['href'] for a in html.find_all('a') if a['href'].startswith(prefixes)]
            if hrefs:
                links.append(hrefs[0])
    return sorted(links)


if __name__ == "__main__":
    urls = extract_music_urls()
    print("\n".join(urls))
	#! /usr/bin/python
	"""Extract links to music websites from Mastodon's outbox.json
	outbox.json contains all of your toots
	"""
	import json
	from bs4 import BeautifulSoup as Soup


	def extract_music_urls():
	with open("outbox.json") as f:
	j = json.loads(f.read())

	prefixes = ("https://youtu.be", "https://youtube.com",
	"https://www.youtube.com", "https://soundcloud.com",
	"https://m.soundcloud.com", "https://vimeo.com")
	links = []
	for m in j["orderedItems"]:
	if "content" in m["object"]:
	html = Soup(m["object"]["content"], 'html.parser')
	hrefs = [a['href'] for a in html.find_all('a') if a['href'].startswith(prefixes)]
	if hrefs:
	links.append(hrefs[0])
	return sorted(links)



	if __name__ == "__main__":
	urls = extract_music_urls()
	print("\n".join(urls))