badescunicu/top100beatport.py

## top100beatport.py
#!/usr/bin/python
import sys
import urllib
import re
from datetime import datetime

# usage: ./top100beatport <genre> <url_to_top100>
def extract_file_names(url):
    url_bulk_text = urllib.urlopen(url).read()

    pattern = r'<td class="secondColumn">.*?title="(.*?)"'
    matched_track_names = re.findall(pattern, url_bulk_text)

    pattern_for_artist = r'<td class="secondColumn">.*?title=".*?".*?<td>.*?title="(.*?)"'
    matched_artist = re.findall(pattern_for_artist, url_bulk_text)
    return zip(matched_artist, matched_track_names)

def main():
    if (len(sys.argv) < 3):
        print "usage: ./top100beatport <genre> <url_to_top100>"
        return
    today = datetime.now()
    top100 = extract_file_names(sys.argv[2])
    f_out = open("beatportTop100_{genre}_{day}_{month}.txt".format(genre=sys.argv[1], day=today.day, month=today.month), "w")
    for entry in top100:
        f_out.write(entry[0] + ' - ' + entry[1] + '\n')
    f_out.close()

if __name__ == '__main__':
    main()
	#!/usr/bin/python
	import sys
	import urllib
	import re
	from datetime import datetime

	# usage: ./top100beatport <genre> <url_to_top100>
	def extract_file_names(url):
	url_bulk_text = urllib.urlopen(url).read()

	pattern = r'<td class="secondColumn">.?title="(.?)"'
	matched_track_names = re.findall(pattern, url_bulk_text)

	pattern_for_artist = r'<td class="secondColumn">.?title=".?".?<td>.?title="(.*?)"'
	matched_artist = re.findall(pattern_for_artist, url_bulk_text)
	return zip(matched_artist, matched_track_names)

	def main():
	if (len(sys.argv) < 3):
	print "usage: ./top100beatport <genre> <url_to_top100>"
	return
	today = datetime.now()
	top100 = extract_file_names(sys.argv[2])
	f_out = open("beatportTop100_{genre}_{day}_{month}.txt".format(genre=sys.argv[1], day=today.day, month=today.month), "w")
	for entry in top100:
	f_out.write(entry[0] + ' - ' + entry[1] + '\n')
	f_out.close()

	if __name__ == '__main__':
	main()