vi3k6i5/flashtext_regex_timing_keyword_extraction.py

## flashtext_regex_timing_keyword_extraction.py
#!/bin/python
from flashtext.keyword import KeywordProcessor
import random
import string
import re
import time

def get_word_of_length(str_length):
    # generate a random word of given length
    return ''.join(random.choice(string.ascii_lowercase) for _ in range(str_length))

# generate a list of 100K words of randomly chosen size
all_words = [get_word_of_length(random.choice([3, 4, 5, 6, 7, 8])) for i in range(100000)]

print('Count  | FlashText | Regex    ')
print('-------------------------------')
for keywords_length in range(0, 20001, 1000):
    # chose 5000 terms and create a string to search in.
    all_words_chosen = random.sample(all_words, 5000)
    story = ' '.join(all_words_chosen)

    # get unique keywords from the list of words generated.
    unique_keywords_sublist = list(set(random.sample(all_words, keywords_length)))

    # compile regex
    compiled_re = re.compile('|'.join([r'\b' + keyword + r'\b' for keyword in unique_keywords_sublist]))

    # add keywords to flashtext
    keyword_processor = KeywordProcessor()
    keyword_processor.add_keywords_from_list(unique_keywords_sublist)

    # time the modules
    start = time.time()
    _ = keyword_processor.extract_keywords(story)
    mid = time.time()
    _ = compiled_re.findall(story)
    end = time.time()
    # print output
    print(str(keywords_length).ljust(6), '|',
          "{0:.5f}".format(mid - start).ljust(9), '|',
          "{0:.5f}".format(end - mid).ljust(9), '|',)

# Count  | FlashText | Regex
# -------------------------------
# 0      | 0.01668   | 0.00418   |
# 1000   | 0.02040   | 0.04781   |
# 5000   | 0.02180   | 0.26495   |
# 10000  | 0.02282   | 0.50019   |
# 15000  | 0.02140   | 0.73295   |
# 20000  | 0.02270   | 0.92905   |
	#!/bin/python
	from flashtext.keyword import KeywordProcessor
	import random
	import string
	import re
	import time

	def get_word_of_length(str_length):
	# generate a random word of given length
	return ''.join(random.choice(string.ascii_lowercase) for _ in range(str_length))

	# generate a list of 100K words of randomly chosen size
	all_words = [get_word_of_length(random.choice([3, 4, 5, 6, 7, 8])) for i in range(100000)]

	print('Count \| FlashText \| Regex ')
	print('-------------------------------')
	for keywords_length in range(0, 20001, 1000):
	# chose 5000 terms and create a string to search in.
	all_words_chosen = random.sample(all_words, 5000)
	story = ' '.join(all_words_chosen)

	# get unique keywords from the list of words generated.
	unique_keywords_sublist = list(set(random.sample(all_words, keywords_length)))

	# compile regex
	compiled_re = re.compile('\|'.join([r'\b' + keyword + r'\b' for keyword in unique_keywords_sublist]))

	# add keywords to flashtext
	keyword_processor = KeywordProcessor()
	keyword_processor.add_keywords_from_list(unique_keywords_sublist)

	# time the modules
	start = time.time()
	_ = keyword_processor.extract_keywords(story)
	mid = time.time()
	_ = compiled_re.findall(story)
	end = time.time()
	# print output
	print(str(keywords_length).ljust(6), '\|',
	"{0:.5f}".format(mid - start).ljust(9), '\|',
	"{0:.5f}".format(end - mid).ljust(9), '\|',)

	# Count \| FlashText \| Regex
	# -------------------------------
	# 0 \| 0.01668 \| 0.00418 \|
	# 1000 \| 0.02040 \| 0.04781 \|
	# 5000 \| 0.02180 \| 0.26495 \|
	# 10000 \| 0.02282 \| 0.50019 \|
	# 15000 \| 0.02140 \| 0.73295 \|
	# 20000 \| 0.02270 \| 0.92905 \|