dobrokot/fuzzy_search.py

## fuzzy_search.py
# usage:
# LC_ALL=C grep "$(python fuzzy_search.py "HELLO")"  input.file.utf8.txt

import sys

s = sys.argv[1]

su = s.decode('utf-8')

utf8_any = '[^\x80-\xbf][\x80-\xbf]*'
#utf8_any = '.'

vars = []

def escape_char(c):
    if c in '.[]*\\$^':
        return '\\' + c
    return c

def esc(r):
    return ''.join(map(escape_char, r)).encode('UTF-8')

for i in xrange(len(su)):
    vars.append(esc(su[:i]) + utf8_any + esc(su[i+1:]))
    vars.append(esc(su[:i]) + esc(su[i+1:]))
    if (i != 0):
        vars.append(esc(su[:i]) + utf8_any + esc(su[i:]))

sys.stdout.write('\\|'.join(vars))
	# usage:
	# LC_ALL=C grep "$(python fuzzy_search.py "HELLO")" input.file.utf8.txt

	import sys

	s = sys.argv[1]

	su = s.decode('utf-8')

	utf8_any = '[^\x80-\xbf][\x80-\xbf]*'
	#utf8_any = '.'

	vars = []

	def escape_char(c):
	if c in '.[]*\\$^':
	return '\\' + c
	return c

	def esc(r):
	return ''.join(map(escape_char, r)).encode('UTF-8')

	for i in xrange(len(su)):
	vars.append(esc(su[:i]) + utf8_any + esc(su[i+1:]))
	vars.append(esc(su[:i]) + esc(su[i+1:]))
	if (i != 0):
	vars.append(esc(su[:i]) + utf8_any + esc(su[i:]))

	sys.stdout.write('\\\|'.join(vars))