Skip to content

Instantly share code, notes, and snippets.

@cr0wg4n
Last active February 9, 2024 21:33
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save cr0wg4n/148fde4e3d00a71435e9c72d88b8cf65 to your computer and use it in GitHub Desktop.
Save cr0wg4n/148fde4e3d00a71435e9c72d88b8cf65 to your computer and use it in GitHub Desktop.
Clearing stop words
stop_words = [
# stop words list
]
symbols = [
'¿','?','~','`','!','¡','@','#','$','%','^',
'*','(',')','_','-','+','=','{','}','[',
']','\\',':',';','<','>','/', '.', ',','&','\n'
,'\r','\t', '|', '“', '"', '–', '”', '©', '-', '—',
'…', ';', '‘','’'
]
def split_text(text) -> list:
return re.findall(r'\S+', text)
def remove_stop_words_from_text(text) -> list:
res = []
subwords = split_text(text)
for item in subwords:
if not item in stop_words:
res.append(item)
return res
def remove_symbols (text) -> str:
res = text
for char in symbols:
res = res.replace(char, '')
return res
def clean_text (text) -> list:
res = text.lower()
res = remove_symbols(res)
res = remove_stop_words_from_text(res)
return res
text = """Es relativamente fácil ponerse de acuerdo en que solo Homo sapiens puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos"""
text = clean_text(text)
print(text)
['relativamente', 'fácil', 'ponerse', 'acuerdo', 'homo', 'sapiens', 'hablar', 'realmente', 'creerse', 'imposibles', 'desayuno', 'cambio', 'convenceremos', 'mono', 'plátano', 'promesa', 'morir', 'número', 'ilimitado',
'bananas', 'disposición', 'cielo', 'monos']
@ockis2403
Copy link

Muchas gracias. Para quien esta aprendiendo, conocer el código de desarrolladores mas experimentados es muy educativo.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment