irfanandratama/senttoknize.py

## senttoknize.py
#memisahkan berdasarkan kalimat
def senttoken(): #Bagi per kalimat
    kalimat = input() #tambah .lower() untuk melakukan case folding sekaligus
    kalimat = re.split(r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<![A-Z]\.)(?<=\.|\?|\!)\s', kalimat)
    print(kalimat)
    return kalimat

## wordtokenize.py
def wordtoken(kaltoken):
    listkalimat = kaltoken
    listkata = []
    for kata in listkalimat:
	    #kata = re.findall(r'\w+|\S\w*', kata) #tokenize tanpa menghilangkan tanda baca
	    kata = re.findall(r'(?i)\b[a-z]+\b', kata)
        #kata = re.findall(r'(?i)\b[a-z]+\b|\d+\.\d+|\d+', kata) gunakan ini untuk tf normalized
	    listkata.append(kata)
    #print(len(listkata))
    print(listkata)
    return listkata
	#memisahkan berdasarkan kalimat
	def senttoken(): #Bagi per kalimat
	kalimat = input() #tambah .lower() untuk melakukan case folding sekaligus
	kalimat = re.split(r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<![A-Z]\.)(?<=\.\|\?\|\!)\s', kalimat)
	print(kalimat)
	return kalimat
	def wordtoken(kaltoken):
	listkalimat = kaltoken
	listkata = []
	for kata in listkalimat:
	#kata = re.findall(r'\w+\|\S\w*', kata) #tokenize tanpa menghilangkan tanda baca
	kata = re.findall(r'(?i)\b[a-z]+\b', kata)
	#kata = re.findall(r'(?i)\b[a-z]+\b\|\d+\.\d+\|\d+', kata) gunakan ini untuk tf normalized
	listkata.append(kata)
	#print(len(listkata))
	print(listkata)
	return listkata