VTSTech/VTSTech-NLTK.py

## 2 changes: 1 addition & 1 deletion VTSTech-NLTK.py
@@ -30,7 +30,7 @@ def simple(target,outstr):

    					return outstr
					return outstr

    def banner():
def banner():

    				print("NLTK Script v0.43 Written by VTSTech (veritas@vts-tech.org)   [03-13-2020]")
				print("NLTK Script v0.43 Written by VTSTech (veritas@vts-tech.org)   [03-13-2020]")

    				print("GitHub: https://gist.github.com/Veritas83/620f80a878acccf9eb64b34193221a67\n")
				print("GitHub: https://gist.github.com/Veritas83/620f80a878acccf9eb64b34193221a67\n")

    				print("GitHub: https://gist.github.com/VTSTech/620f80a878acccf9eb64b34193221a67\n")
				print("GitHub: https://gist.github.com/VTSTech/620f80a878acccf9eb64b34193221a67\n")

    				print("Usage:", script_fn,"-v mode \"word or sentence\"\n")
				print("Usage:", script_fn,"-v mode \"word or sentence\"\n")

    def spc_tok(target):
def spc_tok(target):

    				outstr=SpaceTokenizer().tokenize(target)
				outstr=SpaceTokenizer().tokenize(target)


## 50 changes: 20 additions & 30 deletions VTSTech-NLTK.py
@@ -1,4 +1,4 @@

    #NLTK Script v0.42 2020-03-13 10:08:47 PM
#NLTK Script v0.42 2020-03-13 10:08:47 PM

    #NLTK Script v0.43 2020-03-14 12:16:31 AM
#NLTK Script v0.43 2020-03-14 12:16:31 AM

    #Written by VTSTech (veritas@vts-tech.org)
#Written by VTSTech (veritas@vts-tech.org)

    #Various functions inspired by code from sentdex/pythonprogramming.net
#Various functions inspired by code from sentdex/pythonprogramming.net

    #https://pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/
#https://pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/
@@ -20,34 +20,27 @@

    custom_sent_tokenizer = PunktSentenceTokenizer(train_text)
custom_sent_tokenizer = PunktSentenceTokenizer(train_text)

    posts = nltk.corpus.nps_chat.xml_posts()[:10000]
posts = nltk.corpus.nps_chat.xml_posts()[:10000]


    def banner():
def banner():

    				print("NLTK Script v0.42 03-13-2020\nWritten by VTSTech (veritas@vts-tech.org)\nGitHub: https://gist.github.com/Veritas83/620f80a878acccf9eb64b34193221a67\n")
				print("NLTK Script v0.42 03-13-2020\nWritten by VTSTech (veritas@vts-tech.org)\nGitHub: https://gist.github.com/Veritas83/620f80a878acccf9eb64b34193221a67\n")

    				print("Usage:", script_fn,"-v mode \"word or sentence\"\n")
				print("Usage:", script_fn,"-v mode \"word or sentence\"\n")

    def spc_tok(target):
def spc_tok(target):

    				#print("[+] SpaceTokenizer imported.")
				#print("[+] SpaceTokenizer imported.")

    def simple(target,outstr):
def simple(target,outstr):

    				if (verbose==1):
				if (verbose==1):

    					print("[+] Target:", target)
					print("[+] Target:", target)

    					print("[+] Output:",end='')
					print("[+] Output:",end='')

    					print(SpaceTokenizer().tokenize(target))
					print(SpaceTokenizer().tokenize(target))

    					print(outstr)
					print(outstr)

    					print("[+] Complete.")
					print("[+] Complete.")

    				else:
				else:

    					return SpaceTokenizer().tokenize(target)
					return SpaceTokenizer().tokenize(target)

    					return outstr
					return outstr

    def banner():
def banner():

    				print("NLTK Script v0.43 Written by VTSTech (veritas@vts-tech.org)   [03-13-2020]")
				print("NLTK Script v0.43 Written by VTSTech (veritas@vts-tech.org)   [03-13-2020]")

    				print("GitHub: https://gist.github.com/Veritas83/620f80a878acccf9eb64b34193221a67\n")
				print("GitHub: https://gist.github.com/Veritas83/620f80a878acccf9eb64b34193221a67\n")

    				print("Usage:", script_fn,"-v mode \"word or sentence\"\n")
				print("Usage:", script_fn,"-v mode \"word or sentence\"\n")

    def spc_tok(target):
def spc_tok(target):

    				outstr=SpaceTokenizer().tokenize(target)
				outstr=SpaceTokenizer().tokenize(target)

    				return simple(target,outstr)
				return simple(target,outstr)

    def sent_tok(target):
def sent_tok(target):

    				if (verbose==1):
				if (verbose==1):

    					print("[+] Target:", target)
					print("[+] Target:", target)

    					print("[+] Output:",end='')
					print("[+] Output:",end='')

    					print(sent_tokenize(target))
					print(sent_tokenize(target))

    					print("[+] Complete.")
					print("[+] Complete.")

    				else:
				else:

    					return sent_tokenize(target)
					return sent_tokenize(target)

    				outstr=sent_tokenize(target)
				outstr=sent_tokenize(target)

    				return simple(target,outstr)
				return simple(target,outstr)

    def word_tok(target):
def word_tok(target):

    				if (verbose==1):
				if (verbose==1):

    					print("[+] Target:", target)
					print("[+] Target:", target)

    					print("[+] Output:",end='')
					print("[+] Output:",end='')

    					print(word_tokenize(target))
					print(word_tokenize(target))

    					print("[+] Complete.")
					print("[+] Complete.")

    				else:
				else:

    					return word_tokenize(target)
					return word_tokenize(target)

    				outstr=word_tokenize(target)
				outstr=word_tokenize(target)

    				return simple(target,outstr)
				return simple(target,outstr)

    def syn_ant(target):
def syn_ant(target):

    	      #print("[+] wordnet imported.")
	      #print("[+] wordnet imported.")

    	      for syn in wordnet.synsets(target):
	      for syn in wordnet.synsets(target):
@@ -160,13 +153,8 @@ def lemma(target,pos):

    			    else:
			    else:

    			      return(lemmatizer.lemmatize(target))
			      return(lemmatizer.lemmatize(target))

    def postag(target):
def postag(target):

    				if (verbose==1):
				if (verbose==1):

    					print("[+] Target:", target)
					print("[+] Target:", target)

    					print("[+] Output:", end='')
					print("[+] Output:", end='')

    					print(pos_tag(SpaceTokenizer().tokenize(target)))
					print(pos_tag(SpaceTokenizer().tokenize(target)))

    					print("[+] Complete.")
					print("[+] Complete.")

    				else:
				else:

    					return(pos_tag(SpaceTokenizer().tokenize(target)))
					return(pos_tag(SpaceTokenizer().tokenize(target)))

    				outstr=pos_tag(word_tok(target))
				outstr=pos_tag(word_tok(target))

    				return simple(target,outstr)
				return simple(target,outstr)

    def nltk_download():
def nltk_download():

    				print("[+] NLTK Downloader launching...\n")
				print("[+] NLTK Downloader launching...\n")

    				nltk.download()
				nltk.download()
@@ -220,7 +208,9 @@ def main(mode,target,pos):

    				        nltk_download()
				        nltk_download()

    				elif (totalargs <= 2) and ("VTSTech-NLTK.py" in script_fn):
				elif (totalargs <= 2) and ("VTSTech-NLTK.py" in script_fn):

    				        banner()
				        banner()

    				        print("-v verbose output (shows banner, target, definitions, etc)\n\nModes:\n\nspc_tok (SpaceTokenizer) \nsent_tok (sent_tokenize) \nword_tok (word_tokenize) \nsyn_ant (wordnet.synsets)\nhyperon (hyper/hyponyms)\nstem (PorterStemmer)\nsnow (SnowballStemmer)\nlemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")
				        print("-v verbose output (shows banner, target, definitions, etc)\n\nModes:\n\nspc_tok (SpaceTokenizer) \nsent_tok (sent_tokenize) \nword_tok (word_tokenize) \nsyn_ant (wordnet.synsets)\nhyperon (hyper/hyponyms)\nstem (PorterStemmer)\nsnow (SnowballStemmer)\nlemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")

    				        print("-v verbose output (shows banner, target, definitions, etc)\n\nModes:\n\nspc_tok (SpaceTokenizer) \nsent_tok (sent_tokenize)")
				        print("-v verbose output (shows banner, target, definitions, etc)\n\nModes:\n\nspc_tok (SpaceTokenizer) \nsent_tok (sent_tokenize)")

    				        print("word_tok (word_tokenize) \nsyn_ant (wordnet.synsets)\nhyperon (hyper/hyponyms)\nstem (PorterStemmer)\nsnow (SnowballStemmer)")
				        print("word_tok (word_tokenize) \nsyn_ant (wordnet.synsets)\nhyperon (hyper/hyponyms)\nstem (PorterStemmer)\nsnow (SnowballStemmer)")

    				        print("lemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")
				        print("lemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")

    				else:
				else:

    				        if (verbose==1): banner()
				        if (verbose==1): banner()

    				        if ("spc_tok" in mode): # expects "a complete sentence."
				        if ("spc_tok" in mode): # expects "a complete sentence."


## 2 changes: 1 addition & 1 deletion VTSTech-NLTK.py
@@ -291,7 +291,7 @@ def main(mode,target,pos):

    		banner()
		banner()

    		print("Too many arguments! Check command line. Use \" to wrap series of words.")
		print("Too many arguments! Check command line. Use \" to wrap series of words.")

    		quit()
		quit()

    	elif (sys.argv[x] == "-v") or (totalargs==1):
	elif (sys.argv[x] == "-v") or (totalargs==1):

    	elif (sys.argv[x] == "-v") or (totalargs==1 and "VTSTech-NLTK" in script_fn):
	elif (sys.argv[x] == "-v") or (totalargs==1 and "VTSTech-NLTK" in script_fn):

    		verbose=1
		verbose=1

    	elif (sys.argv[x] == "spc_tok"):
	elif (sys.argv[x] == "spc_tok"):

    		mode=sys.argv[x]
		mode=sys.argv[x]


## 342 changes: 248 additions & 94 deletions VTSTech-NLTK.py
@@ -1,7 +1,9 @@

    #NLTK Script v0.41 2020-03-13 1:17:23 AM
#NLTK Script v0.41 2020-03-13 1:17:23 AM

    #NLTK Script v0.42 2020-03-13 10:08:47 PM
#NLTK Script v0.42 2020-03-13 10:08:47 PM

    #Written by VTSTech (veritas@vts-tech.org)
#Written by VTSTech (veritas@vts-tech.org)

    #Various functions inspired by code from sentdex/pythonprogramming.net
#Various functions inspired by code from sentdex/pythonprogramming.net

    #https://pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/
#https://pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/

    #Various functions inspired by code from Natural Language Processing with Python
#Various functions inspired by code from Natural Language Processing with Python

    #by Steven Bird, Ewan Klein and Edward Loper - http://www.nltk.org/book/ch01.html
#by Steven Bird, Ewan Klein and Edward Loper - http://www.nltk.org/book/ch01.html


    import sys, nltk, os, string, random
import sys, nltk, os, string, random

    from nltk import pos_tag
from nltk import pos_tag
@@ -12,101 +14,188 @@


    synonyms = []
synonyms = []

    antonyms = []
antonyms = []

    hypernyms = []
hypernyms = []

    hyponyms = []
hyponyms = []

    train_text = state_union.raw("1999-Clinton.txt")
train_text = state_union.raw("1999-Clinton.txt")

    custom_sent_tokenizer = PunktSentenceTokenizer(train_text)
custom_sent_tokenizer = PunktSentenceTokenizer(train_text)

    posts = nltk.corpus.nps_chat.xml_posts()[:10000]
posts = nltk.corpus.nps_chat.xml_posts()[:10000]


    def banner():
def banner():

    				print("NLTK Script v0.41 03-13-2020\nWritten by VTSTech (veritas@vts-tech.org)\nGitHub: https://gist.github.com/Veritas83/620f80a878acccf9eb64b34193221a67\n")
				print("NLTK Script v0.41 03-13-2020\nWritten by VTSTech (veritas@vts-tech.org)\nGitHub: https://gist.github.com/Veritas83/620f80a878acccf9eb64b34193221a67\n")

    				print("Usage:", script_fn,"mode \"word or sentence\"\n")
				print("Usage:", script_fn,"mode \"word or sentence\"\n")

    				print("NLTK Script v0.42 03-13-2020\nWritten by VTSTech (veritas@vts-tech.org)\nGitHub: https://gist.github.com/Veritas83/620f80a878acccf9eb64b34193221a67\n")
				print("NLTK Script v0.42 03-13-2020\nWritten by VTSTech (veritas@vts-tech.org)\nGitHub: https://gist.github.com/Veritas83/620f80a878acccf9eb64b34193221a67\n")

    				print("Usage:", script_fn,"-v mode \"word or sentence\"\n")
				print("Usage:", script_fn,"-v mode \"word or sentence\"\n")

    def spc_tok(target):
def spc_tok(target):

    				#print("[+] SpaceTokenizer imported.")
				#print("[+] SpaceTokenizer imported.")

    				print("[+] Target:", target)
				print("[+] Target:", target)

    				print("[+] Output:",end='')
				print("[+] Output:",end='')

    				print(SpaceTokenizer().tokenize(target))
				print(SpaceTokenizer().tokenize(target))

    				print("[+] Complete.")
				print("[+] Complete.")

    				if (verbose==1):
				if (verbose==1):

    					print("[+] Target:", target)
					print("[+] Target:", target)

    					print("[+] Output:",end='')
					print("[+] Output:",end='')

    					print(SpaceTokenizer().tokenize(target))
					print(SpaceTokenizer().tokenize(target))

    					print("[+] Complete.")
					print("[+] Complete.")

    				else:
				else:

    					return SpaceTokenizer().tokenize(target)
					return SpaceTokenizer().tokenize(target)

    def sent_tok(target):
def sent_tok(target):

    				print("[+] Target:", target)
				print("[+] Target:", target)

    				print("[+] Output:",end='')
				print("[+] Output:",end='')

    				print(sent_tokenize(target))
				print(sent_tokenize(target))

    				print("[+] Complete.")
				print("[+] Complete.")

    				if (verbose==1):
				if (verbose==1):

    					print("[+] Target:", target)
					print("[+] Target:", target)

    					print("[+] Output:",end='')
					print("[+] Output:",end='')

    					print(sent_tokenize(target))
					print(sent_tokenize(target))

    					print("[+] Complete.")
					print("[+] Complete.")

    				else:
				else:

    					return sent_tokenize(target)
					return sent_tokenize(target)

    def word_tok(target):
def word_tok(target):

    				print("[+] Target:", target)
				print("[+] Target:", target)

    				print("[+] Output:",end='')
				print("[+] Output:",end='')

    				print(word_tokenize(target))
				print(word_tokenize(target))

    				print("[+] Complete.")
				print("[+] Complete.")

    				if (verbose==1):
				if (verbose==1):

    					print("[+] Target:", target)
					print("[+] Target:", target)

    					print("[+] Output:",end='')
					print("[+] Output:",end='')

    					print(word_tokenize(target))
					print(word_tokenize(target))

    					print("[+] Complete.")
					print("[+] Complete.")

    				else:
				else:

    					return word_tokenize(target)
					return word_tokenize(target)

    def syn_ant(target):
def syn_ant(target):

    	      #print("[+] wordnet imported.")
	      #print("[+] wordnet imported.")

    	      for syn in wordnet.synsets(target):
	      for syn in wordnet.synsets(target):

    	          for l in syn.lemmas():
	          for l in syn.lemmas():

    	              synonyms.append(l.name())
	              synonyms.append(l.name())

    	          if l.antonyms():
	          if l.antonyms():

    	              antonyms.append(l.antonyms()[0].name())
	              antonyms.append(l.antonyms()[0].name())

    	      print("[+] Target:", target)
	      print("[+] Target:", target)

    	      if (verbose==1): print("[+] Target:", target)
	      if (verbose==1): print("[+] Target:", target)

    	      temp = wordnet.synsets(target)
	      temp = wordnet.synsets(target)

    	      if (len(temp) >= 1): print("[+] Defined:", temp[0].definition())
	      if (len(temp) >= 1): print("[+] Defined:", temp[0].definition())

    	      print("[+] Output:")
	      print("[+] Output:")

    	      if (len(set(synonyms))>0):
	      if (len(set(synonyms))>0):

    	      	print("Syn:", set(synonyms))
	      	print("Syn:", set(synonyms))

    	      if (verbose==1):
	      if (verbose==1):

    	      	if (len(temp) >= 1):
	      	if (len(temp) >= 1):

    	      		print("[+] Defined:", temp[0].definition())
	      		print("[+] Defined:", temp[0].definition())

    	      	print("[+] Output:")
	      	print("[+] Output:")

    	      	if (len(set(synonyms))>0):
	      	if (len(set(synonyms))>0):

    		      	print("Syn:", set(synonyms))
		      	print("Syn:", set(synonyms))

    	      	else:
	      	else:

    		      	print("Syn: Failed to find synonym!")
		      	print("Syn: Failed to find synonym!")

    	      	if (len(set(antonyms))>0):
	      	if (len(set(antonyms))>0):

    		      	print("Ant:", set(antonyms))
		      	print("Ant:", set(antonyms))

    	      	else:
	      	else:

    		      	print("Ant: Failed to find antonym!")
		      	print("Ant: Failed to find antonym!")

    	      	print("[+] Complete.")
	      	print("[+] Complete.")

    	      else:
	      else:

    	      	print("Syn: Failed to find synonym!")
	      	print("Syn: Failed to find synonym!")

    	      if (len(set(antonyms))>0):
	      if (len(set(antonyms))>0):

    	      	print("Ant:", set(antonyms))
	      	print("Ant:", set(antonyms))

    	      	if (len(set(synonyms))>0):
	      	if (len(set(synonyms))>0):

    	      		outstr="Syn:", set(synonyms)
	      		outstr="Syn:", set(synonyms)

    	      	else:
	      	else:

    	      		outstr="Syn: Failed!"
	      		outstr="Syn: Failed!"

    	      	if (len(set(antonyms))>0):
	      	if (len(set(antonyms))>0):

    	      		outstr2="Ant:", set(antonyms)
	      		outstr2="Ant:", set(antonyms)

    	      	else:
	      	else:

    	      		outstr2="Ant: Failed!"
	      		outstr2="Ant: Failed!"

    	      	return outstr,outstr2
	      	return outstr,outstr2

    def hyperon(target):
def hyperon(target):

    	      #print("[+] wordnet imported.")
	      #print("[+] wordnet imported.")

    	      for syn in wordnet.synsets(target):
	      for syn in wordnet.synsets(target):

    	          for l in syn.hypernyms():
	          for l in syn.hypernyms():

    	              hypernyms.append(l.name())
	              hypernyms.append(l.name())

    	          for l in syn.hyponyms():
	          for l in syn.hyponyms():

    	              hyponyms.append(l.name())
	              hyponyms.append(l.name())

    	      if (verbose==1):
	      if (verbose==1):

    		      print("[+] Target:", target)
		      print("[+] Target:", target)

    		      temp = wordnet.synsets(target)
		      temp = wordnet.synsets(target)

    		      if (len(temp) >= 1): print("[+] Defined:", temp[0].definition())
		      if (len(temp) >= 1): print("[+] Defined:", temp[0].definition())

    		      print("[+] Output:")
		      print("[+] Output:")

    		      if (len(set(hypernyms))>0):
		      if (len(set(hypernyms))>0):

    		      	print("Hypernyms:", set(hypernyms))
		      	print("Hypernyms:", set(hypernyms))

    		      else:
		      else:

    		      	print("Hypernyms: Failed to find hypernym!")
		      	print("Hypernyms: Failed to find hypernym!")

    		      if (len(set(hyponyms))>0):
		      if (len(set(hyponyms))>0):

    		      	print("Hyponyms:", set(hyponyms))
		      	print("Hyponyms:", set(hyponyms))

    		      else:
		      else:

    		      	print("Hyponyms: Failed to find hyponyms!")
		      	print("Hyponyms: Failed to find hyponyms!")

    		      print("[+] Complete.")
		      print("[+] Complete.")

    	      else:
	      else:

    	      	print("Ant: Failed to find antonym!")
	      	print("Ant: Failed to find antonym!")

    	      print("[+] Complete.")
	      print("[+] Complete.")

    		      if (len(set(hypernyms))>0):
		      if (len(set(hypernyms))>0):

    		      	outstr=("Hyper:", set(hypernyms))
		      	outstr=("Hyper:", set(hypernyms))

    		      else:
		      else:

    		      	outstr=("Hyper: Failed!")
		      	outstr=("Hyper: Failed!")

    		      if (len(set(hyponyms))>0):
		      if (len(set(hyponyms))>0):

    		      	outstr=outstr+("Hypon:", set(hyponyms))
		      	outstr=outstr+("Hypon:", set(hyponyms))

    		      else:
		      else:

    		      	outstr=outstr+("Hypon: Failed!")
		      	outstr=outstr+("Hypon: Failed!")

    		      return outstr
		      return outstr

    def stem(target):
def stem(target):

            ps = PorterStemmer()
        ps = PorterStemmer()

            #print("[+] PorterStemmer imported.")
        #print("[+] PorterStemmer imported.")

            print("[+] Target:",target)
        print("[+] Target:",target)

            print("[+] Output: ", end='')
        print("[+] Output: ", end='')

            words = SpaceTokenizer().tokenize(target)
        words = SpaceTokenizer().tokenize(target)

            for w in words:
        for w in words:

                print(ps.stem(w))
            print(ps.stem(w))

            print("[+] Complete.")
        print("[+] Complete.")

            if (verbose==1):
        if (verbose==1):

    	        print("[+] Target:",target)
	        print("[+] Target:",target)

    	        print("[+] Output: ", end='')
	        print("[+] Output: ", end='')

    	        words = SpaceTokenizer().tokenize(target)
	        words = SpaceTokenizer().tokenize(target)

    	        for w in words:
	        for w in words:

    	            print(ps.stem(w))
	            print(ps.stem(w))

    	        print("[+] Complete.")
	        print("[+] Complete.")

            else:
        else:

    	        words = SpaceTokenizer().tokenize(target)
	        words = SpaceTokenizer().tokenize(target)

    	        outstr=""
	        outstr=""

    	        for w in words:
	        for w in words:

    	            outstr=outstr+' '+(ps.stem(w))
	            outstr=outstr+' '+(ps.stem(w))

    	        return outstr.lstrip()
	        return outstr.lstrip()

    def snowball(target):
def snowball(target):

            stemmer = SnowballStemmer("english")
        stemmer = SnowballStemmer("english")

            #print("[+] PorterStemmer imported.")
        #print("[+] PorterStemmer imported.")

            print("[+] Target:",target)
        print("[+] Target:",target)

            print("[+] Output: ", end='')
        print("[+] Output: ", end='')

            words = SpaceTokenizer().tokenize(target)
        words = SpaceTokenizer().tokenize(target)

            for w in words:
        for w in words:

                print(stemmer.stem(w))
            print(stemmer.stem(w))

            print("[+] Complete.")
        print("[+] Complete.")

            if (verbose==1):
        if (verbose==1):

    	        print("[+] Target:",target)
	        print("[+] Target:",target)

    	        words = SpaceTokenizer().tokenize(target)
	        words = SpaceTokenizer().tokenize(target)

    	        #print("DEBUG:", len(words))
	        #print("DEBUG:", len(words))

    	        print("[+] Output: ", end='')
	        print("[+] Output: ", end='')

    	        for w in words:
	        for w in words:

    	            print(stemmer.stem(w))
	            print(stemmer.stem(w))

    	        print("[+] Complete.")
	        print("[+] Complete.")

            else:
        else:

    	        words = SpaceTokenizer().tokenize(target)
	        words = SpaceTokenizer().tokenize(target)

    	        outstr=""
	        outstr=""

    	        for w in words:
	        for w in words:

    	            outstr=outstr+' '+(stemmer.stem(w))
	            outstr=outstr+' '+(stemmer.stem(w))

    	        return outstr.lstrip()
	        return outstr.lstrip()

    def lemma(target,pos):
def lemma(target,pos):

    		    lemmatizer = WordNetLemmatizer()
		    lemmatizer = WordNetLemmatizer()

    		    #print("[+] WordNetLemmatizer imported.")
		    #print("[+] WordNetLemmatizer imported.")

    		    #pos=a,s,v,r
		    #pos=a,s,v,r

    		    print("[+] Target:",target)
		    print("[+] Target:",target)

    		    print("[+] Output: ",end='')
		    print("[+] Output: ",end='')

    		    if (totalargs == 4):
		    if (totalargs == 4):

    		    	print(lemmatizer.lemmatize(target, pos=pos))
		    	print(lemmatizer.lemmatize(target, pos=pos))

    		    if (verbose==1):
		    if (verbose==1):

    			    print("[+] Target:",target)
			    print("[+] Target:",target)

    			    print("[+] Output: ",end='')
			    print("[+] Output: ",end='')

    			    if (totalargs == 5):
			    if (totalargs == 5):

    			    	print(lemmatizer.lemmatize(target, pos=pos))
			    	print(lemmatizer.lemmatize(target, pos=pos))

    			    else:
			    else:

    			      print(lemmatizer.lemmatize(target))
			      print(lemmatizer.lemmatize(target))

    			    print("[+] Complete.")
			    print("[+] Complete.")

    		    else:
		    else:

    		      print(lemmatizer.lemmatize(target))
		      print(lemmatizer.lemmatize(target))

    		    print("[+] Complete.")
		    print("[+] Complete.")

    			    if (totalargs == 5):
			    if (totalargs == 5):

    			    	return(lemmatizer.lemmatize(target, pos=pos))
			    	return(lemmatizer.lemmatize(target, pos=pos))

    			    else:
			    else:

    			      return(lemmatizer.lemmatize(target))
			      return(lemmatizer.lemmatize(target))

    def postag(target):
def postag(target):

    				#print("[+] pos_tag, SpaceTokenizer imported.")
				#print("[+] pos_tag, SpaceTokenizer imported.")

    				print("[+] Target:", target)
				print("[+] Target:", target)

    				print("[+] Output:", end='')
				print("[+] Output:", end='')

    				print(pos_tag(SpaceTokenizer().tokenize(target)))
				print(pos_tag(SpaceTokenizer().tokenize(target)))

    				print("[+] Complete.")
				print("[+] Complete.")

    				if (verbose==1):
				if (verbose==1):

    					print("[+] Target:", target)
					print("[+] Target:", target)

    					print("[+] Output:", end='')
					print("[+] Output:", end='')

    					print(pos_tag(SpaceTokenizer().tokenize(target)))
					print(pos_tag(SpaceTokenizer().tokenize(target)))

    					print("[+] Complete.")
					print("[+] Complete.")

    				else:
				else:

    					return(pos_tag(SpaceTokenizer().tokenize(target)))
					return(pos_tag(SpaceTokenizer().tokenize(target)))

    def nltk_download():
def nltk_download():

    				print("[+] NLTK Downloader launching...\n")
				print("[+] NLTK Downloader launching...\n")

    				nltk.download()
				nltk.download()

    				print("[+] Complete.")
				print("[+] Complete.")

    def ner(target):
def ner(target):

    			  tokenized = custom_sent_tokenizer.tokenize(target)
			  tokenized = custom_sent_tokenizer.tokenize(target)

    			  try:
			  try:

    			      for i in tokenized:
			      for i in tokenized:

    			          words = nltk.word_tokenize(i)
			          words = nltk.word_tokenize(i)

    			          tagged = nltk.pos_tag(words)
			          tagged = nltk.pos_tag(words)

    			          namedEnt = nltk.ne_chunk(tagged, binary=True)
			          namedEnt = nltk.ne_chunk(tagged, binary=True)

    			          print("[+] Target:", target)
			          print("[+] Target:", target)

    			          print("[+] Output:", end='')
			          print("[+] Output:", end='')

    			          print(namedEnt)
			          print(namedEnt)

    			  except Exception as e:
			  except Exception as e:

    			      print(str(e))
			      print(str(e))

    			  print("[+] Complete.")
			  print("[+] Complete.")

    			  outstr=""
			  outstr=""

    			  if (verbose==1):
			  if (verbose==1):

    				  try:
				  try:

    				      for i in tokenized:
				      for i in tokenized:

    				          words = nltk.word_tokenize(i)
				          words = nltk.word_tokenize(i)

    				          tagged = nltk.pos_tag(words)
				          tagged = nltk.pos_tag(words)

    				          namedEnt = nltk.ne_chunk(tagged, binary=True)
				          namedEnt = nltk.ne_chunk(tagged, binary=True)

    				          print("[+] Target:", target)
				          print("[+] Target:", target)

    				          print("[+] Output:", end='')
				          print("[+] Output:", end='')

    				          print(namedEnt)
				          print(namedEnt)

    				  except Exception as e:
				  except Exception as e:

    				      print(str(e))
				      print(str(e))

    				  print("[+] Complete.")
				  print("[+] Complete.")

    			  else:
			  else:

    				  try:
				  try:

    				      for i in tokenized:
				      for i in tokenized:

    				          words = nltk.word_tokenize(i)
				          words = nltk.word_tokenize(i)

    				          tagged = nltk.pos_tag(words)
				          tagged = nltk.pos_tag(words)

    				          namedEnt = nltk.ne_chunk(tagged, binary=True)
				          namedEnt = nltk.ne_chunk(tagged, binary=True)

    				          outstr=namedEnt
				          outstr=namedEnt

    				  except Exception as e:
				  except Exception as e:

    				      print(str(e))
				      print(str(e))

    				  return outstr
				  return outstr

    def diag_act(target):
def diag_act(target):

    				def dialogue_act_features(post):
				def dialogue_act_features(post):

    				    features = {}
				    features = {}
@@ -118,60 +207,125 @@ def dialogue_act_features(post):

    				train_set, test_set = featuresets[size:], featuresets[:size]
				train_set, test_set = featuresets[size:], featuresets[:size]

    				classifier = nltk.NaiveBayesClassifier.train(train_set)
				classifier = nltk.NaiveBayesClassifier.train(train_set)

    				#print("DEBUG:", nltk.classify.accuracy(classifier, test_set))
				#print("DEBUG:", nltk.classify.accuracy(classifier, test_set))

    				print("[+] Target:", target)
				print("[+] Target:", target)

    				print("[+] Output:", classifier.classify(dialogue_act_features(target)))
				print("[+] Output:", classifier.classify(dialogue_act_features(target)))

    				print("[+] Complete.")
				print("[+] Complete.")

    				if (verbose==1):
				if (verbose==1):

    					print("[+] Target:", target)
					print("[+] Target:", target)

    					print("[+] Output:", classifier.classify(dialogue_act_features(target)))
					print("[+] Output:", classifier.classify(dialogue_act_features(target)))

    					print("[+] Complete.")
					print("[+] Complete.")

    				else:
				else:

    					return classifier.classify(dialogue_act_features(target))
					return classifier.classify(dialogue_act_features(target))

    ###
###

    def main(mode,target,pos):
def main(mode,target,pos):

    				if (totalargs == 2) and ("nltk_download" in mode):
				if (totalargs == 2) and ("nltk_download" in mode):

    				        banner()
				        banner()

    				        if (verbose==1): banner()
				        if (verbose==1): banner()

    				        nltk_download()
				        nltk_download()

    				elif (totalargs <= 2) and ("VTSTech-NLTK.py" in script_fn):
				elif (totalargs <= 2) and ("VTSTech-NLTK.py" in script_fn):

    				        banner()
				        banner()

    				        print("Modes:\n\nspc_tok (SpaceTokenizer) \nsent_tok (sent_tokenize) \nword_tok (word_tokenize) \nsyn_ant (wordnet.synsets)\nstem (PorterStemmer)\nsnow (SnowballStemmer)\nlemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")
				        print("Modes:\n\nspc_tok (SpaceTokenizer) \nsent_tok (sent_tokenize) \nword_tok (word_tokenize) \nsyn_ant (wordnet.synsets)\nstem (PorterStemmer)\nsnow (SnowballStemmer)\nlemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")

    				        print("-v verbose output (shows banner, target, definitions, etc)\n\nModes:\n\nspc_tok (SpaceTokenizer) \nsent_tok (sent_tokenize) \nword_tok (word_tokenize) \nsyn_ant (wordnet.synsets)\nhyperon (hyper/hyponyms)\nstem (PorterStemmer)\nsnow (SnowballStemmer)\nlemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")
				        print("-v verbose output (shows banner, target, definitions, etc)\n\nModes:\n\nspc_tok (SpaceTokenizer) \nsent_tok (sent_tokenize) \nword_tok (word_tokenize) \nsyn_ant (wordnet.synsets)\nhyperon (hyper/hyponyms)\nstem (PorterStemmer)\nsnow (SnowballStemmer)\nlemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")

    				else:
				else:

    				        banner()
				        banner()

    				        if (verbose==1): banner()
				        if (verbose==1): banner()

    				        if ("spc_tok" in mode): # expects "a complete sentence."
				        if ("spc_tok" in mode): # expects "a complete sentence."

    				            spc_tok(target)
				            spc_tok(target)

    				            if (verbose==1):
				            if (verbose==1):

    				            	spc_tok(target)
				            	spc_tok(target)

    				            else:
				            else:

    				            	print(spc_tok(target))
				            	print(spc_tok(target))

    				        if ("sent_tok" in mode): # expects "a complete sentence. Or two. Or three."
				        if ("sent_tok" in mode): # expects "a complete sentence. Or two. Or three."

    				            sent_tok(target)
				            sent_tok(target)

    				            if (verbose==1):
				            if (verbose==1):

    				            	sent_tok(target)
				            	sent_tok(target)

    				            else:
				            else:

    				            	print(sent_tok(target))
				            	print(sent_tok(target))

    				        if ("word_tok" in mode): # expects "a complete sentence."
				        if ("word_tok" in mode): # expects "a complete sentence."

    				            word_tok(target)
				            word_tok(target)

    				            if (verbose==1):
				            if (verbose==1):

    				            	word_tok(target)
				            	word_tok(target)

    				            else:
				            else:

    				            	print(word_tok(target))
				            	print(word_tok(target))

    				        if ("syn_ant" in mode): # expects word
				        if ("syn_ant" in mode): # expects word

    				            syn_ant(target)
				            syn_ant(target)

    				            if (verbose==1):
				            if (verbose==1):

    				            	syn_ant(target)
				            	syn_ant(target)

    				            else:
				            else:

    				            	print(syn_ant(target))
				            	print(syn_ant(target))

    				        if ("stem" in mode):    # expects word
				        if ("stem" in mode):    # expects word

    				            stem(target)
				            stem(target)

    				            if (verbose==1):
				            if (verbose==1):

    				            	stem(target)
				            	stem(target)

    				            else:
				            else:

    				            	print(stem(target))
				            	print(stem(target))

    				        if ("lemma" in mode):   # expects word (tag)
				        if ("lemma" in mode):   # expects word (tag)

    				            if (verbose==1):
				            if (verbose==1):

    				            	lemma(target,pos)
				            	lemma(target,pos)

    				            else:
				            else:

    				            	print(lemma(target,pos))
				            	print(lemma(target,pos))

    				        if ("pos_tag" in mode): # expects "a complete sentence."
				        if ("pos_tag" in mode): # expects "a complete sentence."

    				            postag(target)
				            postag(target)

    				            if (verbose==1):
				            if (verbose==1):

    				            	postag(target)
				            	postag(target)

    				            else:
				            else:

    				            	print(postag(target))
				            	print(postag(target))

    				        if ("ner" in mode):     # expects "a complete sentence."
				        if ("ner" in mode):     # expects "a complete sentence."

    				            ner(target)
				            ner(target)

    				            if (verbose==1):
				            if (verbose==1):

    				            	ner(target)
				            	ner(target)

    				            else:
				            else:

    				            	print(ner(target))
				            	print(ner(target))

    				        if ("diag_act" in mode):     # expects "a complete sentence."
				        if ("diag_act" in mode):     # expects "a complete sentence."

    				            diag_act(target)
				            diag_act(target)

    				            if (verbose==1):
				            if (verbose==1):

    				            	diag_act(target)
				            	diag_act(target)

    				            else:
				            else:

    				            	print(diag_act(target))
				            	print(diag_act(target))

    				        if ("snow" in mode):     # expects "a complete sentence."
				        if ("snow" in mode):     # expects "a complete sentence."

    				            snowball(target)
				            snowball(target)

    				            if (verbose==1):
				            if (verbose==1):

    				            	snowball(target)
				            	snowball(target)

    				            else:
				            else:

    				            	print(snowball(target))
				            	print(snowball(target))

    				        if ("hyperon" in mode):     # expects "a complete sentence."
				        if ("hyperon" in mode):     # expects "a complete sentence."

    				            if (verbose==1):
				            if (verbose==1):

    				            	hyperon(target)
				            	hyperon(target)

    				            else:
				            else:

    				            	print(hyperon(target))
				            	print(hyperon(target))

    ###
###

    totalargs = len(sys.argv)
totalargs = len(sys.argv)

    script_fn = sys.argv[0]
script_fn = sys.argv[0]

    mode=""
mode=""

    target=""
target=""

    pos=""
pos=""

    if (totalargs >= 4):
if (totalargs >= 4):

    	mode = sys.argv[1]
	mode = sys.argv[1]

    	target  = sys.argv[2]
	target  = sys.argv[2]

    	pos = sys.argv[3]
	pos = sys.argv[3]

    	main(mode,target,pos)
	main(mode,target,pos)

    elif (totalargs == 3):
elif (totalargs == 3):

    	mode = sys.argv[1]
	mode = sys.argv[1]

    	target  = sys.argv[2]
	target  = sys.argv[2]

    	main(mode,target,pos)
	main(mode,target,pos)

    elif (totalargs == 2):
elif (totalargs == 2):

    	mode = sys.argv[1]
	mode = sys.argv[1]

    	main(mode,target,pos)
	main(mode,target,pos)

    elif (totalargs == 1):
elif (totalargs == 1):

    	main(mode,target,pos)
	main(mode,target,pos)

    else:
else:

    	banner()
	banner()

    	print("Too many arguments! Check command line. Use \" to wrap sentences.")
	print("Too many arguments! Check command line. Use \" to wrap sentences.")

    	quit()
	quit()

    verbose=0
verbose=0

    for x in range(0,totalargs,1):
for x in range(0,totalargs,1):

    	#print("DEBUG:",sys.argv[x])
	#print("DEBUG:",sys.argv[x])

    	if (totalargs >= 6):
	if (totalargs >= 6):

    		banner()
		banner()

    		print("Too many arguments! Check command line. Use \" to wrap series of words.")
		print("Too many arguments! Check command line. Use \" to wrap series of words.")

    		quit()
		quit()

    	elif (sys.argv[x] == "-v") or (totalargs==1):
	elif (sys.argv[x] == "-v") or (totalargs==1):

    		verbose=1
		verbose=1

    	elif (sys.argv[x] == "spc_tok"):
	elif (sys.argv[x] == "spc_tok"):

    		mode=sys.argv[x]
		mode=sys.argv[x]

    		target=sys.argv[x+1]
		target=sys.argv[x+1]

    	elif (sys.argv[x] == "sent_tok"):
	elif (sys.argv[x] == "sent_tok"):

    		mode=sys.argv[x]
		mode=sys.argv[x]

    		target=sys.argv[x+1]
		target=sys.argv[x+1]

    	elif (sys.argv[x] == "word_tok"):
	elif (sys.argv[x] == "word_tok"):

    		mode=sys.argv[x]
		mode=sys.argv[x]

    		target=sys.argv[x+1]
		target=sys.argv[x+1]

    	elif (sys.argv[x] == "syn_ant"):
	elif (sys.argv[x] == "syn_ant"):

    		mode=sys.argv[x]
		mode=sys.argv[x]

    		target=sys.argv[x+1]
		target=sys.argv[x+1]

    	elif (sys.argv[x] == "stem"):
	elif (sys.argv[x] == "stem"):

    		mode=sys.argv[x]
		mode=sys.argv[x]

    		target=sys.argv[x+1]
		target=sys.argv[x+1]

    	elif (sys.argv[x] == "lemma"):
	elif (sys.argv[x] == "lemma"):

    		mode=sys.argv[x]
		mode=sys.argv[x]

    		target=sys.argv[x+1]
		target=sys.argv[x+1]

    		if (totalargs==5):
		if (totalargs==5):

    			pos=sys.argv[x+2]
			pos=sys.argv[x+2]

    	elif (sys.argv[x] == "pos_tag"):
	elif (sys.argv[x] == "pos_tag"):

    		mode=sys.argv[x]
		mode=sys.argv[x]

    		target=sys.argv[x+1]
		target=sys.argv[x+1]

    	elif (sys.argv[x] == "ner"):
	elif (sys.argv[x] == "ner"):

    		mode=sys.argv[x]
		mode=sys.argv[x]

    		target=sys.argv[x+1]
		target=sys.argv[x+1]

    	elif (sys.argv[x] == "diag_act"):
	elif (sys.argv[x] == "diag_act"):

    		mode=sys.argv[x]
		mode=sys.argv[x]

    		target=sys.argv[x+1]
		target=sys.argv[x+1]

    	elif (sys.argv[x] == "snow"):
	elif (sys.argv[x] == "snow"):

    		mode=sys.argv[x]
		mode=sys.argv[x]

    		target=sys.argv[x+1]
		target=sys.argv[x+1]

    	elif (sys.argv[x] == "hyperon"):
	elif (sys.argv[x] == "hyperon"):

    		mode=sys.argv[x]
		mode=sys.argv[x]

    		target=sys.argv[x+1]
		target=sys.argv[x+1]

    main(mode,target,pos)
main(mode,target,pos)

## 141 changes: 88 additions & 53 deletions VTSTech-NLTK.py
@@ -1,4 +1,4 @@

    #NLTK Script v0.4 2020-03-12 3:12:58 PM
#NLTK Script v0.4 2020-03-12 3:12:58 PM

    #NLTK Script v0.41 2020-03-13 1:17:23 AM
#NLTK Script v0.41 2020-03-13 1:17:23 AM

    #Written by VTSTech (veritas@vts-tech.org)
#Written by VTSTech (veritas@vts-tech.org)

    #Various functions inspired by code from sentdex/pythonprogramming.net
#Various functions inspired by code from sentdex/pythonprogramming.net

    #https://pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/
#https://pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/
@@ -17,24 +17,34 @@

    posts = nltk.corpus.nps_chat.xml_posts()[:10000]
posts = nltk.corpus.nps_chat.xml_posts()[:10000]


    def banner():
def banner():

    				print("NLTK Script v0.4 03-12-2020\nWritten by VTSTech (veritas@vts-tech.org)\n")
				print("NLTK Script v0.4 03-12-2020\nWritten by VTSTech (veritas@vts-tech.org)\n")

    				print("Usage:", os.path.basename(__file__),"mode \"word or sentence\"\n")
				print("Usage:", os.path.basename(__file__),"mode \"word or sentence\"\n")

    def spc_tok():
def spc_tok():

    				print("NLTK Script v0.41 03-13-2020\nWritten by VTSTech (veritas@vts-tech.org)\nGitHub: https://gist.github.com/Veritas83/620f80a878acccf9eb64b34193221a67\n")
				print("NLTK Script v0.41 03-13-2020\nWritten by VTSTech (veritas@vts-tech.org)\nGitHub: https://gist.github.com/Veritas83/620f80a878acccf9eb64b34193221a67\n")

    				print("Usage:", script_fn,"mode \"word or sentence\"\n")
				print("Usage:", script_fn,"mode \"word or sentence\"\n")

    def spc_tok(target):
def spc_tok(target):

    				#print("[+] SpaceTokenizer imported.")
				#print("[+] SpaceTokenizer imported.")

    				print("[+] Target:", sys.argv[2])
				print("[+] Target:", sys.argv[2])

    				print("[+] Target:", target)
				print("[+] Target:", target)

    				print("[+] Output:",end='')
				print("[+] Output:",end='')

    				print(SpaceTokenizer().tokenize(sys.argv[2]))
				print(SpaceTokenizer().tokenize(sys.argv[2]))

    				print(SpaceTokenizer().tokenize(target))
				print(SpaceTokenizer().tokenize(target))

    				print("[+] Complete.")
				print("[+] Complete.")

    def syn_ant():
def syn_ant():

    def sent_tok(target):
def sent_tok(target):

    				print("[+] Target:", target)
				print("[+] Target:", target)

    				print("[+] Output:",end='')
				print("[+] Output:",end='')

    				print(sent_tokenize(target))
				print(sent_tokenize(target))

    				print("[+] Complete.")
				print("[+] Complete.")

    def word_tok(target):
def word_tok(target):

    				print("[+] Target:", target)
				print("[+] Target:", target)

    				print("[+] Output:",end='')
				print("[+] Output:",end='')

    				print(word_tokenize(target))
				print(word_tokenize(target))

    				print("[+] Complete.")
				print("[+] Complete.")

    def syn_ant(target):
def syn_ant(target):

    	      #print("[+] wordnet imported.")
	      #print("[+] wordnet imported.")

    	      for syn in wordnet.synsets(sys.argv[2]):
	      for syn in wordnet.synsets(sys.argv[2]):

    	      for syn in wordnet.synsets(target):
	      for syn in wordnet.synsets(target):

    	          for l in syn.lemmas():
	          for l in syn.lemmas():

    	              synonyms.append(l.name())
	              synonyms.append(l.name())

    	          if l.antonyms():
	          if l.antonyms():

    	              antonyms.append(l.antonyms()[0].name())
	              antonyms.append(l.antonyms()[0].name())

    	      print("[+] Target:", sys.argv[2])
	      print("[+] Target:", sys.argv[2])

    	      target = wordnet.synsets(sys.argv[2])
	      target = wordnet.synsets(sys.argv[2])

    	      if (len(target) >= 1): print("[+] Defined:", target[0].definition())
	      if (len(target) >= 1): print("[+] Defined:", target[0].definition())

    	      print("[+] Target:", target)
	      print("[+] Target:", target)

    	      temp = wordnet.synsets(target)
	      temp = wordnet.synsets(target)

    	      if (len(temp) >= 1): print("[+] Defined:", temp[0].definition())
	      if (len(temp) >= 1): print("[+] Defined:", temp[0].definition())

    	      print("[+] Output:")
	      print("[+] Output:")

    	      if (len(set(synonyms))>0):
	      if (len(set(synonyms))>0):

    	      	print("Syn:", set(synonyms))
	      	print("Syn:", set(synonyms))
@@ -45,60 +55,59 @@ def syn_ant():

    	      else:
	      else:

    	      	print("Ant: Failed to find antonym!")
	      	print("Ant: Failed to find antonym!")

    	      print("[+] Complete.")
	      print("[+] Complete.")

    def stem():
def stem():

    def stem(target):
def stem(target):

            ps = PorterStemmer()
        ps = PorterStemmer()

            #print("[+] PorterStemmer imported.")
        #print("[+] PorterStemmer imported.")

            print("[+] Target:",sys.argv[2])
        print("[+] Target:",sys.argv[2])

            print("[+] Target:",target)
        print("[+] Target:",target)

            print("[+] Output: ", end='')
        print("[+] Output: ", end='')

            words = SpaceTokenizer().tokenize(sys.argv[2])
        words = SpaceTokenizer().tokenize(sys.argv[2])

            words = SpaceTokenizer().tokenize(target)
        words = SpaceTokenizer().tokenize(target)

            for w in words:
        for w in words:

                print(ps.stem(w))
            print(ps.stem(w))

            print("[+] Complete.")
        print("[+] Complete.")

    def snowball():
def snowball():

    def snowball(target):
def snowball(target):

            stemmer = SnowballStemmer("english")
        stemmer = SnowballStemmer("english")

            #print("[+] PorterStemmer imported.")
        #print("[+] PorterStemmer imported.")

            print("[+] Target:",sys.argv[2])
        print("[+] Target:",sys.argv[2])

            print("[+] Target:",target)
        print("[+] Target:",target)

            print("[+] Output: ", end='')
        print("[+] Output: ", end='')

            words = SpaceTokenizer().tokenize(sys.argv[2])
        words = SpaceTokenizer().tokenize(sys.argv[2])

            words = SpaceTokenizer().tokenize(target)
        words = SpaceTokenizer().tokenize(target)

            for w in words:
        for w in words:

                print(stemmer.stem(w))
            print(stemmer.stem(w))

            print("[+] Complete.")
        print("[+] Complete.")

    def lemma():
def lemma():

    def lemma(target,pos):
def lemma(target,pos):

    		    lemmatizer = WordNetLemmatizer()
		    lemmatizer = WordNetLemmatizer()

    		    #print("[+] WordNetLemmatizer imported.")
		    #print("[+] WordNetLemmatizer imported.")

    		    #pos=a,s,v,r
		    #pos=a,s,v,r

    		    print("[+] Target:",sys.argv[2])
		    print("[+] Target:",sys.argv[2])

    		    print("[+] Target:",target)
		    print("[+] Target:",target)

    		    print("[+] Output: ",end='')
		    print("[+] Output: ",end='')

    		    if (len(sys.argv) == 4):
		    if (len(sys.argv) == 4):

    		    	#print("DEBUG:", sys.argv[3])
		    	#print("DEBUG:", sys.argv[3])

    		    	print(lemmatizer.lemmatize(sys.argv[2], pos=sys.argv[3]))
		    	print(lemmatizer.lemmatize(sys.argv[2], pos=sys.argv[3]))

    		    if (totalargs == 4):
		    if (totalargs == 4):

    		    	print(lemmatizer.lemmatize(target, pos=pos))
		    	print(lemmatizer.lemmatize(target, pos=pos))

    		    else:
		    else:

    		        print(lemmatizer.lemmatize(sys.argv[2]))
		        print(lemmatizer.lemmatize(sys.argv[2]))

    		      print(lemmatizer.lemmatize(target))
		      print(lemmatizer.lemmatize(target))

    		    print("[+] Complete.")
		    print("[+] Complete.")

    def postag():
def postag():

    def postag(target):
def postag(target):

    				#print("[+] pos_tag, SpaceTokenizer imported.")
				#print("[+] pos_tag, SpaceTokenizer imported.")

    				print("[+] Target:", sys.argv[2])
				print("[+] Target:", sys.argv[2])

    				print("[+] Target:", target)
				print("[+] Target:", target)

    				print("[+] Output:", end='')
				print("[+] Output:", end='')

    				print(pos_tag(SpaceTokenizer().tokenize(sys.argv[2])))
				print(pos_tag(SpaceTokenizer().tokenize(sys.argv[2])))

    				print(pos_tag(SpaceTokenizer().tokenize(target)))
				print(pos_tag(SpaceTokenizer().tokenize(target)))

    				print("[+] Complete.")
				print("[+] Complete.")

    def nltk_download():
def nltk_download():

    				print("[+] NLTK Downloader launching...\n")
				print("[+] NLTK Downloader launching...\n")

    				nltk.download()
				nltk.download()

    				print("[+] Complete.")
				print("[+] Complete.")

    def ner():
def ner():

    			  tokenized = custom_sent_tokenizer.tokenize(sys.argv[2])
			  tokenized = custom_sent_tokenizer.tokenize(sys.argv[2])

    def ner(target):
def ner(target):

    			  tokenized = custom_sent_tokenizer.tokenize(target)
			  tokenized = custom_sent_tokenizer.tokenize(target)

    			  try:
			  try:

    			      for i in tokenized:
			      for i in tokenized:

    			          words = nltk.word_tokenize(i)
			          words = nltk.word_tokenize(i)

    			          tagged = nltk.pos_tag(words)
			          tagged = nltk.pos_tag(words)

    			          namedEnt = nltk.ne_chunk(tagged, binary=True)
			          namedEnt = nltk.ne_chunk(tagged, binary=True)

    			          print("[+] Target:", sys.argv[2])
			          print("[+] Target:", sys.argv[2])

    			          print("[+] Target:", target)
			          print("[+] Target:", target)

    			          print("[+] Output:", end='')
			          print("[+] Output:", end='')

    			          print(namedEnt)
			          print(namedEnt)

    			  except Exception as e:
			  except Exception as e:

    			      print(str(e))
			      print(str(e))

    			  print("[+] Complete.")
			  print("[+] Complete.")

    def diag_act():
def diag_act():

    def diag_act(target):
def diag_act(target):

    				def dialogue_act_features(post):
				def dialogue_act_features(post):

    				    features = {}
				    features = {}

    				    for word in nltk.word_tokenize(post):
				    for word in nltk.word_tokenize(post):
@@ -109,34 +118,60 @@ def dialogue_act_features(post):

    				train_set, test_set = featuresets[size:], featuresets[:size]
				train_set, test_set = featuresets[size:], featuresets[:size]

    				classifier = nltk.NaiveBayesClassifier.train(train_set)
				classifier = nltk.NaiveBayesClassifier.train(train_set)

    				#print("DEBUG:", nltk.classify.accuracy(classifier, test_set))
				#print("DEBUG:", nltk.classify.accuracy(classifier, test_set))

    				print("[+] Target:", sys.argv[2])
				print("[+] Target:", sys.argv[2])

    				print("[+] Output:", classifier.classify(dialogue_act_features(sys.argv[2])))
				print("[+] Output:", classifier.classify(dialogue_act_features(sys.argv[2])))

    				print("[+] Target:", target)
				print("[+] Target:", target)

    				print("[+] Output:", classifier.classify(dialogue_act_features(target)))
				print("[+] Output:", classifier.classify(dialogue_act_features(target)))

    				print("[+] Complete.")
				print("[+] Complete.")

    ###
###

    def main():
def main():

    				if (len(sys.argv) == 2) and ("nltk_download" in sys.argv[1]):
				if (len(sys.argv) == 2) and ("nltk_download" in sys.argv[1]):

    def main(mode,target,pos):
def main(mode,target,pos):

    				if (totalargs == 2) and ("nltk_download" in mode):
				if (totalargs == 2) and ("nltk_download" in mode):

    				        banner()
				        banner()

    				        nltk_download()
				        nltk_download()

    				elif (len(sys.argv) <= 2) and ("VTSTech-NLTK.py" in sys.argv[0]):
				elif (len(sys.argv) <= 2) and ("VTSTech-NLTK.py" in sys.argv[0]):

    				elif (totalargs <= 2) and ("VTSTech-NLTK.py" in script_fn):
				elif (totalargs <= 2) and ("VTSTech-NLTK.py" in script_fn):

    				        banner()
				        banner()

    				        print("Modes:\n\nspc_tok (SpaceTokenizer) \nsyn_ant (wordnet.synsets)\nstem (PorterStemmer)\nsnow (SnowballStemmer)\nlemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")
				        print("Modes:\n\nspc_tok (SpaceTokenizer) \nsyn_ant (wordnet.synsets)\nstem (PorterStemmer)\nsnow (SnowballStemmer)\nlemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")

    				        print("Modes:\n\nspc_tok (SpaceTokenizer) \nsent_tok (sent_tokenize) \nword_tok (word_tokenize) \nsyn_ant (wordnet.synsets)\nstem (PorterStemmer)\nsnow (SnowballStemmer)\nlemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")
				        print("Modes:\n\nspc_tok (SpaceTokenizer) \nsent_tok (sent_tokenize) \nword_tok (word_tokenize) \nsyn_ant (wordnet.synsets)\nstem (PorterStemmer)\nsnow (SnowballStemmer)\nlemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")

    				else:
				else:

    				        banner()
				        banner()

    				        if ("spc_tok" in sys.argv[1]): # expects "a complete sentence."
				        if ("spc_tok" in sys.argv[1]): # expects "a complete sentence."

    				            spc_tok()
				            spc_tok()

    				        if ("syn_ant" in sys.argv[1]): # expects word
				        if ("syn_ant" in sys.argv[1]): # expects word

    				            syn_ant()
				            syn_ant()

    				        if ("stem" in sys.argv[1]):    # expects word
				        if ("stem" in sys.argv[1]):    # expects word

    				            stem()
				            stem()

    				        if ("lemma" in sys.argv[1]):   # expects word (tag)
				        if ("lemma" in sys.argv[1]):   # expects word (tag)

    				            lemma()
				            lemma()

    				        if ("pos_tag" in sys.argv[1]): # expects "a complete sentence."
				        if ("pos_tag" in sys.argv[1]): # expects "a complete sentence."

    				            postag()
				            postag()

    				        if ("ner" in sys.argv[1]):     # expects "a complete sentence."
				        if ("ner" in sys.argv[1]):     # expects "a complete sentence."

    				            ner()
				            ner()

    				        if ("diag_act" in sys.argv[1]):     # expects "a complete sentence."
				        if ("diag_act" in sys.argv[1]):     # expects "a complete sentence."

    				            diag_act()
				            diag_act()

    				        if ("snow" in sys.argv[1]):     # expects "a complete sentence."
				        if ("snow" in sys.argv[1]):     # expects "a complete sentence."

    				            snowball()
				            snowball()

    				        if ("spc_tok" in mode): # expects "a complete sentence."
				        if ("spc_tok" in mode): # expects "a complete sentence."

    				            spc_tok(target)
				            spc_tok(target)

    				        if ("sent_tok" in mode): # expects "a complete sentence. Or two. Or three."
				        if ("sent_tok" in mode): # expects "a complete sentence. Or two. Or three."

    				            sent_tok(target)
				            sent_tok(target)

    				        if ("word_tok" in mode): # expects "a complete sentence."
				        if ("word_tok" in mode): # expects "a complete sentence."

    				            word_tok(target)
				            word_tok(target)

    				        if ("syn_ant" in mode): # expects word
				        if ("syn_ant" in mode): # expects word

    				            syn_ant(target)
				            syn_ant(target)

    				        if ("stem" in mode):    # expects word
				        if ("stem" in mode):    # expects word

    				            stem(target)
				            stem(target)

    				        if ("lemma" in mode):   # expects word (tag)
				        if ("lemma" in mode):   # expects word (tag)

    				            	lemma(target,pos)
				            	lemma(target,pos)

    				        if ("pos_tag" in mode): # expects "a complete sentence."
				        if ("pos_tag" in mode): # expects "a complete sentence."

    				            postag(target)
				            postag(target)

    				        if ("ner" in mode):     # expects "a complete sentence."
				        if ("ner" in mode):     # expects "a complete sentence."

    				            ner(target)
				            ner(target)

    				        if ("diag_act" in mode):     # expects "a complete sentence."
				        if ("diag_act" in mode):     # expects "a complete sentence."

    				            diag_act(target)
				            diag_act(target)

    				        if ("snow" in mode):     # expects "a complete sentence."
				        if ("snow" in mode):     # expects "a complete sentence."

    				            snowball(target)
				            snowball(target)

    ###
###

    main()
main()

    totalargs = len(sys.argv)
totalargs = len(sys.argv)

    script_fn = sys.argv[0]
script_fn = sys.argv[0]

    mode=""
mode=""

    target=""
target=""

    pos=""
pos=""

    if (totalargs >= 4):
if (totalargs >= 4):

    	mode = sys.argv[1]
	mode = sys.argv[1]

    	target  = sys.argv[2]
	target  = sys.argv[2]

    	pos = sys.argv[3]
	pos = sys.argv[3]

    	main(mode,target,pos)
	main(mode,target,pos)

    elif (totalargs == 3):
elif (totalargs == 3):

    	mode = sys.argv[1]
	mode = sys.argv[1]

    	target  = sys.argv[2]
	target  = sys.argv[2]

    	main(mode,target,pos)
	main(mode,target,pos)

    elif (totalargs == 2):
elif (totalargs == 2):

    	mode = sys.argv[1]
	mode = sys.argv[1]

    	main(mode,target,pos)
	main(mode,target,pos)

    elif (totalargs == 1):
elif (totalargs == 1):

    	main(mode,target,pos)
	main(mode,target,pos)

    else:
else:

    	banner()
	banner()

    	print("Too many arguments! Check command line. Use \" to wrap sentences.")
	print("Too many arguments! Check command line. Use \" to wrap sentences.")

    	quit()
	quit()

## 20 changes: 16 additions & 4 deletions VTSTech-NLTK.py
@@ -1,4 +1,4 @@

    #NLTK Script v0.3 2020-03-12 12:32:43 AM
#NLTK Script v0.3 2020-03-12 12:32:43 AM

    #NLTK Script v0.4 2020-03-12 3:12:58 PM
#NLTK Script v0.4 2020-03-12 3:12:58 PM

    #Written by VTSTech (veritas@vts-tech.org)
#Written by VTSTech (veritas@vts-tech.org)

    #Various functions inspired by code from sentdex/pythonprogramming.net
#Various functions inspired by code from sentdex/pythonprogramming.net

    #https://pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/
#https://pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/
@@ -7,6 +7,7 @@

    from nltk import pos_tag
from nltk import pos_tag

    from nltk.tokenize import sent_tokenize, word_tokenize, SpaceTokenizer, PunktSentenceTokenizer
from nltk.tokenize import sent_tokenize, word_tokenize, SpaceTokenizer, PunktSentenceTokenizer

    from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.stem import PorterStemmer, WordNetLemmatizer

    from nltk.stem.snowball import SnowballStemmer
from nltk.stem.snowball import SnowballStemmer

    from nltk.corpus import wordnet, state_union, brown
from nltk.corpus import wordnet, state_union, brown


    synonyms = []
synonyms = []
@@ -16,7 +17,7 @@

    posts = nltk.corpus.nps_chat.xml_posts()[:10000]
posts = nltk.corpus.nps_chat.xml_posts()[:10000]


    def banner():
def banner():

    				print("NLTK Script v0.3 03-12-2020\nWritten by VTSTech (veritas@vts-tech.org)\n")
				print("NLTK Script v0.3 03-12-2020\nWritten by VTSTech (veritas@vts-tech.org)\n")

    				print("NLTK Script v0.4 03-12-2020\nWritten by VTSTech (veritas@vts-tech.org)\n")
				print("NLTK Script v0.4 03-12-2020\nWritten by VTSTech (veritas@vts-tech.org)\n")

    				print("Usage:", os.path.basename(__file__),"mode \"word or sentence\"\n")
				print("Usage:", os.path.basename(__file__),"mode \"word or sentence\"\n")

    def spc_tok():
def spc_tok():

    				#print("[+] SpaceTokenizer imported.")
				#print("[+] SpaceTokenizer imported.")
@@ -53,6 +54,15 @@ def stem():

            for w in words:
        for w in words:

                print(ps.stem(w))
            print(ps.stem(w))

            print("[+] Complete.")
        print("[+] Complete.")

    def snowball():
def snowball():

            stemmer = SnowballStemmer("english")
        stemmer = SnowballStemmer("english")

            #print("[+] PorterStemmer imported.")
        #print("[+] PorterStemmer imported.")

            print("[+] Target:",sys.argv[2])
        print("[+] Target:",sys.argv[2])

            print("[+] Output: ", end='')
        print("[+] Output: ", end='')

            words = SpaceTokenizer().tokenize(sys.argv[2])
        words = SpaceTokenizer().tokenize(sys.argv[2])

            for w in words:
        for w in words:

                print(stemmer.stem(w))
            print(stemmer.stem(w))

            print("[+] Complete.")
        print("[+] Complete.")

    def lemma():
def lemma():

    		    lemmatizer = WordNetLemmatizer()
		    lemmatizer = WordNetLemmatizer()

    		    #print("[+] WordNetLemmatizer imported.")
		    #print("[+] WordNetLemmatizer imported.")
@@ -109,7 +119,7 @@ def main():

    				        nltk_download()
				        nltk_download()

    				elif (len(sys.argv) <= 2) and ("VTSTech-NLTK.py" in sys.argv[0]):
				elif (len(sys.argv) <= 2) and ("VTSTech-NLTK.py" in sys.argv[0]):

    				        banner()
				        banner()

    				        print("Modes:\n\nspc_tok\nsyn_ant\nstem\nlemma\npos_tag\nner\ndiag_act\nnltk_download")
				        print("Modes:\n\nspc_tok\nsyn_ant\nstem\nlemma\npos_tag\nner\ndiag_act\nnltk_download")

    				        print("Modes:\n\nspc_tok (SpaceTokenizer) \nsyn_ant (wordnet.synsets)\nstem (PorterStemmer)\nsnow (SnowballStemmer)\nlemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")
				        print("Modes:\n\nspc_tok (SpaceTokenizer) \nsyn_ant (wordnet.synsets)\nstem (PorterStemmer)\nsnow (SnowballStemmer)\nlemma (WordNetLemmatizer)\npos_tag (Part-of-Speech)\nner (Named Entity Recognition)\ndiag_act (Dialogue Action)\nnltk_download")

    				else:
				else:

    				        banner()
				        banner()

    				        if ("spc_tok" in sys.argv[1]): # expects "a complete sentence."
				        if ("spc_tok" in sys.argv[1]): # expects "a complete sentence."
@@ -118,13 +128,15 @@ def main():

    				            syn_ant()
				            syn_ant()

    				        if ("stem" in sys.argv[1]):    # expects word
				        if ("stem" in sys.argv[1]):    # expects word

    				            stem()
				            stem()

    				        if ("lemma" in sys.argv[1]):   # expects word
				        if ("lemma" in sys.argv[1]):   # expects word

    				        if ("lemma" in sys.argv[1]):   # expects word (tag)
				        if ("lemma" in sys.argv[1]):   # expects word (tag)

    				            lemma()
				            lemma()

    				        if ("pos_tag" in sys.argv[1]): # expects "a complete sentence."
				        if ("pos_tag" in sys.argv[1]): # expects "a complete sentence."

    				            postag()
				            postag()

    				        if ("ner" in sys.argv[1]):     # expects "a complete sentence."
				        if ("ner" in sys.argv[1]):     # expects "a complete sentence."

    				            ner()
				            ner()

    				        if ("diag_act" in sys.argv[1]):     # expects "a complete sentence."
				        if ("diag_act" in sys.argv[1]):     # expects "a complete sentence."

    				            diag_act()
				            diag_act()

    				        if ("snow" in sys.argv[1]):     # expects "a complete sentence."
				        if ("snow" in sys.argv[1]):     # expects "a complete sentence."

    				            snowball()
				            snowball()

    ###
###

    main()
main()

## 27 changes: 22 additions & 5 deletions VTSTech-NLTK.py
@@ -1,21 +1,22 @@

    #NLTK Script v0.2 2020-03-11 9:25:03 PM
#NLTK Script v0.2 2020-03-11 9:25:03 PM

    #NLTK Script v0.3 2020-03-12 12:32:43 AM
#NLTK Script v0.3 2020-03-12 12:32:43 AM

    #Written by VTSTech (veritas@vts-tech.org)
#Written by VTSTech (veritas@vts-tech.org)

    #Various functions inspired by code from sentdex/pythonprogramming.net
#Various functions inspired by code from sentdex/pythonprogramming.net

    #https://pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/
#https://pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/


    import sys, nltk, os, string
import sys, nltk, os, string

    import sys, nltk, os, string, random
import sys, nltk, os, string, random

    from nltk import pos_tag
from nltk import pos_tag

    from nltk.tokenize import sent_tokenize, word_tokenize, SpaceTokenizer, PunktSentenceTokenizer
from nltk.tokenize import sent_tokenize, word_tokenize, SpaceTokenizer, PunktSentenceTokenizer

    from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.stem import PorterStemmer, WordNetLemmatizer

    from nltk.corpus import wordnet, state_union
from nltk.corpus import wordnet, state_union

    from nltk.corpus import wordnet, state_union, brown
from nltk.corpus import wordnet, state_union, brown


    synonyms = []
synonyms = []

    antonyms = []
antonyms = []

    train_text = state_union.raw("1999-Clinton.txt")
train_text = state_union.raw("1999-Clinton.txt")

    custom_sent_tokenizer = PunktSentenceTokenizer(train_text)
custom_sent_tokenizer = PunktSentenceTokenizer(train_text)

    posts = nltk.corpus.nps_chat.xml_posts()[:10000]
posts = nltk.corpus.nps_chat.xml_posts()[:10000]


    def banner():
def banner():

    				print("NLTK Script v0.2 03-11-2020\nWritten by VTSTech (veritas@vts-tech.org)\n")
				print("NLTK Script v0.2 03-11-2020\nWritten by VTSTech (veritas@vts-tech.org)\n")

    				print("NLTK Script v0.3 03-12-2020\nWritten by VTSTech (veritas@vts-tech.org)\n")
				print("NLTK Script v0.3 03-12-2020\nWritten by VTSTech (veritas@vts-tech.org)\n")

    				print("Usage:", os.path.basename(__file__),"mode \"word or sentence\"\n")
				print("Usage:", os.path.basename(__file__),"mode \"word or sentence\"\n")

    def spc_tok():
def spc_tok():

    				#print("[+] SpaceTokenizer imported.")
				#print("[+] SpaceTokenizer imported.")
@@ -87,14 +88,28 @@ def ner():

    			  except Exception as e:
			  except Exception as e:

    			      print(str(e))
			      print(str(e))

    			  print("[+] Complete.")
			  print("[+] Complete.")

    def diag_act():
def diag_act():

    				def dialogue_act_features(post):
				def dialogue_act_features(post):

    				    features = {}
				    features = {}

    				    for word in nltk.word_tokenize(post):
				    for word in nltk.word_tokenize(post):

    				        features['contains({})'.format(word.lower())] = True
				        features['contains({})'.format(word.lower())] = True

    				    return features
				    return features

    				featuresets = [(dialogue_act_features(post.text), post.get('class')) for post in posts]
				featuresets = [(dialogue_act_features(post.text), post.get('class')) for post in posts]

    				size = int(len(featuresets) * 0.1)
				size = int(len(featuresets) * 0.1)

    				train_set, test_set = featuresets[size:], featuresets[:size]
				train_set, test_set = featuresets[size:], featuresets[:size]

    				classifier = nltk.NaiveBayesClassifier.train(train_set)
				classifier = nltk.NaiveBayesClassifier.train(train_set)

    				#print("DEBUG:", nltk.classify.accuracy(classifier, test_set))
				#print("DEBUG:", nltk.classify.accuracy(classifier, test_set))

    				print("[+] Target:", sys.argv[2])
				print("[+] Target:", sys.argv[2])

    				print("[+] Output:", classifier.classify(dialogue_act_features(sys.argv[2])))
				print("[+] Output:", classifier.classify(dialogue_act_features(sys.argv[2])))

    				print("[+] Complete.")
				print("[+] Complete.")

    ###
###

    def main():
def main():

    				if (len(sys.argv) == 2) and ("nltk_download" in sys.argv[1]):
				if (len(sys.argv) == 2) and ("nltk_download" in sys.argv[1]):

    				        banner()
				        banner()

    				        nltk_download()
				        nltk_download()

    				elif (len(sys.argv) <= 2) and ("VTSTech-NLTK.py" in sys.argv[0]):
				elif (len(sys.argv) <= 2) and ("VTSTech-NLTK.py" in sys.argv[0]):

    				        banner()
				        banner()

    				        print("Modes:\n\nspc_tok\nsyn_ant\nstem\nlemma\npos_tag\nner\nnltk_download")
				        print("Modes:\n\nspc_tok\nsyn_ant\nstem\nlemma\npos_tag\nner\nnltk_download")

    				        print("Modes:\n\nspc_tok\nsyn_ant\nstem\nlemma\npos_tag\nner\ndiag_act\nnltk_download")
				        print("Modes:\n\nspc_tok\nsyn_ant\nstem\nlemma\npos_tag\nner\ndiag_act\nnltk_download")

    				else:
				else:

    				        banner()
				        banner()

    				        if ("spc_tok" in sys.argv[1]): # expects "a complete sentence."
				        if ("spc_tok" in sys.argv[1]): # expects "a complete sentence."
@@ -109,5 +124,7 @@ def main():

    				            postag()
				            postag()

    				        if ("ner" in sys.argv[1]):     # expects "a complete sentence."
				        if ("ner" in sys.argv[1]):     # expects "a complete sentence."

    				            ner()
				            ner()

    				        if ("diag_act" in sys.argv[1]):     # expects "a complete sentence."
				        if ("diag_act" in sys.argv[1]):     # expects "a complete sentence."

    				            diag_act()
				            diag_act()

    ###
###

    main()
main()

## 2 changes: 1 addition & 1 deletion VTSTech-NLTK.py
@@ -110,4 +110,4 @@ def main():

    				        if ("ner" in sys.argv[1]):     # expects "a complete sentence."
				        if ("ner" in sys.argv[1]):     # expects "a complete sentence."

    				            ner()
				            ner()

    ###
###

    main()
main()

    main()
main()

## 2 changes: 1 addition & 1 deletion VTSTech-NLTK.py
@@ -15,7 +15,7 @@

    custom_sent_tokenizer = PunktSentenceTokenizer(train_text)
custom_sent_tokenizer = PunktSentenceTokenizer(train_text)


    def banner():
def banner():

    				print("NLTK Script v0.2 03-11-2020\nWritten by veritas@vts-tech.org\n")
				print("NLTK Script v0.2 03-11-2020\nWritten by veritas@vts-tech.org\n")

    				print("NLTK Script v0.2 03-11-2020\nWritten by VTSTech (veritas@vts-tech.org)\n")
				print("NLTK Script v0.2 03-11-2020\nWritten by VTSTech (veritas@vts-tech.org)\n")

    				print("Usage:", os.path.basename(__file__),"mode \"word or sentence\"\n")
				print("Usage:", os.path.basename(__file__),"mode \"word or sentence\"\n")

    def spc_tok():
def spc_tok():

    				#print("[+] SpaceTokenizer imported.")
				#print("[+] SpaceTokenizer imported.")


## 21 changes: 12 additions & 9 deletions VTSTech-NLTK.py
@@ -1,5 +1,8 @@

    #v0.1 2020-03-11 9:12:13 PM
#v0.1 2020-03-11 9:12:13 PM

    #VTSTech (veritas@vts-tech.org)
#VTSTech (veritas@vts-tech.org)

    #NLTK Script v0.2 2020-03-11 9:25:03 PM
#NLTK Script v0.2 2020-03-11 9:25:03 PM

    #Written by VTSTech (veritas@vts-tech.org)
#Written by VTSTech (veritas@vts-tech.org)

    #Various functions inspired by code from sentdex/pythonprogramming.net
#Various functions inspired by code from sentdex/pythonprogramming.net

    #https://pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/
#https://pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/


    import sys, nltk, os, string
import sys, nltk, os, string

    from nltk import pos_tag
from nltk import pos_tag

    from nltk.tokenize import sent_tokenize, word_tokenize, SpaceTokenizer, PunktSentenceTokenizer
from nltk.tokenize import sent_tokenize, word_tokenize, SpaceTokenizer, PunktSentenceTokenizer
@@ -12,7 +15,7 @@

    custom_sent_tokenizer = PunktSentenceTokenizer(train_text)
custom_sent_tokenizer = PunktSentenceTokenizer(train_text)


    def banner():
def banner():

    				print("VTSTech-NLTK Script v0.1\nveritas@vts-tech.org 03-11-2020\n")
				print("VTSTech-NLTK Script v0.1\nveritas@vts-tech.org 03-11-2020\n")

    				print("NLTK Script v0.2 03-11-2020\nWritten by veritas@vts-tech.org\n")
				print("NLTK Script v0.2 03-11-2020\nWritten by veritas@vts-tech.org\n")

    				print("Usage:", os.path.basename(__file__),"mode \"word or sentence\"\n")
				print("Usage:", os.path.basename(__file__),"mode \"word or sentence\"\n")

    def spc_tok():
def spc_tok():

    				#print("[+] SpaceTokenizer imported.")
				#print("[+] SpaceTokenizer imported.")
@@ -94,17 +97,17 @@ def main():

    				        print("Modes:\n\nspc_tok\nsyn_ant\nstem\nlemma\npos_tag\nner\nnltk_download")
				        print("Modes:\n\nspc_tok\nsyn_ant\nstem\nlemma\npos_tag\nner\nnltk_download")

    				else:
				else:

    				        banner()
				        banner()

    				        if ("spc_tok" in sys.argv[1]):
				        if ("spc_tok" in sys.argv[1]):

    				        if ("spc_tok" in sys.argv[1]): # expects "a complete sentence."
				        if ("spc_tok" in sys.argv[1]): # expects "a complete sentence."

    				            spc_tok()
				            spc_tok()

    				        if ("syn_ant" in sys.argv[1]):
				        if ("syn_ant" in sys.argv[1]):

    				        if ("syn_ant" in sys.argv[1]): # expects word
				        if ("syn_ant" in sys.argv[1]): # expects word

    				            syn_ant()
				            syn_ant()

    				        if ("stem" in sys.argv[1]):
				        if ("stem" in sys.argv[1]):

    				        if ("stem" in sys.argv[1]):    # expects word
				        if ("stem" in sys.argv[1]):    # expects word

    				            stem()
				            stem()

    				        if ("lemma" in sys.argv[1]):
				        if ("lemma" in sys.argv[1]):

    				        if ("lemma" in sys.argv[1]):   # expects word
				        if ("lemma" in sys.argv[1]):   # expects word

    				            lemma()
				            lemma()

    				        if ("pos_tag" in sys.argv[1]):
				        if ("pos_tag" in sys.argv[1]):

    				        if ("pos_tag" in sys.argv[1]): # expects "a complete sentence."
				        if ("pos_tag" in sys.argv[1]): # expects "a complete sentence."

    				            postag()
				            postag()

    				        if ("ner" in sys.argv[1]):
				        if ("ner" in sys.argv[1]):

    				        if ("ner" in sys.argv[1]):     # expects "a complete sentence."
				        if ("ner" in sys.argv[1]):     # expects "a complete sentence."

    				            ner()
				            ner()

    ###
###

    main()
main()

## 110 changes: 110 additions & 0 deletions VTSTech-NLTK.py
@@ -0,0 +1,110 @@

    #v0.1 2020-03-11 9:12:13 PM
#v0.1 2020-03-11 9:12:13 PM

    #VTSTech (veritas@vts-tech.org)
#VTSTech (veritas@vts-tech.org)

    import sys, nltk, os, string
import sys, nltk, os, string

    from nltk import pos_tag
from nltk import pos_tag

    from nltk.tokenize import sent_tokenize, word_tokenize, SpaceTokenizer, PunktSentenceTokenizer
from nltk.tokenize import sent_tokenize, word_tokenize, SpaceTokenizer, PunktSentenceTokenizer

    from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.stem import PorterStemmer, WordNetLemmatizer

    from nltk.corpus import wordnet, state_union
from nltk.corpus import wordnet, state_union


    synonyms = []
synonyms = []

    antonyms = []
antonyms = []

    train_text = state_union.raw("1999-Clinton.txt")
train_text = state_union.raw("1999-Clinton.txt")

    custom_sent_tokenizer = PunktSentenceTokenizer(train_text)
custom_sent_tokenizer = PunktSentenceTokenizer(train_text)


    def banner():
def banner():

    				print("VTSTech-NLTK Script v0.1\nveritas@vts-tech.org 03-11-2020\n")
				print("VTSTech-NLTK Script v0.1\nveritas@vts-tech.org 03-11-2020\n")

    				print("Usage:", os.path.basename(__file__),"mode \"word or sentence\"\n")
				print("Usage:", os.path.basename(__file__),"mode \"word or sentence\"\n")

    def spc_tok():
def spc_tok():

    				#print("[+] SpaceTokenizer imported.")
				#print("[+] SpaceTokenizer imported.")

    				print("[+] Target:", sys.argv[2])
				print("[+] Target:", sys.argv[2])

    				print("[+] Output:",end='')
				print("[+] Output:",end='')

    				print(SpaceTokenizer().tokenize(sys.argv[2]))
				print(SpaceTokenizer().tokenize(sys.argv[2]))

    				print("[+] Complete.")
				print("[+] Complete.")

    def syn_ant():
def syn_ant():

    	      #print("[+] wordnet imported.")
	      #print("[+] wordnet imported.")

    	      for syn in wordnet.synsets(sys.argv[2]):
	      for syn in wordnet.synsets(sys.argv[2]):

    	          for l in syn.lemmas():
	          for l in syn.lemmas():

    	              synonyms.append(l.name())
	              synonyms.append(l.name())

    	          if l.antonyms():
	          if l.antonyms():

    	              antonyms.append(l.antonyms()[0].name())
	              antonyms.append(l.antonyms()[0].name())

    	      print("[+] Target:", sys.argv[2])
	      print("[+] Target:", sys.argv[2])

    	      target = wordnet.synsets(sys.argv[2])
	      target = wordnet.synsets(sys.argv[2])

    	      if (len(target) >= 1): print("[+] Defined:", target[0].definition())
	      if (len(target) >= 1): print("[+] Defined:", target[0].definition())

    	      print("[+] Output:")
	      print("[+] Output:")

    	      if (len(set(synonyms))>0):
	      if (len(set(synonyms))>0):

    	      	print("Syn:", set(synonyms))
	      	print("Syn:", set(synonyms))

    	      else:
	      else:

    	      	print("Syn: Failed to find synonym!")
	      	print("Syn: Failed to find synonym!")

    	      if (len(set(antonyms))>0):
	      if (len(set(antonyms))>0):

    	      	print("Ant:", set(antonyms))
	      	print("Ant:", set(antonyms))

    	      else:
	      else:

    	      	print("Ant: Failed to find antonym!")
	      	print("Ant: Failed to find antonym!")

    	      print("[+] Complete.")
	      print("[+] Complete.")

    def stem():
def stem():

            ps = PorterStemmer()
        ps = PorterStemmer()

            #print("[+] PorterStemmer imported.")
        #print("[+] PorterStemmer imported.")

            print("[+] Target:",sys.argv[2])
        print("[+] Target:",sys.argv[2])

            print("[+] Output: ", end='')
        print("[+] Output: ", end='')

            words = SpaceTokenizer().tokenize(sys.argv[2])
        words = SpaceTokenizer().tokenize(sys.argv[2])

            for w in words:
        for w in words:

                print(ps.stem(w))
            print(ps.stem(w))

            print("[+] Complete.")
        print("[+] Complete.")

    def lemma():
def lemma():

    		    lemmatizer = WordNetLemmatizer()
		    lemmatizer = WordNetLemmatizer()

    		    #print("[+] WordNetLemmatizer imported.")
		    #print("[+] WordNetLemmatizer imported.")

    		    #pos=a,s,v,r
		    #pos=a,s,v,r

    		    print("[+] Target:",sys.argv[2])
		    print("[+] Target:",sys.argv[2])

    		    print("[+] Output: ",end='')
		    print("[+] Output: ",end='')

    		    if (len(sys.argv) == 4):
		    if (len(sys.argv) == 4):

    		    	#print("DEBUG:", sys.argv[3])
		    	#print("DEBUG:", sys.argv[3])

    		    	print(lemmatizer.lemmatize(sys.argv[2], pos=sys.argv[3]))
		    	print(lemmatizer.lemmatize(sys.argv[2], pos=sys.argv[3]))

    		    else:
		    else:

    		        print(lemmatizer.lemmatize(sys.argv[2]))
		        print(lemmatizer.lemmatize(sys.argv[2]))

    		    print("[+] Complete.")
		    print("[+] Complete.")

    def postag():
def postag():

    				#print("[+] pos_tag, SpaceTokenizer imported.")
				#print("[+] pos_tag, SpaceTokenizer imported.")

    				print("[+] Target:", sys.argv[2])
				print("[+] Target:", sys.argv[2])

    				print("[+] Output:", end='')
				print("[+] Output:", end='')

    				print(pos_tag(SpaceTokenizer().tokenize(sys.argv[2])))
				print(pos_tag(SpaceTokenizer().tokenize(sys.argv[2])))

    				print("[+] Complete.")
				print("[+] Complete.")

    def nltk_download():
def nltk_download():

    				print("[+] NLTK Downloader launching...\n")
				print("[+] NLTK Downloader launching...\n")

    				nltk.download()
				nltk.download()

    				print("[+] Complete.")
				print("[+] Complete.")

    def ner():
def ner():

    			  tokenized = custom_sent_tokenizer.tokenize(sys.argv[2])
			  tokenized = custom_sent_tokenizer.tokenize(sys.argv[2])

    			  try:
			  try:

    			      for i in tokenized:
			      for i in tokenized:

    			          words = nltk.word_tokenize(i)
			          words = nltk.word_tokenize(i)

    			          tagged = nltk.pos_tag(words)
			          tagged = nltk.pos_tag(words)

    			          namedEnt = nltk.ne_chunk(tagged, binary=True)
			          namedEnt = nltk.ne_chunk(tagged, binary=True)

    			          print("[+] Target:", sys.argv[2])
			          print("[+] Target:", sys.argv[2])

    			          print("[+] Output:", end='')
			          print("[+] Output:", end='')

    			          print(namedEnt)
			          print(namedEnt)

    			  except Exception as e:
			  except Exception as e:

    			      print(str(e))
			      print(str(e))

    			  print("[+] Complete.")
			  print("[+] Complete.")

    ###
###

    def main():
def main():

    				if (len(sys.argv) == 2) and ("nltk_download" in sys.argv[1]):
				if (len(sys.argv) == 2) and ("nltk_download" in sys.argv[1]):

    				        banner()
				        banner()

    				        nltk_download()
				        nltk_download()

    				elif (len(sys.argv) <= 2) and ("VTSTech-NLTK.py" in sys.argv[0]):
				elif (len(sys.argv) <= 2) and ("VTSTech-NLTK.py" in sys.argv[0]):

    				        banner()
				        banner()

    				        print("Modes:\n\nspc_tok\nsyn_ant\nstem\nlemma\npos_tag\nner\nnltk_download")
				        print("Modes:\n\nspc_tok\nsyn_ant\nstem\nlemma\npos_tag\nner\nnltk_download")

    				else:
				else:

    				        banner()
				        banner()

    				        if ("spc_tok" in sys.argv[1]):
				        if ("spc_tok" in sys.argv[1]):

    				            spc_tok()
				            spc_tok()

    				        if ("syn_ant" in sys.argv[1]):
				        if ("syn_ant" in sys.argv[1]):

    				            syn_ant()
				            syn_ant()

    				        if ("stem" in sys.argv[1]):
				        if ("stem" in sys.argv[1]):

    				            stem()
				            stem()

    				        if ("lemma" in sys.argv[1]):
				        if ("lemma" in sys.argv[1]):

    				            lemma()
				            lemma()

    				        if ("pos_tag" in sys.argv[1]):
				        if ("pos_tag" in sys.argv[1]):

    				            postag()
				            postag()

    				        if ("ner" in sys.argv[1]):
				        if ("ner" in sys.argv[1]):

    				            ner()
				            ner()

    ###
###

    main()
main()