kowey/gist:5272976

## gistfile1.py
import nltk.data

text = "Hello, I am a bit of corpus. Why don't you segment me?"
tokenizer       = nltk.data.load('tokenizers/punkt/english.pickle')

for start,end  in tokenizer.span_tokenize(text):
    print "%d\t%d\t%s" % (start, end, text[start:end])


# 0	28	Hello, I am a bit of corpus.
# 29	54	Why don't you segment me?
	import nltk.data

	text = "Hello, I am a bit of corpus. Why don't you segment me?"
	tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

	for start,end in tokenizer.span_tokenize(text):
	print "%d\t%d\t%s" % (start, end, text[start:end])


	# 0 28 Hello, I am a bit of corpus.
	# 29 54 Why don't you segment me?