naotokui/ja_sentence_tokenize.py

## ja_sentence_tokenize.py
import re
import nltk

sent_detector = nltk.RegexpTokenizer(u'[^　！？。]*[！？。.\n]')

sents = sent_detector.tokenize(u"　原子番号９２のウランより重い元素は全て人工的に合成され、１１８番まで発見の報告がある。\
      １１３番については、理研と米露の共同チームがそれぞれ「発見した」と報告し、国際純正・応用化学連合と国際純粋・応用物理学連合の合同作業部会が審査していた。両学会は「データの確実性が高い」ことを理由に、理研の発見を認定し、３１日に森田さんに通知した。未確定だった１１５番と１１７番、１１８番の新元素は米露チームの発見を認めた。森田さんは「周期表に名前が残ることは感慨深い。大勢の共同研究者にまずは感謝したい」と述べた。 \n")

for s in sents:
    print s, len(s)
	import re
	import nltk

	sent_detector = nltk.RegexpTokenizer(u'[^　！？。]*[！？。.\n]')

	sents = sent_detector.tokenize(u"　原子番号９２のウランより重い元素は全て人工的に合成され、１１８番まで発見の報告がある。\
	１１３番については、理研と米露の共同チームがそれぞれ「発見した」と報告し、国際純正・応用化学連合と国際純粋・応用物理学連合の合同作業部会が審査していた。両学会は「データの確実性が高い」ことを理由に、理研の発見を認定し、３１日に森田さんに通知した。未確定だった１１５番と１１７番、１１８番の新元素は米露チームの発見を認めた。森田さんは「周期表に名前が残ることは感慨深い。大勢の共同研究者にまずは感謝したい」と述べた。 \n")

	for s in sents:
	print s, len(s)