nihemak/en2ja_setup.py

## en2ja_setup.py
# en2ja_data_download.shで落としてきたデータから英日翻訳の訓練データを作成するスクリプト

import random

# 和文と英文を取り出す
en_sentences, ja_sentences = {}, {}
lines = open('sentences.csv').read().split('\n')
for i in range(len(lines)):
    if lines[i] == '':
        continue
    no, lang, sentence = lines[i].split('\t')
    if lang == 'eng':
        en_sentences[no] = sentence
    elif lang == 'jpn':
        ja_sentences[no] = sentence

import MeCab
mecab = MeCab.Tagger("-Owakati")

# 対訳データを作る
lines = open('jpn_indices.csv').read().split('\n')

# 今回はデータサイズを制限する
random.shuffle(lines)
data_size = 2500

with open('en.txt', 'w') as en_file, open('ja.txt', 'w') as ja_file:
    for i in range(len(lines)):
        if lines[i] == '':
            continue
        ja_no, en_no, _ = lines[i].split('\t')
        if en_no == -1:
            continue
        if en_no not in en_sentences:
            continue
        if ja_no not in ja_sentences:
            continue

        # 英文は小文字に
        en_file.write(en_sentences[en_no].lower())
        en_file.write('\n')

        # 和文は分かち書きにする
        ja_file.write(mecab.parse(ja_sentences[ja_no]))

        # 必要なデータサイズに達したので終了
        data_size -= 1
        if data_size <= 0:
            break
	# en2ja_data_download.shで落としてきたデータから英日翻訳の訓練データを作成するスクリプト

	import random

	# 和文と英文を取り出す
	en_sentences, ja_sentences = {}, {}
	lines = open('sentences.csv').read().split('\n')
	for i in range(len(lines)):
	if lines[i] == '':
	continue
	no, lang, sentence = lines[i].split('\t')
	if lang == 'eng':
	en_sentences[no] = sentence
	elif lang == 'jpn':
	ja_sentences[no] = sentence

	import MeCab
	mecab = MeCab.Tagger("-Owakati")

	# 対訳データを作る
	lines = open('jpn_indices.csv').read().split('\n')

	# 今回はデータサイズを制限する
	random.shuffle(lines)
	data_size = 2500

	with open('en.txt', 'w') as en_file, open('ja.txt', 'w') as ja_file:
	for i in range(len(lines)):
	if lines[i] == '':
	continue
	ja_no, en_no, _ = lines[i].split('\t')
	if en_no == -1:
	continue
	if en_no not in en_sentences:
	continue
	if ja_no not in ja_sentences:
	continue

	# 英文は小文字に
	en_file.write(en_sentences[en_no].lower())
	en_file.write('\n')

	# 和文は分かち書きにする
	ja_file.write(mecab.parse(ja_sentences[ja_no]))

	# 必要なデータサイズに達したので終了
	data_size -= 1
	if data_size <= 0:
	break