satomacoto/hira.py

## hira.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-

import re

regex = u'^[ぁ-ゞ・ー]+$' # ひらがな+・+ーだけ
p = re.compile(regex)

for line in open('ruby.txt'):
    file, kanji, yomi = line.strip().split('\t')
    if p.match(yomi.decode('utf-8')):
        print "%s\t%s\t%s" % (file, kanji, yomi)

## katahira.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-

kana = u"""ヴ	う゛
ア	あ
イ	い
ウ	う
エ	え
オ	お
ァ	ぁ
ィ	ぃ
ゥ	ぅ
ェ	ぇ
ォ	ぉ
カ	か
キ	き
ク	く
ケ	け
コ	こ
ガ	が
ギ	ぎ
グ	ぐ
ゲ	げ
ゴ	ご
サ	さ
シ	し
ス	す
セ	せ
ソ	そ
ザ	ざ
ジ	じ
ズ	ず
ゼ	ぜ
ゾ	ぞ
タ	た
チ	ち
ツ	つ
テ	て
ト	と
ダ	だ
ヂ	ぢ
ヅ	づ
デ	で
ド	ど
ッ	っ
ナ	な
ニ	に
ヌ	ぬ
ネ	ね
ノ	の
ハ	は
ヒ	ひ
フ	ふ
ヘ	へ
ホ	ほ
バ	ば
ビ	び
ブ	ぶ
ベ	べ
ボ	ぼ
パ	ぱ
ピ	ぴ
プ	ぷ
ペ	ぺ
ポ	ぽ
マ	ま
ミ	み
ム	む
メ	め
モ	も
ャ	ゃ
ヤ	や
ュ	ゅ
ユ	ゆ
ョ	ょ
ヨ	よ
ラ	ら
リ	り
ル	る
レ	れ
ロ	ろ
ヮ	ゎ
ワ	わ
ヰ	ゐ
ヱ	ゑ
ヲ	を
ン	ん"""

katahira = {}
for l in kana.split('\n'):
    kata, hira = l.split('\t')
    katahira[kata] = hira

def convert(req):
    res = ""
    for c in req:
        if c in katahira:
            res += katahira[c]
        else:
            res += c
    return res

mariko = 'セイウンスカイ'
print convert(mariko.decode('utf-8')).encode('utf-8') #→せいうんすかい

## ruby.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys
import os
import re
import glob
import zipfile

# 引数でパスを指定
path = sys.argv[1]
files = glob.glob(path)

regex = u"(([一-龠]+?)|(?<=｜)([^｜]+?))《([^》]+?)》"
p = re.compile(regex)

for file in files:
    try:
        zip_file = zipfile.ZipFile(file, 'r')
    except zipfile.BadZipfile:
        continue
    for member in zip_file.namelist():
        if '.txt' == member[-4:]:
            with zip_file.open(member) as f:
                for line in f:
                    try:
                        line = line.decode('shift_jis').strip()
                    except UnicodeDecodeError:
                        continue
                    for m in p.findall(line):
                        print "%s\t%s\t%s" % (os.path.basename(file), m[0].encode('utf-8'), m[-1].encode('utf-8'))

## urls.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys
import csv

try:
    file = sys.argv[1]
    with open(file, 'rb') as f:
        reader = csv.reader(f)
        for row in reader:
            print row[45]
except:
    pass
	#!/usr/bin/env python
	# -- coding: utf-8 --

	import re

	regex = u'^[ぁ-ゞ・ー]+$' # ひらがな+・+ーだけ
	p = re.compile(regex)

	for line in open('ruby.txt'):
	file, kanji, yomi = line.strip().split('\t')
	if p.match(yomi.decode('utf-8')):
	print "%s\t%s\t%s" % (file, kanji, yomi)
	#!/usr/bin/env python
	# -- coding: utf-8 --

	kana = u"""ヴう゛
	アあ
	イい
	ウう
	エえ
	オお
	ァぁ
	ィぃ
	ゥぅ
	ェぇ
	ォぉ
	カか
	キき
	クく
	ケけ
	コこ
	ガが
	ギぎ
	グぐ
	ゲげ
	ゴご
	サさ
	シし
	スす
	セせ
	ソそ
	ザざ
	ジじ
	ズず
	ゼぜ
	ゾぞ
	タた
	チち
	ツつ
	テて
	トと
	ダだ
	ヂぢ
	ヅづ
	デで
	ドど
	ッっ
	ナな
	ニに
	ヌぬ
	ネね
	ノの
	ハは
	ヒひ
	フふ
	ヘへ
	ホほ
	バば
	ビび
	ブぶ
	ベべ
	ボぼ
	パぱ
	ピぴ
	プぷ
	ペぺ
	ポぽ
	マま
	ミみ
	ムむ
	メめ
	モも
	ャゃ
	ヤや
	ュゅ
	ユゆ
	ョょ
	ヨよ
	ラら
	リり
	ルる
	レれ
	ロろ
	ヮゎ
	ワわ
	ヰゐ
	ヱゑ
	ヲを
	ンん"""

	katahira = {}
	for l in kana.split('\n'):
	kata, hira = l.split('\t')
	katahira[kata] = hira

	def convert(req):
	res = ""
	for c in req:
	if c in katahira:
	res += katahira[c]
	else:
	res += c
	return res

	mariko = 'セイウンスカイ'
	print convert(mariko.decode('utf-8')).encode('utf-8') #→せいうんすかい
	#!/usr/bin/env python
	# -- coding: utf-8 --

	import sys
	import os
	import re
	import glob
	import zipfile

	# 引数でパスを指定
	path = sys.argv[1]
	files = glob.glob(path)

	regex = u"(([一-龠]+?)\|(?<=｜)([^｜]+?))《([^》]+?)》"
	p = re.compile(regex)

	for file in files:
	try:
	zip_file = zipfile.ZipFile(file, 'r')
	except zipfile.BadZipfile:
	continue
	for member in zip_file.namelist():
	if '.txt' == member[-4:]:
	with zip_file.open(member) as f:
	for line in f:
	try:
	line = line.decode('shift_jis').strip()
	except UnicodeDecodeError:
	continue
	for m in p.findall(line):
	print "%s\t%s\t%s" % (os.path.basename(file), m[0].encode('utf-8'), m[-1].encode('utf-8'))