Skip to content

Instantly share code, notes, and snippets.

@vgmoose
Last active Nov 5, 2018
Embed
What would you like to do?
python3 kanjiextract.py
#/usr/bin/python3
# -*- coding: utf-8 -*-
import re
# regex for hiragana+katakana and a few more characters
blacklist = r'[ぁ-ゟ゠-ヿ「」。、 ?\n]'
# can be copied and pasted from the PDF including linebreaks between the two sets of """
text = u"""いる
今日私は一日中家にいる。
あなたの事を思い出しています。
その
その人形に名前はありますか?
する
お絵かきをするのが昔から大好きでした。
それ
それは、イカの足ですよね?
うちの家は物で溢れかえっている。
この
この帽子は僕には似合わない。
ある
カレー粉は家にあるの?
そう
そういう言い訳が一番嫌い。
折り紙を一枚ください。
ない
白髪はまだ一本もない。
二階で熊を飼っています。
あなた達はまだ未成年でしょう。
自分
自分の名前も思い出せない。
何をしようとしてたのか忘れました。
私はマフィアの一員です。
言う
猿が「アイスクリームをくれ」と僕に言いました。
人はどうして生まれ、死んで行くのだろう。"""
unique_kanji = set(re.sub(blacklist, '', text))
print(unique_kanji)
@cciollaro
Copy link

cciollaro commented Nov 5, 2018

blacklist = r'[ぁ-ゟa-zA-Z0-9゠-ヿ>%<!?/〜「」。、 ?\n]'

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment