Skip to content

Instantly share code, notes, and snippets.

Embed
What would you like to do?
NLP勉強会#1 ワークショップ の結果。辞書作りの課題と解決策を洗い出しました。 http://www.slideshare.net/nezuQ/nlpstudy?ref=http://tokyoscrapper.connpass.com/event/9021/presentation/

##文学

  • 「ちくしょ〜」「ひゃっほー」などの感動詞の自動的な辞書化(su_9gu)
     ←文頭や文の終わり、隣接する句読点の位置を抽出のヒントに出来ないでしょうか。あと、頻度とかも参考に。

##芸能・ファッション

  • 省略形と元単語との対応関係を把握したい。 例)コーディネートとコーデ。松本潤と松潤。親しみがあるほど短縮形。(IsaoIshiguru)
     ←省略形と元単語は同じ共起関係になるはず。それで判断できないか? (nezuq)
     ←編集距離でどの文字列が削除されているかを自動的に抽出し、学習させる? (akkikiki)
  • 雑誌発の新単語・複合語が多く、寿命も短いので、辞書化し辛い。
     ←Googleトレンド等のAPIを通し単語を取る。その単語をバッチ処理で自動追加。SNSのAPIでキーワード検索し、ヒット件数が少なくなったら削除。(nezuq)
  • ブログ記事の単語から素性抽出してカテゴリ分類とかやる場合、MeCab+TF-IDFの他にやることってあるか知りたい。->先日某AKBだった人のブログをぬいてみたので、何か色々とやってみたい。(m_kitano)
     ←共起単語はくっつける。

##スポーツ

  • 選手名について。特に外国人の表記ゆれ。チーム名+名字などにしないとidentityできない。ex.中田だけだと?(kazukib)

##政治・経済

  • 企業まわりのDIC、関係DICが欲しい。オントロジー的な。
  • 会社名・法人名で新しくできた会社・法人。
     ← 名詞抽出->法人格削除->記号など正規化->とやってできた文字列を帝国データバンクのサービスで検索->ヒットした法人名を辞書登録 (studio5)
  • 固有名詞判定。例:「イラクのアルカイダ」上記はイラクにあるアルカイダというものではなく、組織名である。自動取得できないものか。
  • 未知語が既知後の複合語でできてる可能性が高いので、分けるべきか分からない。「比較制度分析」->「比較制度/分析」 ?
     ←研究の流行としては、複合語も短く分割していく「短単位」と呼ばれる長さで辞書が作られています。(uni-dic)
  • 新語への対応……会社名・個体名などの名詞。/特定のニーズの抽出をどう強化できるか。……営業日報・ヒアリング結果←元データ (studio5)
     ←新語でもとりあえず分かち書きしてみて名詞の連続だった場合、固有名詞の可能性が高いのでは?

##テクノロジー

  • 類似語、略語。たくさんのタグ(1つ以上の少ない単語)の中で同じものを指しているタグのセットを見つけたい。例:JS≒Javascript等
     ←初出では新聞社系の記事ではInternet Of Things(IOT)、Javascript(JS)などカッコ書きをつける文章がそこそこあるかも。
  • 専門用語が多数英数字数文字の略語が一意でなくコンテキスト依存で変化(ex.DC,データセンター,直流)

##その他

  • 学者の名前、論文タイトルなど…
  • Wikipediaから人名のみを抽出したい!
    ←先ほど「word2vecのご紹介」でお話した品詞作戦がかなり通用します。
  • 広告のキャッチコピーで何の商品のための単語かという属性は管理できるか?ex)そうだ京都行こう→旅・鉄道/はやい、やすい、うまい→牛丼屋/わんぱくでもいい、たくましく育ってほしい→ハム屋
  • 日々新しく作られる造語など。1つの言葉に違う意味が与えられた時の対処
     ←google検索結果は利用できる?
  • 辞書作りはどういう風に(どういう視点で)始めたらいいのか分からない。(まだ勉強を始めたばかりの初心者なので)(haiju)
     ←海外にクラウドソーシングして人力で頑張る
  • 形態素解析器とコーパスはお互いに必要としているものなのでしょうか。形態素解析を行うにはコーパス(と、それから作成した辞書)が必要で、コーパス・辞書を作るには形態素解析が必要、のような……
     ←コーパスは単に文章データであって、形態素解析とは別の話です。形態素解析器を作るために、元とするデータは必要ですが、機械学習で作るのではなく、人手でルールを作ることも、昔は行われました。
  • 店舗名・製品・メーカー・企業
     ←ある程度分野がわかっていれば。価格.comなど、Wikiの「○○メーカー一覧」のようなページをクロール・パース
  • 単語の使われ方の時間的変化について、とらえる辞書がほしい…… 例)ハロプロ1998・ハロプロ2014 (piroyoung)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
You can’t perform that action at this time.