Skip to content

Instantly share code, notes, and snippets.

@ebal5
Last active June 1, 2018 09:47
Show Gist options
  • Save ebal5/34ad01b014756b3306438bfff7bbb115 to your computer and use it in GitHub Desktop.
Save ebal5/34ad01b014756b3306438bfff7bbb115 to your computer and use it in GitHub Desktop.
Papers I read, have to read, collected...

In the beginning there was darkness

私が読んだ論文、読むべき論文、とりあえず積んでいる論文をまとめていこうというお気持ち。

テンプレートは用意したのでそれを埋めるように書く。できればBeamerに落しこめればより良いなーなんて。

そんなことを考えている。

Hoge Fuge

コーパス中の一対多関係を推定する問題における類似尺度

著者
山本 英子, 梅村 恭司
DOI
10.5715/jnlp.9.2_45

どんなもの?

1対他関係を推定したキーワード同士の類似尺度に文字認識分野で使用されていた補完類似度を用いることを提案する。

先行研究と比べてどこがすごい?

文字認識分野で使用されていた対称性のない式を利用したことにより包含関係のあるキーワードに対する精度が高い。

技術や手法のキモはどこ?

補完類似度の式を用いること。

どうやって有効だと検証した?

正解があることから地名の包含を利用して検証。 ノイズありなしの各データで多重度を変えながら複数の手法について同様に検証し数値上の優位を示した。

議論はある?

特に無し。

次に読むべき論文は?

  • 相関係数を用いた実証的重みの分析と検索質問拡張 : 金谷 敦志, 梅村 恭司

文ベクトル集合モデルに基づく文書類似尺度の評価

著者
城塚 音也, 北内 啓
ISSN
09196072

どんなもの?

文章を「単語集合である文、文の集合である段落、段落の集合である文章」として扱い、 文章の類似度を測るもの。

先行研究と比べてどこがすごい?

長い文章(本文中では特許文章)では既存手法VSMを凌ぐ成績を示す。 文の構成情報を使うことで意味情報よりは計算を簡単に、かつ頻度情報よりは 自然に考えられる文章の類似尺度を提案する。

技術や手法のキモはどこ?

文章の構成も類似度の計算に利用する点。中間層である文は部分文、段落及びそれらの組合せを用いることもできる。

どうやって有効だと検証した?

新聞記事データと特許データを利用してVSMとSVSMの性能の比較を行った。

議論はある?

文章に含まれる文の数でベクトルの最大数が決定されるためオリジナルの構成情報が失われるのではないか。

次に読むべき論文は?

  • 文ベクトル集合モデルによるテキスト処理 : 川谷 隆彦

Wikipedia 構造化データ「森羅」構築に向けて

著者
関根 聡, 小林 暁雄, 安藤 まや, 馬場 雪乃
  • 言語処理学会 第24回年次大会 発表論文集, 2018, pp.765-768

どんなもの?

Wikipedia のテキスト情報から計算機に扱いやすい形で カテゴリ毎に決まった情報を抽出することを目的としたプロジェクト。

先行研究と比べてどこがすごい?

カバレージの問題及び首尾一貫した知識体系に基づく構造化を行う。

技術や手法のキモはどこ?

定義されている拡張固有表現を利用した知識の体系化を行うこと。

どうやって有効だと検証した?

未検証。構造化されたデータの有用性は明か?

議論はある?

機械学習及びWikipediaの信頼性。

次に読むべき論文は?

-「拡張固有表表現+Wikipedia」データ(2015年11月 版Wikipedia分類作業完成版) .言語処理学会第42回年次大会(2018)

  • Wikipedia記事に対する拡張固有表現ラベルの多重付与. 言語 処理学会第22回年次大会 (2016)
  • Extended Named Entity Ontology with Attribute Information. LREC08.
  • Wikidata: a free collaborative knowledgebase. Commun. ACM57, pp. 78-85.

「拡張固有表表現+Wikipedia」データ

著者
関根聡, 安藤まや

どんなもの?

Wikipedia から関根先生の提案する拡張固有表現 (Extended Named Entity, ENE) に基づいたデータの抽出を 行うプロジェクトのスタートアップ。

先行研究と比べてどこがすごい?

ある一つの基準 (ENE) に基づいてデータの階層的収集を行う。

技術や手法のキモはどこ?

Wikipedia データにENEタグを付与したデータを作成した。

どうやって有効だと検証した?

未検証。このような知識ベースの重要さは知られているらしい。

議論はある?

ENEはボトムアップに拡張されていくため現在の定義と異なるデータが完成する 可能性がある。

次に読むべき論文は?

Wikipedia記事に対する拡張固有表現ラベルの多重付与

著者
鈴木正敏, 松田耕史

どんなもの?

Wikipedia の記事タイトルから付与するべきラベルを決定する。

先行研究と比べてどこがすごい?

  • リンク関係を考慮したこと
  • ニューラルネットワーク (NN) による学習で全てのクラスに対する分類を同時に行う系を作成したこと

技術や手法のキモはどこ?

Wikipedia記事は1つのラベルではなく複数のラベルに分類されるべきものと考え、拡張固有表現を用いて分類したこと。 例えばウルトラマンはキャラクター名であり同時に番組名である。

どうやって有効だと検証した?

単純なロジスティック回帰と1つのNN, マルチNNのそれぞれでラベル付与を行い人手で分類したものとの差分を取った。

議論はある?

  • 人手でのラベル付与がどこまで正確なのか

次に読むべき論文は?

  • Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Distributed representations of words and phrases and their compositionality. In NIPS 2013.

企業名抽出への密度比推定の適用

著者
中野翔平, 吉田光男, 梅村恭司
DOI

どんなもの?

テキスト中から特定の種類の名前リストを取得するもの。論文中では企業名へ適応している。

先行研究と比べてどこがすごい?

確立密度の推定にスムージングを適応すると分子分母それぞれにスムージングを行うため 真の確立から大幅にずれる可能性が存在しているが、これを直接確立密度比を推定することで誤差を減らすことができる。

この手法を尤度比の推定に適応することで手法全体の精度を向上させた。

技術や手法のキモはどこ?

先行研究の手法に尤度比の直接推定を持ち込み、これによって手法全体の精度を向上させたこと。

どうやって有効だと検証した?

先行研究の手法をベースラインとして毎日新聞の91-97年のデータを用いて部分適合率、部分再現率で検証。 一部通常の尤度比を求める方法よりも上まわることを示した。

議論はある?

次に読むべき論文は?

  • nグラム統計によるコーバスからの未知語抽出
  • n-gramの統計値による企業名の抽出
  • Distributional structure. Word
  • Good-Turing Frequency Estimation without Tears.

Template

著者
DOI

どんなもの?

先行研究と比べてどこがすごい?

技術や手法のキモはどこ?

どうやって有効だと検証した?

議論はある?

次に読むべき論文は?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment