私が読んだ論文、読むべき論文、とりあえず積んでいる論文をまとめていこうというお気持ち。
テンプレートは用意したのでそれを埋めるように書く。できればBeamerに落しこめればより良いなーなんて。
そんなことを考えている。
Hoge Fuge
1対他関係を推定したキーワード同士の類似尺度に文字認識分野で使用されていた補完類似度を用いることを提案する。
文字認識分野で使用されていた対称性のない式を利用したことにより包含関係のあるキーワードに対する精度が高い。
補完類似度の式を用いること。
正解があることから地名の包含を利用して検証。 ノイズありなしの各データで多重度を変えながら複数の手法について同様に検証し数値上の優位を示した。
特に無し。
文章を「単語集合である文、文の集合である段落、段落の集合である文章」として扱い、 文章の類似度を測るもの。
長い文章(本文中では特許文章)では既存手法VSMを凌ぐ成績を示す。 文の構成情報を使うことで意味情報よりは計算を簡単に、かつ頻度情報よりは 自然に考えられる文章の類似尺度を提案する。
文章の構成も類似度の計算に利用する点。中間層である文は部分文、段落及びそれらの組合せを用いることもできる。
新聞記事データと特許データを利用してVSMとSVSMの性能の比較を行った。
文章に含まれる文の数でベクトルの最大数が決定されるためオリジナルの構成情報が失われるのではないか。
Wikipedia のテキスト情報から計算機に扱いやすい形で カテゴリ毎に決まった情報を抽出することを目的としたプロジェクト。
カバレージの問題及び首尾一貫した知識体系に基づく構造化を行う。
定義されている拡張固有表現を利用した知識の体系化を行うこと。
未検証。構造化されたデータの有用性は明か?
機械学習及びWikipediaの信頼性。
-「拡張固有表表現+Wikipedia」データ(2015年11月 版Wikipedia分類作業完成版) .言語処理学会第42回年次大会(2018)
Wikipedia から関根先生の提案する拡張固有表現 (Extended Named Entity, ENE) に基づいたデータの抽出を 行うプロジェクトのスタートアップ。
ある一つの基準 (ENE) に基づいてデータの階層的収集を行う。
Wikipedia データにENEタグを付与したデータを作成した。
未検証。このような知識ベースの重要さは知られているらしい。
ENEはボトムアップに拡張されていくため現在の定義と異なるデータが完成する 可能性がある。
Wikipedia の記事タイトルから付与するべきラベルを決定する。
Wikipedia記事は1つのラベルではなく複数のラベルに分類されるべきものと考え、拡張固有表現を用いて分類したこと。 例えばウルトラマンはキャラクター名であり同時に番組名である。
単純なロジスティック回帰と1つのNN, マルチNNのそれぞれでラベル付与を行い人手で分類したものとの差分を取った。
テキスト中から特定の種類の名前リストを取得するもの。論文中では企業名へ適応している。
確立密度の推定にスムージングを適応すると分子分母それぞれにスムージングを行うため 真の確立から大幅にずれる可能性が存在しているが、これを直接確立密度比を推定することで誤差を減らすことができる。
この手法を尤度比の推定に適応することで手法全体の精度を向上させた。
先行研究の手法に尤度比の直接推定を持ち込み、これによって手法全体の精度を向上させたこと。
先行研究の手法をベースラインとして毎日新聞の91-97年のデータを用いて部分適合率、部分再現率で検証。 一部通常の尤度比を求める方法よりも上まわることを示した。