Skip to content

Instantly share code, notes, and snippets.

@GINK03
Last active May 24, 2017 06:08
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save GINK03/fcd1db8bf059c02c169cc835c2b2d9df to your computer and use it in GitHub Desktop.
Save GINK03/fcd1db8bf059c02c169cc835c2b2d9df to your computer and use it in GitHub Desktop.
JSAI2017

レポート

2017/05/23-1J1

出現頻度と機械学習手法を利用した分類システムの検討

内容

  • 特許の提案した課題にたいして、何かしら提案を行う
  • 分類済みの文章から、単語を取り出し、ベクトル表現(BoW)にしてマッチングをする -> うまくいかなかったみたい
  • 古典的なニューラルネット(ANN)
  • 要約に着目
  • 単語のスクリーニング(頻出すること & 偏っている必要があるのでIDFで削る)
  • ANNで分類する
  • 悪化した?

感想

  • XGBoost + probability-softmax でよくないか(?)
  • もしくはCharlevel CNN
  • 分類だけなら素性を削る必要はあまりないように見える

文章の潜在情報と表層情報を利用したタイムライン要約

内容

  • 新聞記事などで、前の記事と次の日の記事の差分を見ている
  • lexrankを用いている -- 重み漬けしたネットワークを用いる
  • 重複しない記事を集めている? A
  • LDAをもちいてトピック分布を求め、文章をベクトル化する B
  • 単純にtfidfをもちいて計算する

閾値を決め、削っていく、 差が大きかった記事を要約候補とする

  • lexrankのみよりは精度がよかったらしい

感想

  • 要約文の候補とみれば何となく納得感がある
  • 選ぶだけで要約になってしまうのは意外であった
  • 文を残すというアプローチであったらしい(気づかなった)

分散表現をもちいたトリプルグラフ

内容

  • knowledgeグラフでは、トリプル表現で表せることがおおい
  • OpenIE(一つの文をトリプルに変換する)
  • H, R, Tという要素に変換する
  • CBOWで分散表現を獲得する
  • 分散表現を何らかの射影関数に通すことで最適な、凶器表現が得られるという仮説
  • 正解データに関して、どの程度よくなるのか検討 -> どうやら適切に次元縮約するといいというパラメータがあるらしい

感想

  • skipgramよりcbowのほうが性能がいいらしい
  • グラフ構造からのみでないアプローチは、未知語などに対応したかったかららしい
  • 背景がしっかりしていた

文章分類とマルチタスク学習による重要文抽出

内容

  • 決算端子と決算記事の対応を学習していく
  • 抽出型要約
  • 文を分散表現化する -> enc-dec lstmでsigmoidで抽出確率を計算する
  • マルチタスク学習している -> ちょっとよくわからなかった

感想

  • 論文を読んで確認する

別のアプローチを思いついた

  • LDAで記事から重要語を取り出す
  • 要約語からもっともtfitfが近しいものをtrueとして必要なデータセットを作る
  • CNNで重要語を取り出すが、文のchar + LDAの単語で予想させる + 文章全体のn分割したベクトル
  • これで重要語を取り出すことができるようになる

小学生を対象とした解読支援システム

内容

  • 難しい単語を説明するシステム
  • なんらかの社会的なシステムを利用して、仮定を構築している
  • TFIDFとFLR(というパラメータを設定)して、やる

感想 

  • FLRの理解が十全でないが、いくつかのパラメータチューニングで頑張れる

ID-POSデータによる来店行動

内容
  • 確率的潜在意味
  • 観測可能なXとYでpLSAを構築することができる
  • pLSA面白い (不明な価値を仮定できる)
できそうなこと
  • *1. pLSAで商品のブームのクラスタリングができそう
  • *2. 週とか季節を超えた精度でレコメンドできる!!
  • *3. この曜日、これが売れ安いとかあるでしょう
セグメント化したデータでも行ける
  • 重要

感想

  • いろいろできそうなイメージ
  • やりやすい

ミクロアグリゲーションを用いた匿名かによる確率的解析

  • データの匿名か + 地域特性の抽出
  • pLSAを匿名かしてやった(クラスタリングに用いた)

データマニング・ビッグデータ活用

内容

  • 視聴者の習慣性の抽出
  • なにかのデータベースから市長パターンを抽出する
  • チャンネルチェンジパターン

大規模視聴クラスタリングによる、視聴率の把握

内容

  • 多様化したテレビをどうするのかということ、

テキストマイニングを用いた会員離脱予測

  • 離脱する会員の行動を予想する
  • 職務経歴書と、あれと登録情報を用いる

知見

  • RFをアンサンブルして、特徴量をとりだして、決定木モデルで説明する
  • これは今回の案件で使えそう(よい素性をとりだして決定着で説明する)

株価変動パターン

内容

  • 株価変動パターンは存在しないかを検証する
  • モメンタムをいろいろなヒューリスティクスでやったようだが、うまくいっているように見える
  • 差を見ている
  • モメンタム成り立たない仮説は無いようである

感想

  • 機械的取引でうまくできそう?いいんじゃない

ロボットは東大に入れるのか

内容

  • ディープラーニングでうまくいくようになった

  • 言語モデルを使っていた

  • 7gramでやっているらしい

  • 今はword2vecで40%でだすことができる

感想

  • まだ、あまりデータセットがなくて、DNNではよくないらしい

応用

  • word2vecは実装が簡単なため、簡単に実装することができそう

シーングラフをもちいた

内容

  • Visual Question Ansering
  • 画像とテキストから、問題を解く出力を表示する
  • 画像はCNN、テキストはRNNでベクトルを作りcancatして、LSTMの初期値としてつないで、説明文章を作る
  • 回答はテキストから最も意味のある単語を取り出して、一個選ぶことで成り立たせる
  • 何らかの答えを文脈で求められる問題に関しては実装できそう

感想

  • 何に使えるかな

応用

  • 画像+テキストのクリエイティブ予想とか?
  • 画像(スクリーンショット)+ テキスト情報から、CTRやCVRなどのKPI予想

ディベート

最長発話検討

内容

  • 適切な入力を発話で構成する
  • 最も確度が高いものを選べばよいか
  • ResNetCNNで行けそうなイメージ
  • (後で論文を確認する)

もっともよい分を作れるかも?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment