GINK03/jsai2017.md

## jsai2017.md

      
    Raw
  

              jsai2017.md
            
          
    レポート

2017/05/23-1J1

出現頻度と機械学習手法を利用した分類システムの検討

内容


特許の提案した課題にたいして、何かしら提案を行う
分類済みの文章から、単語を取り出し、ベクトル表現（BoW）にしてマッチングをする
-> うまくいかなかったみたい
古典的なニューラルネット（ANN）
要約に着目
単語のスクリーニング（頻出すること　＆　偏っている必要があるのでIDFで削る）
ANNで分類する
悪化した？

感想


XGBoost + probability-softmax でよくないか（？）
もしくはCharlevel CNN
分類だけなら素性を削る必要はあまりないように見える

文章の潜在情報と表層情報を利用したタイムライン要約

内容


新聞記事などで、前の記事と次の日の記事の差分を見ている
lexrankを用いている
-- 重み漬けしたネットワークを用いる
重複しない記事を集めている？
A
LDAをもちいてトピック分布を求め、文章をベクトル化する
B
単純にtfidfをもちいて計算する

閾値を決め、削っていく、
差が大きかった記事を要約候補とする

lexrankのみよりは精度がよかったらしい

感想


要約文の候補とみれば何となく納得感がある
選ぶだけで要約になってしまうのは意外であった
文を残すというアプローチであったらしい（気づかなった）

分散表現をもちいたトリプルグラフ

内容


knowledgeグラフでは、トリプル表現で表せることがおおい
OpenIE(一つの文をトリプルに変換する)
H, R, Tという要素に変換する
CBOWで分散表現を獲得する
分散表現を何らかの射影関数に通すことで最適な、凶器表現が得られるという仮説
正解データに関して、どの程度よくなるのか検討 -> どうやら適切に次元縮約するといいというパラメータがあるらしい

感想


skipgramよりcbowのほうが性能がいいらしい
グラフ構造からのみでないアプローチは、未知語などに対応したかったかららしい
背景がしっかりしていた

文章分類とマルチタスク学習による重要文抽出

内容


決算端子と決算記事の対応を学習していく
抽出型要約
文を分散表現化する -> enc-dec lstmでsigmoidで抽出確率を計算する
マルチタスク学習している -> ちょっとよくわからなかった

感想


論文を読んで確認する

別のアプローチを思いついた


LDAで記事から重要語を取り出す
要約語からもっともtfitfが近しいものをtrueとして必要なデータセットを作る
CNNで重要語を取り出すが、文のchar + LDAの単語で予想させる　+ 文章全体のn分割したベクトル
これで重要語を取り出すことができるようになる

小学生を対象とした解読支援システム

内容


難しい単語を説明するシステム
なんらかの社会的なシステムを利用して、仮定を構築している
TFIDFとFLR（というパラメータを設定）して、やる

感想 


FLRの理解が十全でないが、いくつかのパラメータチューニングで頑張れる

ID-POSデータによる来店行動

内容


確率的潜在意味
観測可能なXとYでpLSAを構築することができる
pLSA面白い (不明な価値を仮定できる)

できそうなこと


*1. pLSAで商品のブームのクラスタリングができそう
*2. 週とか季節を超えた精度でレコメンドできる！！
*3. この曜日、これが売れ安いとかあるでしょう

セグメント化したデータでも行ける


重要

感想


いろいろできそうなイメージ
やりやすい

ミクロアグリゲーションを用いた匿名かによる確率的解析


データの匿名か + 地域特性の抽出
pLSAを匿名かしてやった(クラスタリングに用いた)

データマニング・ビッグデータ活用

内容


視聴者の習慣性の抽出
なにかのデータベースから市長パターンを抽出する
チャンネルチェンジパターン

大規模視聴クラスタリングによる、視聴率の把握

内容


多様化したテレビをどうするのかということ、

テキストマイニングを用いた会員離脱予測


離脱する会員の行動を予想する
職務経歴書と、あれと登録情報を用いる

知見


RFをアンサンブルして、特徴量をとりだして、決定木モデルで説明する
これは今回の案件で使えそう（よい素性をとりだして決定着で説明する）

株価変動パターン

内容


株価変動パターンは存在しないかを検証する
モメンタムをいろいろなヒューリスティクスでやったようだが、うまくいっているように見える
差を見ている
モメンタム成り立たない仮説は無いようである

感想


機械的取引でうまくできそう？いいんじゃない

ロボットは東大に入れるのか

内容


ディープラーニングでうまくいくようになった


言語モデルを使っていた


7gramでやっているらしい


今はword2vecで40%でだすことができる


感想


まだ、あまりデータセットがなくて、DNNではよくないらしい

応用


word2vecは実装が簡単なため、簡単に実装することができそう

シーングラフをもちいた

内容


Visual Question Ansering
画像とテキストから、問題を解く出力を表示する
画像はCNN、テキストはRNNでベクトルを作りcancatして、LSTMの初期値としてつないで、説明文章を作る
回答はテキストから最も意味のある単語を取り出して、一個選ぶことで成り立たせる
何らかの答えを文脈で求められる問題に関しては実装できそう

感想


何に使えるかな

応用


画像＋テキストのクリエイティブ予想とか？
画像（スクリーンショット）+ テキスト情報から、CTRやCVRなどのKPI予想

ディベート

最長発話検討

内容


適切な入力を発話で構成する
最も確度が高いものを選べばよいか
ResNetCNNで行けそうなイメージ
(後で論文を確認する)

もっともよい分を作れるかも？