- 特許の提案した課題にたいして、何かしら提案を行う
- 分類済みの文章から、単語を取り出し、ベクトル表現(BoW)にしてマッチングをする -> うまくいかなかったみたい
- 古典的なニューラルネット(ANN)
- 要約に着目
- 単語のスクリーニング(頻出すること & 偏っている必要があるのでIDFで削る)
- ANNで分類する
- 悪化した?
- XGBoost + probability-softmax でよくないか(?)
- もしくはCharlevel CNN
- 分類だけなら素性を削る必要はあまりないように見える
- 新聞記事などで、前の記事と次の日の記事の差分を見ている
- lexrankを用いている -- 重み漬けしたネットワークを用いる
- 重複しない記事を集めている? A
- LDAをもちいてトピック分布を求め、文章をベクトル化する B
- 単純にtfidfをもちいて計算する
閾値を決め、削っていく、 差が大きかった記事を要約候補とする
- lexrankのみよりは精度がよかったらしい
- 要約文の候補とみれば何となく納得感がある
- 選ぶだけで要約になってしまうのは意外であった
- 文を残すというアプローチであったらしい(気づかなった)
- knowledgeグラフでは、トリプル表現で表せることがおおい
- OpenIE(一つの文をトリプルに変換する)
- H, R, Tという要素に変換する
- CBOWで分散表現を獲得する
- 分散表現を何らかの射影関数に通すことで最適な、凶器表現が得られるという仮説
- 正解データに関して、どの程度よくなるのか検討 -> どうやら適切に次元縮約するといいというパラメータがあるらしい
- skipgramよりcbowのほうが性能がいいらしい
- グラフ構造からのみでないアプローチは、未知語などに対応したかったかららしい
- 背景がしっかりしていた
- 決算端子と決算記事の対応を学習していく
- 抽出型要約
- 文を分散表現化する -> enc-dec lstmでsigmoidで抽出確率を計算する
- マルチタスク学習している -> ちょっとよくわからなかった
- 論文を読んで確認する
- LDAで記事から重要語を取り出す
- 要約語からもっともtfitfが近しいものをtrueとして必要なデータセットを作る
- CNNで重要語を取り出すが、文のchar + LDAの単語で予想させる + 文章全体のn分割したベクトル
- これで重要語を取り出すことができるようになる
- 難しい単語を説明するシステム
- なんらかの社会的なシステムを利用して、仮定を構築している
- TFIDFとFLR(というパラメータを設定)して、やる
- FLRの理解が十全でないが、いくつかのパラメータチューニングで頑張れる
- 確率的潜在意味
- 観測可能なXとYでpLSAを構築することができる
- pLSA面白い (不明な価値を仮定できる)
- *1. pLSAで商品のブームのクラスタリングができそう
- *2. 週とか季節を超えた精度でレコメンドできる!!
- *3. この曜日、これが売れ安いとかあるでしょう
- 重要
- いろいろできそうなイメージ
- やりやすい
- データの匿名か + 地域特性の抽出
- pLSAを匿名かしてやった(クラスタリングに用いた)
- 視聴者の習慣性の抽出
- なにかのデータベースから市長パターンを抽出する
- チャンネルチェンジパターン
- 多様化したテレビをどうするのかということ、
- 離脱する会員の行動を予想する
- 職務経歴書と、あれと登録情報を用いる
- RFをアンサンブルして、特徴量をとりだして、決定木モデルで説明する
- これは今回の案件で使えそう(よい素性をとりだして決定着で説明する)
- 株価変動パターンは存在しないかを検証する
- モメンタムをいろいろなヒューリスティクスでやったようだが、うまくいっているように見える
- 差を見ている
- モメンタム成り立たない仮説は無いようである
- 機械的取引でうまくできそう?いいんじゃない
-
ディープラーニングでうまくいくようになった
-
言語モデルを使っていた
-
7gramでやっているらしい
-
今はword2vecで40%でだすことができる
- まだ、あまりデータセットがなくて、DNNではよくないらしい
- word2vecは実装が簡単なため、簡単に実装することができそう
- Visual Question Ansering
- 画像とテキストから、問題を解く出力を表示する
- 画像はCNN、テキストはRNNでベクトルを作りcancatして、LSTMの初期値としてつないで、説明文章を作る
- 回答はテキストから最も意味のある単語を取り出して、一個選ぶことで成り立たせる
- 何らかの答えを文脈で求められる問題に関しては実装できそう
- 何に使えるかな
- 画像+テキストのクリエイティブ予想とか?
- 画像(スクリーンショット)+ テキスト情報から、CTRやCVRなどのKPI予想
- 適切な入力を発話で構成する
- 最も確度が高いものを選べばよいか
- ResNetCNNで行けそうなイメージ
- (後で論文を確認する)