どうやら、dTVでは多くの動画を見るほど脱会率が低いという点に注目して、多く動画を見せれば脱会率が下がるだろうという逆の関係におきなおして対応することにしたようだ。 多くの動画を見せるには、ユーザ行動を分析し、正しくその人が見たい動画をレコメンドする必要がある。
二つのアプローチで動画をレコメンドする方法を記載する。
- もっとも単純な方法で、人間の評価者を用意しておき、そのシーンの状況を説明するベクトルを取り出す。
(B80cm, W52cm, H82cm) -> (0.80, 0.52, 0.82) |
ホテル予約
ボーン名 フレーム 位置X 位置Y 位置Z 回転X 回転Y 回転Z X_x1 X_y1 X_x2 X_y2 Y_x1 Y_y1 Y_x2 Y_y2 Z_x1 Z_y1 Z_x2 Z_y2 R_x1 R_y1 R_x2 R_y2 | |
センター 0 2.8 0 0.75 0 0 0 20 20 107 107 20 20 107 107 0 20 107 107 0 20 107 107 | |
上半身 0 0 0 0 2.439002 -13.537052 10.023719 20 20 107 107 20 20 107 107 0 20 107 107 0 20 107 107 | |
上半身2 0 0 0 0 -3.782947 -2.2365 -11.399502 20 20 107 107 20 20 107 107 0 20 107 107 0 20 107 107 | |
首 0 0 0 0 -3.437746 0 0 20 20 107 107 20 20 107 107 0 20 107 107 0 20 107 107 | |
頭 0 0 0 0 -6.302536 0 0 20 20 107 107 20 20 107 107 0 20 107 107 0 20 107 107 | |
左目 0 0 0 0 0 0 0 20 20 107 107 20 20 107 107 0 20 107 107 0 20 107 107 | |
右目 0 0 0 0 0 0 0 20 20 107 107 20 20 107 107 0 20 107 107 0 20 107 107 | |
両目 0 0 0 0 0 0 0 20 20 107 107 20 20 107 107 0 20 107 107 0 20 107 107 | |
左肩 0 0 0 0 -14.8969 -11.459153 0.000001 20 20 107 107 20 20 107 107 0 20 107 107 0 20 107 107 |
ISAI2017でPCAnetと呼ばれる、教師なし画像の特徴量の抽出方法が紹介されていました 興味深い実装になっており、CNNをバックプロパゲーションで結合の太さを学習していくのではなく、予めフィルタを組み込んでおき、使うことで、高い精度を達成しているようです[1]
これを見ていて、AutoEncoderでも同等のことができるのではないかと思いました。
AutoEncoderでは、ディープラーニング学習する必要がありますが、やはり、教師データは必要ないです。画像だけあれば良いです。