Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save naari3/3717498d18f5fbbdaf7df926c514974a to your computer and use it in GitHub Desktop.
Save naari3/3717498d18f5fbbdaf7df926c514974a to your computer and use it in GitHub Desktop.
【参考】↓のサイトの (2.2)式。(logの有無は計算結果の大小に影響しないので無視します)
https://www.anarchive-beta.com/entry/2020/09/08/190000#241-%E7%9B%B8%E4%BA%92%E6%83%85%E5%A0%B1%E9%87%8F
相互情報量は「特定の2つのタグの結びつき度合い」を計算できます。
ニコニコ動画の場合、「タグAとタグBの相互情報量」の計算式は以下のようになります。
(ニコニコ動画全体の、「A」タグと「B」タグの両方が付いた動画の数)/(ニコニコ動画全体の、「A」タグが付いた動画の数)・(ニコニコ動画全体の、「B」タグが付いた動画の数)
ここで、「B」タグを「音MAD」に固定すると、(ニコニコ動画全体の、「B」タグが付いた動画の数)は一定になりますから、計算式から省いてOKです。
すると、相互情報量は以下のようになります。
(ニコニコ動画全体の、「A」タグと「B」タグの両方が付いた動画の数)/(ニコニコ動画全体の、「A」タグが付いた動画の数)
ここから、具体的に考えてみます。
まず、「ゲーム」より「Z会」のスコアの方が高くなるはずです。
(ゲームの音MADはZ会の音MADより多いのだが、ゲーム動画は音MAD以外の動画も多いのに対し、Z会動画の多くは音MADであるため)
この理論で行くと、10本の動画全てが音MADである「池田ゴディバ大作」は、相互情報量がトップになります。
(ただ、これではあまり良いデータではないので「音MAD以外の動画が1つも無い動画は除外する」などのフィルタリングが必要です。)
すると、「音MADとZ会の相互情報量」と「音MADとゲームの相互情報量」は以下のようになり、Z会の圧勝です。
(ニコニコ動画全体の、「音MAD」タグと「Z会」タグの両方が付いた動画の数)/(ニコニコ動画全体の、「Z会」タグが付いた動画の数)
=1427/2,246=0.63535173642(半分以上が音MAD!)
(ニコニコ動画全体の、「音MAD」タグと「ゲーム」タグの両方が付いた動画の数)/(ニコニコ動画全体の、「ゲーム」タグが付いた動画の数)
=3788/7,543,829=0.00050213227(音MADはごく一部...)
こんな感じでいかがでしょうか?
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment