-
-
Save naari3/3717498d18f5fbbdaf7df926c514974a to your computer and use it in GitHub Desktop.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
【参考】↓のサイトの (2.2)式。(logの有無は計算結果の大小に影響しないので無視します) | |
https://www.anarchive-beta.com/entry/2020/09/08/190000#241-%E7%9B%B8%E4%BA%92%E6%83%85%E5%A0%B1%E9%87%8F | |
相互情報量は「特定の2つのタグの結びつき度合い」を計算できます。 | |
ニコニコ動画の場合、「タグAとタグBの相互情報量」の計算式は以下のようになります。 | |
(ニコニコ動画全体の、「A」タグと「B」タグの両方が付いた動画の数)/(ニコニコ動画全体の、「A」タグが付いた動画の数)・(ニコニコ動画全体の、「B」タグが付いた動画の数) | |
ここで、「B」タグを「音MAD」に固定すると、(ニコニコ動画全体の、「B」タグが付いた動画の数)は一定になりますから、計算式から省いてOKです。 | |
すると、相互情報量は以下のようになります。 | |
(ニコニコ動画全体の、「A」タグと「B」タグの両方が付いた動画の数)/(ニコニコ動画全体の、「A」タグが付いた動画の数) | |
ここから、具体的に考えてみます。 | |
まず、「ゲーム」より「Z会」のスコアの方が高くなるはずです。 | |
(ゲームの音MADはZ会の音MADより多いのだが、ゲーム動画は音MAD以外の動画も多いのに対し、Z会動画の多くは音MADであるため) | |
この理論で行くと、10本の動画全てが音MADである「池田ゴディバ大作」は、相互情報量がトップになります。 | |
(ただ、これではあまり良いデータではないので「音MAD以外の動画が1つも無い動画は除外する」などのフィルタリングが必要です。) | |
すると、「音MADとZ会の相互情報量」と「音MADとゲームの相互情報量」は以下のようになり、Z会の圧勝です。 | |
(ニコニコ動画全体の、「音MAD」タグと「Z会」タグの両方が付いた動画の数)/(ニコニコ動画全体の、「Z会」タグが付いた動画の数) | |
=1427/2,246=0.63535173642(半分以上が音MAD!) | |
(ニコニコ動画全体の、「音MAD」タグと「ゲーム」タグの両方が付いた動画の数)/(ニコニコ動画全体の、「ゲーム」タグが付いた動画の数) | |
=3788/7,543,829=0.00050213227(音MADはごく一部...) | |
こんな感じでいかがでしょうか? |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment