Skip to content

Instantly share code, notes, and snippets.

@syu-id
Created December 5, 2015 17:57
Show Gist options
  • Save syu-id/a2f6d0500a0778401139 to your computer and use it in GitHub Desktop.
Save syu-id/a2f6d0500a0778401139 to your computer and use it in GitHub Desktop.
2015.12.04-learner_corpus-2
トークン数と TTR について少し数学的に考えてみると、プロットの結果が当たり前のことです。
トークン数とタイプ数は線形的な関係にあると仮定します。
$$
type = \beta_0 + \beta_1 \cdot token
$$
$token = 1$ の場合、$type=1$ になるので、$\beta_0$ と $\beta_1$ の和が $1$ に決まっています。
$$\beta_0 + \beta_1 = 1$$
もし全ての単語が異なっているのなら、$type = token, \: \beta_1 = 1$になります。もし全ての単語が同じなら、$type = 1, \: \beta_1 = 0$ になります。$\beta_1$ の範囲は、$0$ から $1$ までです。
$$0 \le \beta_1 \le 1$$
TTR については、以下の関係が成り立ちます。
$$
\begin{eqnarray}
TTR & = & \frac{type}{token} \\
& = & \beta_0 \cdot \frac{1}{token} + \beta_1 \\
& = & (1 - \beta_1) \cdot \frac{1}{token} + \beta_1
\end{eqnarray}
$$
トークン数とタイプ数が同じ線形関係に従うという2つのテキスト $i$ と $j$ があって、そのトークン数が $token_i < token_j$ であるのなら、TTR の差が下のようになります。
$$
\begin{eqnarray}
TTR_i - TTR_j & = & (1- \beta_1) \cdot (\frac{1}{token_i} - \frac{1}{token_j}) \\
& = & (1- \beta_1) \cdot \frac{token_j - token_i}{token_i \cdot token_j}
\end{eqnarray}
$$
$1 \le token_i < token_j$ であるので、$0 \le \beta_1 < 1$ である限り、$TTR_i > TTR_j$ になります。$\beta_1 = 1$ つまり $type = token$ だと、TTR が常に $1$ であり、差が $0$ になります。
したがって、$type < token$ である限り、トークン数が増えると、TTR が小さくなります。
----
GI については、以下の関係が成り立ちますが、複雑そうです。
$$
\begin{eqnarray}
GI & = & \frac{type}{\sqrt{token}} = TTR \cdot \sqrt{token} \\
& = & (1 - \beta_1) \cdot \frac{1}{\sqrt{token}} + \beta_1 \cdot \sqrt{token}
\end{eqnarray}
$$
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment