GIZA++ は、統計的機械翻訳に使われるアライメントツールで、 IBM Model 1-5 と HMM を実装しています。今回は、Europarl Parallel Corpus で配布されている英独対訳コーパスのアライメントの尤度を推定させてみます。
# GIZA++ の準備
$ wget http://giza-pp.googlecode.com/files/giza-pp-v1.0.7.tar.gz
$ tar xfz giza-pp-v1.0.7.tar.gz
$ cd giza-pp