全文検索システム『ひまわり』で『青空文庫』パッケージ全収録作品のテキスト情報を取得する
- 全文検索システム『ひまわり』をインストール
- 『青空文庫』パッケージを『ひまわり』にインストール
- [ファイル]→[コーパス選択]で「青空文庫_20191001(すべて)」が選択されていることを確認
-
『ひまわり』のメニューから[ツール]→[一覧]→[ユーザ入力] (マニュアル)
- 第1階層タグ,第2階層タグの情報を設定
- 「記事」タグは一つの作品全体をマークアップしています。
- 「テキスト」タグは,作品中の本文(青空文庫の著作権表示など除外した部分)をマークアップしています。
- 第1階層タグの属性は,「全選択」となっているが,「作品ID」だけでもよい
- 「頻度」にチェック
- 実行結果の「テキスト%文字数」列(最右列)が各作品の文字数
- 第1階層タグ,第2階層タグの情報を設定
- 『ひまわり』のメニューから[ツール]→[一覧]→[ユーザ入力]
- 第1階層タグ,第2階層タグの情報を設定
- 「頻度」にチェック
- 実行結果の「頻度」列(最右列)が各作品の単語数
- 何か検索し,「キー」列のセル(どれでもよい)を選択する。
- これにより,3の正規表現検索結果のキー列を集計することを指定します。
- 正規表現で「.」(任意の文字)を「頻度計測のみ」で検索する
- 検索文字列欄の左にあるメニュー(「本文」となっている)を「本文(正規表現)」にする
- 検索文字列欄に「.」(半角ピリオド)を入れる。
- (検索文字列欄の上にある)「検索オプション」タブで「頻度計測のみ」,表示方法「一覧」を指定する。
- 検索を実行する。
- 頻度表が表示される(1〜2時間くらいかかる)。
- 結果は,02_aozora_bunko_char_list_package_20191001.txt(↓)に示しました。