Skip to content

Instantly share code, notes, and snippets.

@narkq
Created December 20, 2019 07:24
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save narkq/e5e841ced5e33634a49273fa10b9aaf2 to your computer and use it in GitHub Desktop.
Save narkq/e5e841ced5e33634a49273fa10b9aaf2 to your computer and use it in GitHub Desktop.

コーパスでの出現状況

使用したコーパスは次の通りで、どれもテキストデータである。

  • 『青空文庫全』(2007)DVD 収録作品3約172MB著者数327作品数6,367
  • 読売新聞記事データ集1987-2014年約6.5GB
  • 自作ウェブコーパス2010年1月構築約100GB

原データと、それをUniDic+MeCabで解析したデータを用いて探索した。青空文庫については、必要な場合、現在公開のxhtmlファイルによりルビも参照している。

なお、3つのコーパスは総データ量が異なり、また、調査に当たり、語を選別した基準(出現回数等)も異なるので、発見された語数の比較には意味がない。

以下でいう「{お/ご}~」の出現数やその比率とは、平仮名表記されている例の中での数値である。「御」と漢字表記される例は、読み(「お・おん・ご」など)が決められないため対象から除外している。従って、すべての例の中での書き手の意図する音形の比率は不明である。

探索にあたっては、オ/ゴを伴う形式の敬語上の機能(尊敬語・美化語など)や統語的性質は問わない。また「お勝手(=台所)」/「お勝手に(=随意に)」のように明白に別語とみなしうる場合を除いては、意味的区分も行っていない。

同語の異表記は可能な限り統合した(例:返事・返辞・へんじ)。また、次のように読みの確定できない用例のある語は対象から省いたが、不徹底である。

名代(なだい・みょうだい) 微行(ちょうこう・しのび) 供物(くもつ・そなえもの) 入用(にゅうよう・いりよう) 両親(りょうしん・ふたおや)

青空文庫の場合

「{お/ご}~」両者の用例のある形式は、少なくとも173に昇る。それらを「オ使用者数/(オ使用者数+ゴ使用者数)」によって分類すると、次のようになる。その形で始まる複合形式も含んだ数値である(例:ご家来衆、お誕生日)。この点は以下同じ。全例目視確認した。

  • 80%以上のもの

    愛嬌, 医師, 加減, 勘定, 客来, 綺麗, 景物, 元気, 言伝, 行列, 講義, 沙汰, 支度, 慈悲, 手配, 女中, 焼香, 丈夫, 食事, 政治, 台所, 大切, 大名, 誕生, 茶屋, 念仏, 奉行, 模様, 夕飯(ゆうはん/ゆうめし?), 立派, 料理, 牢

  • 20%以下のもの

    ゆっくり, ゆるり, 挨拶, 安心, 案内, 遠慮, 機嫌, 近所, 苦心, 苦労, 婚礼, 災難, 持参, 自身, 自分, 冗談, 心配, 先祖, 相談, 注文, 亭主, 都合, 披露, 秘蔵, 病気, 満足, 無事, 迷惑, 厄介, 用意, 立腹

  • その他(両形使用者数の計が5未満のものを含む)

    衣裳, 遺骨, 家中, 家来, 会釈, 戒名, 活発, 看病, 癇癖, 奇特, 帰国, 気性, 気分, 祈祷, 記憶, 窮屈, 吟味, 決意, 検死, 検分, 見物, 後室, 公儀, 公方, 差配, 座所, 参詣, 散歩, 仕官, 支配, 時世, 次男, 自慢, 舎弟, 社参, 寿命, 修行, 住職, 祝儀, 出家, 出仕, 出馬, 出立, 書面, 助力, 勝手(に等), 商売, 将軍, 上申, 上人, 上達, 城下, 城中, 城内, 新規, 新造, 身代, 身分, 進物, 陣屋, 征伐, 政道, 接待, 説法, 詮議, 造作, 他言, 多分, 多忙, 打擲, 対面, 退屈, 大層, 堪能, 茶寮, 寵愛, 調度, 直参, 定紋, 登城, 同行, 同道, 道理, 得心, 内室, 難儀, 年始, 能面, 配下, 番士, 番所, 贔屓, 非番, 病人, 不在, 返事, 勉強, 法事, 本寺, 冥加, 名物, 面前, 遊山, 様子, 用談, 来客, 利用, 路地, 浪人, 牢屋

https://pj.ninjal.ac.jp/corpus_center/lrw/lrw2018/P-3-03-E.pdf

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment