コーパス

出典: フリー百科事典『ウィキペディア(Wikipedia)』

コーパス: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞統語構造など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]コンピュータ利用が進み、電子化データとして提供されている[2]

概要[編集]

「身体」を意味する ラテン語: corpus に由来する。複数形は ラテン語: corpora(コーポラ)。英語式複数形とした 英語: corpuses の使用も散見される。

大規模なコーパスの作成には、相当の費用時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現した。日本では国立国語研究所が一億語の収録を目指す「KOTONOHA計画」をすすめている。

構造化した言語データを「一般利用する」という観点からは、三省堂ウィズダム英和・和英辞典の用例を「用例コーパス」として、一時期無料公開していた。

日本でコーパスを一般に広く知らしめたのは、英語学者投野由紀夫である。2003年NHK教育テレビジョン100語でスタート!英会話』で、英語コーパスを教材に活用した放送授業を展開し、それまで専門家しか知らなかったコーパスを一般的な存在へ変えた。2009年には新シリーズとしてずばりコーパスをタイトルに入れた『コーパス100!で英会話』が放送されている。

関連項目[編集]

脚注[編集]

  1. ^ 日本語語彙大系, 全5巻, 岩波書店, 池原 悟, 宮崎 正弘, 白井 諭, 横尾 昭男, 中岩 浩巳, 小倉 健太郎, 大山 芳史, 林 良彦,1997
  2. ^ 日本語語彙大系, 全5巻, 岩波書店, 池原 悟, 宮崎 正弘, 白井 諭, 横尾 昭男, 中岩 浩巳, 小倉 健太郎, 大山 芳史, 林 良彦,1999

関連文献[編集]

外部リンク[編集]