コーパス
言語学 |
---|
![]() |
基礎分野 |
言語の変化と変異 |
理論 |
応用分野 |
関連項目 |
コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、統語構造など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]。コンピュータ利用が進み、電子化データとして提供されている[2]。
概要[編集]
「身体」を意味する ラテン語: corpus に由来する。複数形は ラテン語: corpora(コーポラ)。英語式複数形とした 英語: corpuses の使用も散見される。
大規模なコーパスの作成には、相当の費用と時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現した。日本では国立国語研究所が一億語の収録を目指す「KOTONOHA計画」をすすめている。
構造化した言語データを「一般利用する」という観点からは、三省堂がウィズダム英和・和英辞典の用例を「用例コーパス」として、一時期無料公開していた。
日本でコーパスを一般に広く知らしめたのは、英語学者の投野由紀夫である。2003年、NHK教育テレビジョン『100語でスタート!英会話』で、英語コーパスを教材に活用した放送授業を展開し、それまで専門家しか知らなかったコーパスを一般的な存在へ変えた。2009年には新シリーズとしてずばりコーパスをタイトルに入れた『コーパス100!で英会話』が放送されている。
関連項目[編集]
- コーパス言語学
- 言語資源
- 計算言語学
- 辞典
- ツリーバンク
- 言語資料学
- 構文解析
- 形式文法
- 句構造規則
- 語彙項目
- en:Quranic Arabic Corpus
- en:Calgary corpus
- en:Canterbury corpus
脚注[編集]
関連文献[編集]
- 日本語語彙大系, 全5巻, 岩波書店, 池原悟, 宮崎正弘, 白井諭, 横尾昭男, 中岩浩巳, 小倉健太郎, 大山芳史, 林良彦,1997,ISBN 978-4000098847 CD-ROM, 1999, ISBN 978-4001301014