コーパス
言語学 |
---|
基礎分野 |
言語の変化と変異 |
理論 |
応用分野 |
関連項目 |
コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、統語構造など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]。コンピュータ利用が進み、電子化データとして提供されている[2]。
概要
[編集]「身体」を意味する ラテン語: corpus に由来する。複数形は ラテン語: corpora(コーポラ)。英語式複数形とした 英語: corpuses の使用も散見される。
大規模なコーパスの作成には、相当の費用と時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現した。日本では国立国語研究所が一億語の収録を目指す「KOTONOHA計画」をすすめている。
構造化した言語データを「一般利用する」という観点からは、三省堂がウィズダム英和・和英辞典の用例を「用例コーパス」として、一時期無料公開していた。
日本でコーパスを一般に広く知らしめたのは、英語学者の投野由紀夫である。2003年、NHK教育テレビジョン『100語でスタート!英会話』で、英語コーパスを教材に活用した放送授業を展開し、それまで専門家しか知らなかったコーパスを一般的な存在へ変えた。2009年には新シリーズとしてずばりコーパスをタイトルに入れた『コーパス100!で英会話』が放送されている。
生コーパス
[編集]人手により作成されたコーパスと区別する意味で、単に文書を集めたものを生コーパス(英: raw corpus)とよぶ[3]。
Brown コーパスのような様々なジャンルのテキストをバランスよく収集したものを均衡コーパス(英: balanced corpus)とよぶ[3]。
翻訳関係にある二文書対を収集したコーパスを対訳コーパス(英: bilingual corpus)またはパラレルコーパス(英: parallel corpus)、特定のトピックに関する対訳コーパスを 比較可能コーパス(英: comparable corpus)とよぶ[4]。
タグ付きコーパス
[編集]言語的な注釈を付与したコーパスを注釈付与コーパス(英: annotated corpus)またはタグ付きコーパス(英: tagged corpus)と呼ぶ[5]。
脚注
[編集]参考文献
[編集]- 池原悟、宮崎正弘、白井諭、横尾昭男、中岩浩巳、小倉健太郎、大山芳史、林良彦 編『日本語語彙大系』 全5巻、NTTコミュニケーション科学研究所 監修、岩波書店、1997年9月。ISBN 4-00-009884-5。
- 『日本語語彙大系』(CD-ROM版)岩波書店、1999年9月。ISBN 978-4001301014。
- 黒橋禎夫「4 コーパスに基づく自然言語処理」『自然言語処理』(改訂版)放送大学教育振興会〈放送大学教材〉、2019年3月20日。ISBN 978-4-595-31958-7。
関連項目
[編集]- コーパス言語学
- 言語資源
- 計算言語学
- 辞典
- ツリーバンク
- 言語資料学
- 構文解析
- 形式文法
- 句構造規則
- 語彙項目
- en:Quranic Arabic Corpus
- en:Calgary corpus
- en:Canterbury corpus
外部リンク
[編集]- KOTONOHA計画(国立国語研究所)
- Dualウィズダム 用例コーパス(三省堂)
- American National Corpus(アメリカ英語のコーパス)
- NINJAL-LWP for TWC(「筑波ウェブコーパス」を検索するためのツール)
- English-corpora.org(Mark Davies教授による 英語、スペイン語、ポルトガル語等に対応するコーパスのリンク集)