コーパス

コーパス（英: corpus）は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報（品詞、統語構造など）を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい^[1]。コンピュータ利用が進み、電子化データとして提供されている^[2]。

概要

「身体」を意味するラテン語: corpus に由来する。複数形はラテン語: corpora（コーポラ）。英語式複数形とした英語: corpuses の使用も散見される。

大規模なコーパスの作成には、相当の費用と時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現した。日本では国立国語研究所が一億語の収録を目指す「KOTONOHA計画」をすすめている。

構造化した言語データを「一般利用する」という観点からは、三省堂がウィズダム英和・和英辞典の用例を「用例コーパス」として、一時期無料公開していた。

日本でコーパスを一般に広く知らしめたのは、英語学者の投野由紀夫である。2003年、NHK教育テレビジョン『100語でスタート!英会話』で、英語コーパスを教材に活用した放送授業を展開し、それまで専門家しか知らなかったコーパスを一般的な存在へ変えた。2009年には新シリーズとしてずばりコーパスをタイトルに入れた『コーパス100!で英会話』が放送されている。

生コーパス

人手により作成されたコーパスと区別する意味で、単に文書を集めたものを生コーパス（英: raw corpus）とよぶ^[3]。

Brown コーパスのような様々なジャンルのテキストをバランスよく収集したものを均衡コーパス（英: balanced corpus）とよぶ^[3]。

翻訳関係にある二文書対を収集したコーパスを対訳コーパス（英: bilingual corpus）またはパラレルコーパス（英: parallel corpus）、特定のトピックに関する対訳コーパスを 比較可能コーパス（英: comparable corpus）とよぶ^[4]。

タグ付きコーパス

言語的な注釈を付与したコーパスを注釈付与コーパス（英: annotated corpus）またはタグ付きコーパス（英: tagged corpus）と呼ぶ^[5]。

脚注

[脚注の使い方]

^ 池原ほか 1997.
^ 池原ほか 1999.
^ ^a ^b 黒橋 2019, p. 46.
^ 黒橋 2019, p. 47.
^ 黒橋 2019, p. 48.

参考文献

池原悟、宮崎正弘、白井諭、横尾昭男、中岩浩巳、小倉健太郎、大山芳史、林良彦編『日本語語彙大系』全5巻、NTTコミュニケーション科学研究所監修、岩波書店、1997年9月。ISBN 4-00-009884-5。
『日本語語彙大系』（CD-ROM版）岩波書店、1999年9月。ISBN 978-4001301014。
黒橋禎夫「4 コーパスに基づく自然言語処理」『自然言語処理』（改訂版）放送大学教育振興会〈放送大学教材〉、2019年3月20日。ISBN 978-4-595-31958-7。

外部リンク

KOTONOHA計画（国立国語研究所）
Dualウィズダム用例コーパス（三省堂）
American National Corpus（アメリカ英語のコーパス）
NINJAL-LWP for TWC（「筑波ウェブコーパス」を検索するためのツール）
English-corpora.org（Mark Davies教授による英語、スペイン語、ポルトガル語等に対応するコーパスのリンク集）

この項目は、コンピュータに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（PJ:コンピュータ/P:コンピュータ）。

この項目は、言語学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（ウィキポータル言語学）。

[FOOTNOTE池原ほか1997-1] 池原ほか 1997.

[FOOTNOTE池原ほか1999-2] 池原ほか 1999.

[FOOTNOTE黒橋201946-3] 黒橋 2019, p. 46.

[FOOTNOTE黒橋201947-4] 黒橋 2019, p. 47.

[FOOTNOTE黒橋201948-5] 黒橋 2019, p. 48.

[1]

[2]

[3]

[4]

[5]

概要

生コーパス

タグ付きコーパス

脚注

参考文献

関連項目

外部リンク