計算言語学

計算言語学（けいさんげんごがく、英語：computational linguistics）とは、言語学の一分野である。計算機科学における自然言語処理との類似点もみられるが、計算言語学という言い方をした場合、言語学にルーツを持ちながらもコンピュータの観点からの自然言語の論理モデリングを中心とした研究分野を指すことが多い。このモデリング自体は言語学に限定されているわけではなく、他にもコンピュータ科学、人工知能、認知心理学などが研究に参加している。

自然言語処理

詳細は「自然言語処理」を参照

実際の言語データ（コーパス）から計算によって言語の特徴を取り出し、言語の分析を行う。

コーパスに情報を付加することでより複雑で正確な分析を行う。例：

<author>夏目漱石</author>

文字、単語、単語の品詞、複数単語の組などの頻度を総数で割る。

1 つのものだけを数えるのでなく、隣接するものの頻度を数える。ある単位の生起が直後 n 個の単位にだけ依存すると考える言語モデル。

一定区間に n 個の単位が出現 (共起) する頻度。2 つの単語が一緒に出てくる共起のしやすさを計る。作成された単語のクラスタは、例えば、統計ベースの言語処理において「データ・スパースネス問題」の対処に用いたり、新聞の関連記事を検索する際に有効である。

計算言語学の主な研究課題には以下のものがある。