計算言語学

出典: フリー百科事典『ウィキペディア(Wikipedia)』

これはこのページの過去の版です。しまあじ (会話 | 投稿記録) による 2012年1月10日 (火) 13:03個人設定で未設定ならUTC)時点の版であり、現在の版とは大きく異なる場合があります。

計算言語学(けいさんげんごがく、英語:computational linguistics)とは、言語学の一分野である。計算機科学における自然言語処理との類似点もみられるが、計算言語学という言い方をした場合、言語学にルーツを持ちながらもコンピュータの観点からの自然言語論理モデリングを中心とした研究分野を指すことが多い。このモデリング自体は言語学に限定されているわけではなく、他にもコンピュータ科学人工知能認知心理学などが研究に参加している。

自然言語処理

実際の言語データ(コーパス)から計算によって言語の特徴を取り出し、言語の分析を行う。

タグ付きコーパス

コーパスに情報を付加することでより複雑で正確な分析を行う。 例:

<author>夏目漱石</author>

計量言語学

統計手法

出現頻度

文字、単語、単語の品詞、複数単語の組などの頻度を総数で割る。

n-gram

1 つのものだけを数えるのでなく、隣接するものの頻度を数える。ある単位の生起が直後 n 個の単位にだけ依存すると考える言語モデル。

共起頻度

一定区間に n 個の単位が出現 (共起) する頻度。2 つの単語が一緒に出てくる共起のしやすさを計る。作成された単語のクラスタは、例えば、統計ベースの言語処理において「データ・スパースネス問題」の対処に用いたり、新聞の関連記事を検索する際に有効である。

応用

現在の研究課題

計算言語学の主な研究課題には以下のものがある。

  • コンピュータ支援コーパス言語学
  • 自然言語のパーサ設計
  • 品詞判別
  • Definition of specialized logics like resource logics for NLP
  • Research in the relation between formal and natural languages in general
  • 機械翻訳
  • 自動要約