計算言語学

出典: フリー百科事典『ウィキペディア(Wikipedia)』

言語学
理論言語学
音声学
音韻論
形態論
統語論
意味論 | 記号論
語彙意味論
プロトタイプ意味論
文体論
語用論
応用言語学
言語獲得
心理言語学
社会言語学
生成文法
認知言語学
計算言語学
歴史言語学
比較言語学
語源学 | 語源
個別言語学
日本語学
言語学者の一覧

計算言語学(けいさんげんごがく、Computational Linguistics)とは、言語学の一分野で、コンピュータの観点からの自然言語の論理モデリングを中心としている。このモデリング自体は言語学に限定されているわけではなく、他にもコンピュータ科学人工知能認知心理学などが研究に参加している。

目次

[編集] 自然言語処理

実際の言語データ(コーパス)から計算によって言語の特徴を取り出し、言語の分析を行なう。

[編集] タグ付きコーパス

コーパスに情報を付加することでより複雑で正確な分析を行う。 例:

<author>夏目漱石</author>

[編集] 統計手法

[編集] 出現頻度

文字、単語、単語の品詞、複数単語の組などの頻度を総数で割る。

[編集] n-gram

1つのものだけを数えるのでなく、隣接するものの頻度を数える。ある単位の生起が直後 n 個の単位にだけ依存すると考える言語モデル。

[編集] 共起頻度

一定区間に n 個の単位が出現(共起)する頻度。二つの単語が一緒に出て来くる共起のしやすさを計る。作成された単語のクラスタは、例えば、統計ベースの言語処理において「データ・スパースネス問題」の対処に用いたり、新聞の関連記事を検索する際に有効である。

[編集] 応用

[編集] 現在の研究課題

計算言語学の主な研究課題には以下のものがある。

  • コンピュータ支援コーパス言語学
  • 自然言語のパーサ設計
  • 品詞判別
  • Definition of specialized logics like resource logics for NLP
  • Research in the relation between formal and natural languages in general
  • 機械翻訳
  • 自動要約