ツリーバンク

出典: フリー百科事典『ウィキペディア(Wikipedia)』

ツリーバンク: Treebank)は、コーパスの一種であり、各統語構造の注釈が付与されているものである。統語構造は一般に木構造で表されることが多いため、ツリーバンクと呼ばれる。ツリーバンクはコーパス言語学で文法的現象の研究に使われる他、計算言語学での構文解析器の評価や訓練に使われる。

概要[編集]

ツリーバンクは既存の何らかのタグが既に付いたコーパスを使って作成されることが多い。従って、ツリーバンクは意味論的に何らかの拡張をしたり、他の言語学的情報を付与したりしている。

ツリーバンクは、言語学者が文一つ一つに注釈を加えていって構築することもあるし、半自動的に構文解析器で解釈し、その結果を言語学者がチェックするという方式もある。

ツリーバンクは特定の言語学的理論(例えばHPSG)に基づいた文法的注釈を付与している場合もあるが、多くのツリーバンクは特定の理論に依存しないようにしている。しかしながら、注釈の内容によって大まかに2つに分類できる。1つは句構造規則で(例えば、Penn Treebank)、もう1つは依存文法である(例えば、Prague Dependency Treebank)。

文法構造の表現方法は様々である。ラベル付き括弧を使ったテキスト表記の例は以下のようになる(Penn Treebank の場合)。

(S (NP (NNP John))
   (VP (VBZ loves)
       (NP (NNP Mary)))
   (. .))

XMLを使った表記方法もある。

各言語のツリーバンク[編集]