WordNet

WordNet（ワードネット）は、英語の概念辞書（意味辞書）である。WordNet では英単語が synset と呼ばれる同義語のグループに分類され、簡単な定義や、他の同義語のグループとの関係が記述されている。 WordNet の目的は直感的に使うことのできる辞書とシソーラスが組み合わされた成果物を作ること、および自動的文書解析や人工知能のアプリケーションの実現を支援することにある。WordNet のデータベースやソフトウェアはBSDライセンスによって公開され、自由にダウンロードして用いることができる。データベースはオンラインで参照することもできる。

WordNet はプリンストン大学の認知科学研究所によって心理学者である同大学教授のジョージ・ミラー (George A. Miller) の主導のもとで運営されている。開発は1985年に始められ、この間、主に機械翻訳に取り組む米国の政府機関から3百万ドルの支援を受けた。

データベースの内容

2005年現在、WordNet のデータベースは約11万5000の synset に分類された約15万語を収録し、全体で20万3000の単語と意味の組み合わせがある。データベースは圧縮された状態で約12メガバイトのサイズがある。

WordNet では名詞、動詞、形容詞、副詞を文法上の扱いが異なることから、区別して収蔵している。synset は同義の単語あるいはコロケーション（熟語、連語; コロケーションとは "car pool" のように単語が連なって一つの意味をなしている句）をグループにまとめている。

意味の異なる語句は別の synset に分類される。synset の持つ意味は注釈として以下のような形式で記載されている。（訳注： synset に属する単語が good, right, ripe であり、注釈は括弧の中に記載されている。）

good, right, ripe -- (most suitable or right for a particular purpose; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes")

ほとんどの synset は他の synset との意味的な関係が番号によって示されている。この関係の種類は品詞によって異なっており、以下に示す通りになっている。

名詞
- 上位語 (hypernym): すべての X が Y の種類の一であるなら Y は X の上位語である。
- 下位語 (hyponym): すべての Y が X の種類の一であるなら Y は X の下位語である。
- 同族語 (coordinate term): X と Y の上位語が同じなら、Y は X の同族語である。
- 全体語（英語版） (holonym): X が Y の一部であるなら、Y は X の holonym である。
- 部分語（英語版） (meronym): Y が X の一部であるなら、Y は X の meronym である。
動詞
- 上位語 (hypernym): X という行動が Y の種類の一であるなら動詞 Y は動詞 X の上位語である。（「移動 (movement)」は「旅行 (travel)」の上位語）
- トロポニム（英語版） (troponym): もし Y という行動が X を行う際の様態であるなら動詞 Y は動詞 X の troponym である。（「片言で話す (lisp)」は「話す (talk)」の troponym）
- 含意 (entailment): X している場合必然的に Y しているなら動詞 Y は動詞 X に entail（ひきおこすこと）されている。（X:「いびきをかく (snoring)」はY: 眠る (sleeping)」ことによって引きおこされる。）
- 同族語 (coordinate terms): X と Y の上位語が同じなら、Y は X の同族語である。
形容詞
- 関係のある名詞
- 動詞の分詞
副詞
- 原形の形容詞

synset に含まれる語句は同じ意味を持った同義語であるため意味的な関係は synset 内全体に適用されるが、単独の語句が他の語句と反意語や派生語などの関係を結ぶこともある。

WordNet には語句の多義性の度合い（polysemy count; 語句が属する synset の数）の情報も含まれている。ある単語がいくつかの synset に属している（いくつかの意味を持っている）場合、ある意味は他の意味よりも一般的に用いられているという関係を持っていることが多い。WordNet ではこのような関係を頻度点 (frequency score) と呼ぶ数値で表している。サンプルの文書の中には全ての単語に synset 等の意味を表すタグを付与しているものがあり、単語が特定の意味で出現している頻度によって頻度点が計算されている。

単語から語幹（root form）や原型（lemma）を推定するための形態素解析ツールはデータベースと一緒に配布されている。屈折形を含む語の場合をのぞいて語幹のみがデータベースに格納されている。

知識構造

名詞と動詞は上位・下位の関係（IS Aの関係）によって定義される階層構造にまとめられている。たとえば dog の第一義は以下のような上位語階層を持っている。同じ階層にある単語はそれぞれ同義語の関係にある。dog の示すある意味の同義語には domestic dog や Canis familiaris がある。同義語のグループ (synset) は一意の索引によってポイントされ、同じ属性や注釈を持っている。

dog, domestic dog, Canis familiaris
=> canine, canid
=> carnivore
=> placental, placental mammal, eutherian, eutherian mammal
=> mammal
=> vertebrate, craniate
=> chordate
=> animal, animate being, beast, brute, creature, fauna
=> ...

階層の頂点ではこの階層構造は25の名詞の基礎グループと15の動詞の基礎グループにまとめられている。このグループが編集用のファイル一つにそれぞれ対応している。この基礎グループは、WordNet を利用するアプリケーションが抽象的なルートノードとして用いるノードに対応している。

形容詞の場合、二つの反対する主要な意味が極となって、その他の同義語が形容詞の場合における同義性の関係によって極を取り囲む形をとっている。したがって階層構造や編集用のファイルは名詞や動詞の場合と異なった構造をとっている。

名詞のネットワーク構造は他の品詞と比べてはるかに深い構造を持っており、動詞は他の品詞よりもはるかに入り組んだ構造をしている。形容詞ははっきり区別された別々の固まりに組織されており、副詞はそれぞれの語が由来する形容詞に従って定義されており、形容詞と似た構造をとっている。

心理学的な正当性

WordNet の目的は、人間が言語を処理する方法について年月をかけて得られた知見と一致するシステムを開発することだった。例えば失語症は患者が物の名前を思い出すのを選択的に（該当する物とそうでない物が入り交じって）妨げる状況を作り出すということが分かっている。そのため、品詞をはっきりした階層構造へ分類する、より理にかなった分類方法が採られた。

下位語の場合、人間が名詞の属性を見つけることのできる早さは、その特徴を定義している階層を見つける早さに依存していることが心理学実験で明らかになっている。したがってカナリアは鳴き鳥の一種である（直下の下位語となっている）ため、人は「カナリアは歌う」かどうかをすぐに判断することができるが、「カナリアは飛ぶ」かどうかを判断するにはもう少し時間がかかり（二層の隔たりがある）、「カナリアは皮膚を持っている」かどうかを判断するにはより多くの時間を要する（複数の階層の隔たりがある）。これは、人間はある概念と他の似た概念を区別するのに必要なもっとも明確な情報のみを保持していることから、人間が WordNet に似た方法で意味の情報を記憶しているということを示唆している。

制限事項

他の辞書とは異なり、語源に関する情報は WordNet に含まれていない。発音や不規則動詞についての説明はごく簡単なものにとどまっている。

辞書編集上の意味の情報は編集用のファイルにおいて管理されており、grind と呼ばれるツールによって配布用のデータベースを生成する処理が行われている。 grind と編集用のファイルも自由に利用することができるが、それでもデータベースの変更を行うことは難しい。

WordNet では似た意味の単語を単一の一般的な定義による synset にまとめているため、個々の単語の定義は必ずしも正確ではない。

脚注

[脚注の使い方]

^ Hitoshi Isahara, Francis Bond, Kiyotaka Uchimoto, Masao Utiyama and Kyoko Kanzaki (2008) Development of Japanese WordNet. In LREC-2008, Marrakech.

参考文献

``Five Papers on WordNet by Miller, George A., Christiane Fellbaum, Katherine J. Miller. August, 1993, retrieved May 4, 2005

外部リンク

The WordNet Home Page
WordNet 2.0 - Dictionary & Thesaurus - ベクター社によってホストされているWordNet2.0のEPWING電子辞書
Wordnet Related Projects - WordNetにアクセスするためのインターフェースおよび拡張機能の一覧
Global Wordnet
The SENSUS ontology
日本語 WordNet WordNetの日本語版
WordNet EPWING WordNet 3.1のEPWINGデータ

[1] Hitoshi Isahara, Francis Bond, Kiyotaka Uchimoto, Masao Utiyama and Kyoko Kanzaki (2008) Development of Japanese WordNet. In LREC-2008, Marrakech.

[1]

典拠管理データベース
全般	VIAF
国立図書館	ドイツイスラエルアメリカ