WordNet
WordNet(ワードネット)は、英語の概念辞書(意味辞書)である。WordNet では英単語が synset と呼ばれる同義語のグループに分類され、簡単な定義や、他の同義語のグループとの関係が記述されている。 WordNet の目的は直感的に使うことのできる辞書とシソーラスが組み合わされた成果物を作ること、および自動的文書解析や人工知能のアプリケーションの実現を支援することにある。WordNet のデータベースやソフトウェアはBSDライセンスによって公開され、自由にダウンロードして用いることができる。データベースはオンラインで参照することもできる。
WordNet はプリンストン大学の認知科学研究所によって心理学者である同大学教授のジョージ・ミラー (George A. Miller) の主導のもとで運営されている。開発は1985年に始められ、この間、主に機械翻訳に取り組む米国の政府機関から3百万ドルの支援を受けた。
データベースの内容
[編集]2005年現在、WordNet のデータベースは約11万5000の synset に分類された約15万語を収録し、全体で20万3000の単語と意味の組み合わせがある。データベースは圧縮された状態で約12メガバイトのサイズがある。
WordNet では名詞、動詞、形容詞、副詞を文法上の扱いが異なることから、区別して収蔵している。synset は同義の単語あるいはコロケーション(熟語、連語; コロケーションとは "car pool" のように単語が連なって一つの意味をなしている句)をグループにまとめている。
意味の異なる語句は別の synset に分類される。synset の持つ意味は注釈として以下のような形式で記載されている。(訳注: synset に属する単語が good, right, ripe であり、注釈は括弧の中に記載されている。)
- good, right, ripe -- (most suitable or right for a particular purpose; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes")
ほとんどの synset は他の synset との意味的な関係が番号によって示されている。この関係の種類は品詞によって異なっており、以下に示す通りになっている。
- 名詞
- 動詞
- 上位語 (hypernym): X という行動が Y の種類の一であるなら動詞 Y は動詞 X の上位語である。(「移動 (movement)」は「旅行 (travel)」の上位語)
- トロポニム (troponym): もし Y という行動が X を行う際の様態であるなら動詞 Y は動詞 X の troponym である。(「片言で話す (lisp)」は「話す (talk)」の troponym)
- 含意 (entailment): X している場合必然的に Y しているなら動詞 Y は動詞 X に entail(ひきおこすこと)されている。(X:「いびきをかく (snoring)」はY: 眠る (sleeping)」ことによって引きおこされる。)
- 同族語 (coordinate terms): X と Y の上位語が同じなら、Y は X の同族語である。
- 形容詞
- 関係のある名詞
- 動詞の分詞
- 副詞
- 原形の形容詞
synset に含まれる語句は同じ意味を持った同義語であるため意味的な関係は synset 内全体に適用されるが、 単独の語句が他の語句と反意語や派生語などの関係を結ぶこともある。
WordNet には語句の多義性の度合い(polysemy count; 語句が属する synset の数)の情報も含まれている。ある単語がいくつかの synset に属している(いくつかの意味を持っている)場合、ある意味は他の意味よりも一般的に用いられているという関係を持っていることが多い。WordNet ではこのような関係を頻度点 (frequency score) と呼ぶ数値で表している。サンプルの文書の中には全ての単語に synset 等の意味を表すタグを付与しているものがあり、単語が特定の意味で出現している頻度によって頻度点が計算されている。
単語から語幹(root form)や原型(lemma)を推定するための形態素解析ツールはデータベースと一緒に配布されている。屈折形を含む語の場合をのぞいて語幹のみがデータベースに格納されている。
知識構造
[編集]名詞と動詞は上位・下位の関係(IS Aの関係)によって定義される階層構造にまとめられている。たとえば dog の第一義は以下のような上位語階層を持っている。 同じ階層にある単語はそれぞれ同義語の関係にある。dog の示すある意味の同義語には domestic dog や Canis familiaris がある。 同義語のグループ (synset) は一意の索引によってポイントされ、同じ属性や注釈を持っている。
dog, domestic dog, Canis familiaris => canine, canid => carnivore => placental, placental mammal, eutherian, eutherian mammal => mammal => vertebrate, craniate => chordate => animal, animate being, beast, brute, creature, fauna => ...
階層の頂点ではこの階層構造は25の名詞の基礎グループと15の動詞の基礎グループにまとめられている。このグループが編集用のファイル一つにそれぞれ対応している。この基礎グループは、WordNet を利用するアプリケーションが抽象的なルートノードとして用いるノードに対応している。
形容詞の場合、二つの反対する主要な意味が極となって、その他の同義語が形容詞の場合における同義性の関係によって極を取り囲む形をとっている。したがって階層構造や編集用のファイルは名詞や動詞の場合と異なった構造をとっている。
名詞のネットワーク構造は他の品詞と比べてはるかに深い構造を持っており、動詞は他の品詞よりもはるかに入り組んだ構造をしている。 形容詞ははっきり区別された別々の固まりに組織されており、副詞はそれぞれの語が由来する形容詞に従って定義されており、形容詞と似た構造をとっている。
心理学的な正当性
[編集]WordNet の目的は、人間が言語を処理する方法について年月をかけて得られた知見と一致するシステムを開発することだった。 例えば失語症は患者が物の名前を思い出すのを選択的に(該当する物とそうでない物が入り交じって)妨げる状況を作り出すということが分かっている。 そのため、品詞をはっきりした階層構造へ分類する、より理にかなった分類方法が採られた。
下位語の場合、 人間が名詞の属性を見つけることのできる早さは、その特徴を定義している階層を見つける早さに依存していることが心理学実験で明らかになっている。 したがってカナリアは鳴き鳥の一種である(直下の下位語となっている)ため、人は「カナリアは歌う」かどうかをすぐに判断することができるが、 「カナリアは飛ぶ」かどうかを判断するにはもう少し時間がかかり(二層の隔たりがある)、「カナリアは皮膚を持っている」かどうかを判断するにはより多くの時間を要する(複数の階層の隔たりがある)。これは、人間はある概念と他の似た概念を区別するのに必要なもっとも明確な情報のみを保持していることから、 人間が WordNet に似た方法で意味の情報を記憶しているということを示唆している。
制限事項
[編集]他の辞書とは異なり、語源に関する情報は WordNet に含まれていない。発音や不規則動詞についての説明はごく簡単なものにとどまっている。
辞書編集上の意味の情報は編集用のファイルにおいて管理されており、grind と呼ばれるツールによって配布用のデータベースを生成する処理が行われている。 grind と編集用のファイルも自由に利用することができるが、それでもデータベースの変更を行うことは難しい。
WordNet では似た意味の単語を単一の一般的な定義による synset にまとめているため、個々の単語の定義は必ずしも正確ではない。
関連するプロジェクト
[編集]EuroWordNetプロジェクトはそれぞれ相互にリンクされたヨーロッパの言語の WordNet を開発しているが、フリーのライセンスで利用することはできない。Global Wordnetプロジェクトは 全ての言語 WordNet を接続し、統合を行おうとしているプロジェクトである。オックスフォード英語辞典 (Oxford English Dictionary) の出版社のオックスフォード大学出版は独自の WordNet をオンライン上で構築することを発表している。 2009年には日本語 WordNet が英語 WordNet と同じライセンスで公開された。[1]
eXtended WordNetはテキサス大学ダラス校のプロジェクトである。WordNet の注釈を意味的に解析し、定義に含まれる情報を知識処理システムで利用可能とすることで WordNet を改良することをねらっている 。eXtended WordNet は WordNet と似たライセンスで自由に利用することができる。
GCIDEプロジェクトはパブリックドメインの1913年版のウェブスター辞典を WordNet の単語の定義およびボランティアによって提供された情報と組み合わせた辞書を作成している。これはコピーレフトライセンスのGPLで公開されている。
名詞の synset 間の上位語・下位語の関係は概念のカテゴリ同士の特化した関係として理解することができる。 言い換えれば、WordNet は情報科学における意味での、語彙のオントロジーとして用いることができる。 しかし、こうしたオントロジーは非常に多くの意味的な不整合、たとえば、(1)排他的なカテゴリ付けを行うために多数の語句をまとめて限定的な意味を付与していることや (2)意味付けの階層構造に冗長性があるため、通常、使用される前に修正が行われる。
さらに、WordNet を知識表現に利用可能なオントロジーに変換するには、通常 (1) WordNet 上で行われている意味付けを subtypeOf と instanceOf の関係に区別して記述することと、 (2) 一意の識別子をそれぞれのカテゴリに関連づけることを必要とする。 このような修正と変換は integration of WordNet 1.7 into the cooperatively updatable knowledge base of WebKB-2 に記されている例があるが、ほとんどのプロジェクトはWordNetを知識処理アプリケーション(知識情報処理による情報検索等)に再利用する場合には単純に WordNet そのものを利用する方法を採っている。
WordNet は WordNet のカテゴリと他のオントロジーに由来するカテゴリとの写像にも広く利用されている。 たいていの場合、WordNet の最上位レベルのカテゴリのみが写像に用いられるが、オントロジー SUMO の作者は WordNet の synset(名詞、動詞、形容詞、副詞)とSUMO classとの写像を作成した。 2006年現在の写像は SUMO を拡張したMId-Level Ontology (MILO) の特定の用語へのより多くのリンクを提供している。 OpenCycの上層のオントロジーには WordNet のノードにリンクが設定されている。
WordNet をオントロジーに組み込もうとしている多くのプロジェクトでは、WordNet の内容は意味的な不整合の問題が起きた場合に単純に訂正されるのではなく、 WordNet を発想の種として使ってきたが、必要があるときには大規模に書き換えて用いている。 たとえば、OntoCleanを基盤にしたアプローチによって WordNetの最上位のオントロジーが再構築された例や SENSUS オントロジーの下位の分類を構築するのに WordNet を出発点のソースとして用いた例などがある。
FrameNet は WordNet に近いプロジェクトである。10万以上の文に加えられた意味的な属性の注釈をもとにした語彙集であり、ねらいとなっている単位は、語彙フレーム (lexical frame) である。語彙フレームとは語句に関連づけられた属性に加えて、状態あるいは事象の種類(訳注: フレームについては[1]などが参考になる。)を表したものである。
脚注
[編集]- ^ Hitoshi Isahara, Francis Bond, Kiyotaka Uchimoto, Masao Utiyama and Kyoko Kanzaki (2008) Development of Japanese WordNet. In LREC-2008, Marrakech.
参考文献
[編集]- ``Five Papers on WordNet by Miller, George A., Christiane Fellbaum, Katherine J. Miller. August, 1993, retrieved May 4, 2005
関連項目
[編集]外部リンク
[編集]- The WordNet Home Page
- WordNet 2.0 - Dictionary & Thesaurus - ベクター社によってホストされているWordNet2.0のEPWING電子辞書
- Wordnet Related Projects - WordNetにアクセスするためのインターフェースおよび拡張機能の一覧
- Global Wordnet
- The SENSUS ontology
- 日本語 WordNet WordNetの日本語版
- WordNet EPWING WordNet 3.1のEPWINGデータ