Lexical Markup Framework

LMF (Lexical Markup Framework) は、自然言語処理用の辞書や機械可読辞書を表現するために ISO/TC37により規定された国際標準 (ISO 24613:2008) である。多言語コミュニケーションや文化の多様性といった文脈において、言語資源に関する原理や方法論を標準化することがそのスコープである。

LMFの目的[編集]

LMFの目標は、語彙に関する言語資源 (語彙資源) の作成や利用に関する共通的なモデルを提供することである。これにより、語彙資源の間でのデータの交換や、多数の電子的な資源のマージが可能となる。

LMFは、単言語、二言語、多言語の具体的な語彙資源を扱うが、語彙資源の規模、複雑さ、文字言語・音声言語の別を問わず、同じ仕様が適用される。LMFの規定は、形態論的情報、意味論的情報からコンピュータによる翻訳支援に及ぶ。また、カバーされる言語は西欧系の言語に限らず、全ての自然言語である。さらに、ターゲットとする自然言語処理の応用の種別に限定されることもない。LMFによって、WordNet、EDR、PAROLEといった多くの既存の語彙資源や辞書を表現することが可能である。

LMFの歴史[編集]

語彙資源や辞書の標準化は、GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE, ISLE といった一連のプロジェクトにおいて研究開発されてきた。これらの経緯や蓄積を踏まえ、ISO/TC37の各国代表は、自然言語処理用の辞書に関する標準を定めることとした。LMFの制定作業は、米国代表により2003年の夏に提示された提案により開始され、2003年の秋にはフランス代表により自然言語処理用の辞書に関するデータモデルの技術的な提案がなされた。これらの実績に基づき、2004年の前半に開催されたISO/TC37の委員会は、Nicoletta Calzolari (CNR-ILC、イタリア)を議長、Gil Francopoulo (Tagmatica、フランス) と Monte George (ANSI、米国) をエディタとする標準化プロジェクトを立ち上げることを決定した。

LMFの標準規格開発の最初の段階は、既存の辞書における様々な特徴を調査し、全体的な枠組みをデザインすること、また、これらの辞書における各要素を記述するのに必要な用語体系を定めることに費やされた。次の段階においては、これらの辞書の詳細を最もよく表現する包括的なモデルが定められた。この作業においては、60人に及ぶ多くの専門家が自然言語処理用の辞書の多くのタイプをカバーするために求められるLMFの要求条件の規定に寄与した。LMFのエディタは、これらの専門家グループと密接に協力することにより、LMFの設計に関するコンセンサスを達成した。この過程で特に注意が払われたのは、従来から扱いが困難であるとされてきた諸言語における形態論的な問題を扱うための枠組みの開発であった。LMFのエディタが最終的なUMLモデルにより表された仕様を規定するには 5年の作業期間を要し、この間に多くの対面会議、電子メールの交換が行われた。結果的にLMFは、自然言語処理用の辞書の領域における最新技術を結集したものとなったと言えよう。

標準化の状況[編集]

LMFの仕様は、ISO国際標準24613 として 2008年11月17日に公刊された。

ISO/TC37による国際標準ファミリーの1つとしてのLMF[編集]

ISO/TC37 による国際標準規格は上位レベルの仕様として制定されており、単語分割 (ISO 24614), 言語的注釈 (ISO 24611 別名 MAF, ISO 24612 別名 LAF, ISO 24615 別名 SynAF, and ISO 24617-1 別名 SemAF/Time), 素性構造 (ISO 24610), マルチメディアコンテナ (ISO 24616 別名 MLIF)、および本ページで説明する LMF (ISO 24613) といった規格からなる。これらの標準は、データカテゴリ (ISO 12620の改訂)、言語名コード (ISO 639), 文字体系 (ISO 15924), 国名コード (ISO 3166) やユニコード (ISO 10646)といったより下位レベルの標準を利用している。

このような2レベルの構成は、次のような共通的で単純なルールにより、一貫した国際標準のファミリーを形成する。

下位レベルの仕様は、標準化された定数をメタデータとして提供する。
上位レベルの仕様は構造的な要素を提供し、これらは下位レベルの標準によって規定される定数を用いることによって詳細化される。

LMFにおいて用いられている重要な標準[編集]

LMFのような上位レベルの標準における構造的な要素を記述するために必要となる /feminine/ や /transitive/ といった言語学的な定数は、LMFによって独自に定義されるのではなく、データカテゴリレジストリ Data Category Registry (DCR) に記録されているものによる。DCRは、ISO/IEC 11179-3:2003 [1] (PDF) に準拠した大域的なリソースとして運用されている。

LMFの仕様は、Object Management Group (OMG)により定義された。 Unified Modeling Language (UML) におけるモデル化の原則に従っている。すなわち、LMFにおける構造はUMLのクラス図により規定され、具体例は、UMLのインスタンス図 (オブジェクト図) により示される。

LMFの仕様書の付録には、XMLによる表現形式のDTDが掲載されている。

モデルの構造[編集]

LMFの構成要素は大きく以下の2つからなる。

コアパッケージ: 辞書エントリが持つ情報の基本的な階層を記述するための基本的な構造を規定する。
コアパッケージに対する複数の拡張部: 特定のタイプの語彙資源のために必要となる、コアパッケージ要素に対する付加的な要素を規定する。

LMFの仕様に明示されている拡張部としては、形態論的情報 (Morphology)、および、機械可読辞書 (Machine Readable Dictionary: MRD) に関する拡張部のほか、自然言語処理用の辞書における統語論的情報 (NLP syntax)、意味論 (NLP semantics)、多言語表記法 (NLP multilingual notation), 形態論的パターン (NLP morphological patterns), 複合語表現パターン (NLP multiword expression patterns) を表現するための拡張部が用意されている。さらに共通的に用いられるものとして、制約表現 (Constraint expression) に関する拡張部がある。

簡単な具体例[編集]

以下の例は、clergymanという見出し語に関連する辞書エントリをUMLオブジェクト図により示したものである。この見出し語は、clergyman と clergymen の2つの屈折形 (inflected form) を持つ。当該の語彙資源が対象とする言語名は、クラス Lexicon のインスタンスにある languageという属性 (データカテゴリ) の属性値 (eng) により示されている。この属性値は、Global Informationの language Codingという属性の属性値で指定される ISO 639-3 により規定される。

Lexical Resource、Global Information、Lexicon、Lexical Entry、Lemma、Word Formといった要素は、辞書の構造を規定するものであり、LMF文書内部で規定される。対照的に、languageCoding、 language、partOfSpeech、commonNoun、writtenForm、Grammatical number、singular、plural などはデータカテゴリレジストリにおいて規定されているデータカテゴリである。これらのデータカテゴリを用いて記述を詳細化する。ISO 639-3, clergyman, clergymen といった属性値は単純な文字列であるのに対し、eng という値は、ISO 639-3において規定される言語名のリストによるものである。

以下のXML文書は、上記のUML図と等価なデータを表現している。ただし、このXMLにおいては、dtdVersion や feat のような付加情報も示されている。

<LexicalResource dtdVersion="15">
    <GlobalInformation>
        <feat att="languageCoding" val="ISO 639-3"/>
    </GlobalInformation>
    <Lexicon>
        <feat att="language" val="eng"/>
        <LexicalEntry>
            <feat att="partOfSpeech" val="commonNoun"/>
            <Lemma>
                <feat att="writtenForm" val="clergyman"/>
            </Lemma>
            <WordForm>
                 <feat att="writtenForm" val="clergyman"/>
                 <feat att="grammaticalNumber" val="singular"/>
            </WordForm>
            <WordForm>
                <feat att="writtenForm" val="clergymen"/>
                <feat att="grammaticalNumber" val="plural"/>
            </WordForm>
        </LexicalEntry>
    </Lexicon>
</LexicalResource>

この例は非常に単純なものであるが、LMFはより複雑な言語学的記述を表現することができる。ただし、それに対応するXMLでの表現も複雑となる。

外部リンク[編集]

LMFに関する幾つかの科学的な文献[編集]

Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Tübingen: Lexical Markup Framework ISO standard for semantic information in NLP lexicons [2] (PDF)
The fifth international conference on Language Resources and Evaluation, LREC-2006/Genoa: Lexical Markup Framework (LMF) [3] (PDF)

その他の参照[編集]

計算論的語彙論 (Computational lexicology)
語彙意味論 (Lexical semantics)
形態論 (Morphology)
機械翻訳 (Machine translation)
形態論的パターン: 屈折、膠着、複合、派生などにより形成される語彙素の様々な形式を定めるための関連規則や操作の集合(Morphological pattern)
WordNet: 英語に関する語彙データベース
Universal Terminology eXchange (UTX): 機械可読辞書に関するユーザ指向の記述形式
Universal Nwtworking Language (UNL) ユニバーサル・ネットワーキング・ラングエッジ: 自然言語の文から抽出される意味論データを表現するべく設計された形式言語

表話編歴 ISO標準
国際標準一覧 · ローマ字表記国際規格一覧 · 国際電気標準会議が定める国際標準一覧
1から 10000まで	1 2 3 4 5 6 7 9 16 31 -0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 128 216 217 226 228 233 259 269 302 306 428 518 519 639 -1 -2 -3 -5 -6 646 668 690 732 764 843 898 965 1000 1004 1007 1073-1 1413 1538 1745 1989 2014 2015 2022 2047 2108 2145 2146 2240 2281 2382 2709 2711 2788 2852 3029 3103 3166 -1 -2 -3 3297 3307 3602 3864 3901 3977 4031 4157 4217 4909 5218 5428 5775 5776 5800 5964 6166 6344 6346 6385 6425 6429 6438 6523 6709 6937 7001 7002 7010 7098 7185 7200 7498 7736 7810 7811 7812 7813 7816 7942 8000 8178 8217 8571 8473 8583 8601 8613 8632 8652 8691 8807 8820-5 8859 -1 -2 -3 -4 -5 -6 -7 -8 -8-I -9 -10 -11 -12 -13 -14 -15 -16 8879 9000/9001 9075 -10 9126 9293 9241 -210 9362 9407 9506 9529 9564 9592 9594 9660 9897 9899 9945 9984 9985 9995
10001から 20000まで	10006 10021 10116 10118-3 10160 10161 10165 10179 10206 10218 10303 -11 -21 -22 -28 -238 10383 10487 10585 10589 10646 10664 10746 10861 10957 10962 10967 11073 11170 11179 11404 11519 11544 11783 11784 11785 11801 11898 11940 -2 11941 11941 (TR) 11992 12006 12100 12182 12207 12234 -2 -3 13211 -1 -2 13216-1 13250 13399 13406-2 13407 13450 13482 13485 13490 13522-5 13567 13568 13584 13616 14000 14031 14224 14229 14230 14289 14396 14443 14492 14496 -2 -3 -6 -10 -11 -12 -14 -17 -20 14644 -1 -2 -3 -4 -5 -6 -7 -8 -9 14649 14651 14698 -2 14750 14764 14882 14971 15022 15189 15288 15291 15292 15398 15408 15444 -3 15445 15438 15504 15511 15686 15693 15706 -2 15707 15765 -2 15836 15897 15919 15924 15926 15926 WIP 15930 15948 16023 16262 16612-2 16750 16949 17024 17025 17203 17369 17799 18000 18004 18014 18033 18092 18181 18245 18629 18916 19005 19011 19092 -1 -2 19100 19114 19115 19125 19136 19439 19500 19501 19502 19503 19505 19506 19507 19508 19509 19510 19600 19752 19757 -2 -3 -4 19770 19775 19784 19794-5 19831 20000
20001以上	20022 20121 21000 21047 21500 21827:2002 22000 22196 22250-1 22307 22324 23270 23271 23360 24517 24613 24617 24707 25178 25964 26000 26262 26300 26324 27000シリーズ 27000 27001:2005 27001:2013 27002 27003 27004 27005 27006 27007 27729 27799 28000 29110 29148 29199-2 29500 30170 31000 32000 37001 38500 40500 42010 80000 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 -14
組織	国際標準化機構
カテゴリ	ISO標準 ISO 31 ISO 639 ISO 3166 ISO 8859 ISO/IEC 80000 ISO/IEC標準
関連項目: ISOで始まる記事一覧