形態素解析

出典: フリー百科事典『ウィキペディア(Wikipedia)』

これはこのページの過去の版です。Euske (会話 | 投稿記録) による 2003年2月17日 (月) 15:48個人設定で未設定ならUTC)時点の版であり、現在の版とは大きく異なる場合があります。

形態素解析 (Morphological Analysis) とは、自然言語処理の 基礎技術のひとつで、 自然言語で書かれた文章を形態素 (Morpheme, おおまかにいえば「単語」) の列に分割し、品詞 (Part-of-speech) を見分ける作業である。

以下は「お待ちしております」という文章を形態素解析した 例である (形態素解析ツールには「茶筅」を使用した)。

 (文字列)(読み)  (原形)  (品詞の種類)    (活用の種類)    (活用形)
 お待ち  オマチ  お待ち  名詞-サ変接続
 し      シ      する    動詞-自立       サ変・スル      連用形
 て      テ      て      助詞-接続助詞
 おり    オリ    おる    動詞-非自立     五段・ラ行      連用形
 ます    マス    ます    助動詞          特殊・マス      基本形
 。      。      。      記号-句点
 EOS

日本語を形態素解析する際においては、以下の3つが大きな問題となる:

単語のわかち書きの問題

たとえば「うらにわにはにわとりがいる」という文章には、 以下のように異なる読み方が存在する (本当はもっとある):

  • 裏庭 / には / 鶏 / が / いる
  • 裏庭 / には / 二 / 羽 / トリ / が / いる
  • 裏 / に / ワニ / は / 鶏 / が / いる
  • 裏庭 / に / 埴輪 / 取り / が / いる (「埴輪取り」がどんな生物であるかは不明)

単語のわかち書きを解析することはかな漢字変換の 基礎となる技術である。しかし完璧な正解を得るには その文章がおかれている文脈や書き手の意図をくみとらねばならないため 非常に難しい。

品詞を見分ける問題

この問題は日本語よりも英語で顕著である。 たとえば単語 "time" は「時間」という名詞としての 意味のほかにも「〜倍する」という動詞としての意味もあるため、 これをどちらの意味にとるかによって文の意味がまったく 違うものになってしまう。 品詞を見分けることは形態素解析の次の段階である構文解析にとって 非常に重要であるが、英語では品詞の種類が文の構造と 密接に関連しているため、これらをいっぺんにやってしまう方法も 研究されている。

未知語の問題

形態素解析はふつう、その言語のすべての単語が 収められた辞書をつかっておこなわれる。 しかし辞書にない単語が文中に現れた場合はどうするか。 このような単語は未知語と呼ばれる。 日本語では漢字の列やカタカナの列はたとえ未知語であっても ある程度単語として認識することができる。 しかしそれが使えない場合、代表的な方法は 「知っている単語が現れるまでよみとばす」というものだが、 これは後の解析を狂わせてしまい、結果として 頑健な解析ができなくなってしまう恐れがある。

ルーズな文法の問題

話し言葉電子メールなどで使われる言葉は、 新聞などで使われている日本語からはかなりかけ離れたものが多い。 たとえば「そんなことは知らないでしょう」が 「んなこた知らんしょ」に変化したりする。 また電子メールなどでは従来の辞書には載っていない 略語フェイスマークが使われていることも多い。 さらにこういった文章は新聞とはちがってきちんと校正されていないため、 書き手のミススペルが入っている場合が多々ある。 このような文章でも解析できることを頑健な解析と呼ぶ。 このような文章に対応するためには形態素解析の手法を 根本から見直す必要があるが、言語資源の不足のため あまり研究はされていない。

日本語以外の言語の形態素解析

英語を含む多くの言語では、単語はふつう空白文字によって わかち書きされる。このため文を形態素に区切るのは日本語に比べると やや簡単である (が、品詞を見分ける問題は依然として残る)。 しかしドイツ語では複数の名詞がひとつの単語として表現されるため、 わかち書きを解析する問題が発生する。 中国語韓国語は日本語と同様にわかち書きの問題が存在する。 また英語や日本語では単語が活用するのは動詞および副詞などに 限られるため、 単語の活用形もふくんだものをすべて辞書に収めることができるが、 ロシア語フィンランド語などでは 活用はほぼすべての単語に対して起こるため、 これらの言語では現実的でない。

代表的な形態素解析の手法

基本的には辞書をもちいてその単語が属する 品詞を調べていくという方法をとる。 日本語では品詞の接続には制限が存在する (たとえば動詞のあとに格助詞がくることはできない、 例: 「ドアを開けるを」は不可) ため、この特徴を うまく利用することによって単語のわかち書き問題を ある程度解決することができる。 具体的にこの特徴をどのような形で利用するかについては、 以下の2つの方法がある:

現在、日本語や英語などで普及しているのはおもに 隠れマルコフモデル (HMM, Hidden Markov Model) による 統計的な方法である。HMM は多くの言語における 形態素の「つながり具合」を比較的簡単にモデル化できることが わかっている。具体的にはそれぞれの単語間のつながりを すべて列挙し、それに対してスコアを付与する。文全体で このスコアの合計がもっとも高くなるような品詞列を答えとする。

フリーで入手可能な日本語の形態素解析エンジン