固有表現抽出
出典: フリー百科事典『ウィキペディア(Wikipedia)』
固有表現抽出(こゆうひょうげんちゅうしゅつ、英: named entity extraction、named entity recognition)とは、計算機を用いた自然言語処理技術の一つであり、固有名詞(人名、地名など)や日付、時間表現などを抽出する技術である。情報抽出の一分野であるとされる。
目次 |
目的 [編集]
新聞記事など現実世界に存在するテキストには大量の固有表現 (Named Entity) が含まれている。形態素解析などを行なう際、それらの固有表現は辞書に登録されていない場合、未知語として扱われ、解析の誤りを起こす。そのため、様々な固有表現を辞書に登録する必要があるが、前述の通り、現実のテキストには大量の固有表現が存在し、人手でそれらを登録することは困難である。
この問題を解決するため、計算機によって大量のテキストから固有表現を自動的に抽出する技術が生まれた。
歴史 [編集]
固有表現という概念と固有表現抽出が提唱されたのは、1990年頃アメリカ合衆国のDARPAが組織した評価型プロジェクト MUC (Message Understanding Conference) においてであるとされる。
日本国内においては情報抽出・情報検索の評価型ワークショップである IREX (Information Retrieval and Extraction Exercise) における情報抽出の共有タスクの一つとして出題された。
具体例 [編集]
太郎は5月18日の朝9時に花子に会いに行った。
という文に含まれる固有表現を抽出すると以下のようになる。
<PERSON>太郎</PERSON>は<DATE>5月18日</DATE>のに<PERSON>花子</PERSON>に会いに行った。
ここで、<..></..>で囲まれた部分が固有表現であり、<..>は表現の分類を示すタグである。 <PERSON>は人名、<DATE>は日付表現、