コンテンツにスキップ

情報抽出

出典: フリー百科事典『ウィキペディア(Wikipedia)』

これはこのページの過去の版です。Mariobanana (会話 | 投稿記録) による 2022年12月24日 (土) 10:42個人設定で未設定ならUTC)時点の版であり、現在の版とは大きく異なる場合があります。

情報抽出 (じょうほうちゅうしゅつ、英語: Information Extraction、略称: IE) は非構造化文書と機械が読み取れる (machine-readableな) 半構造化文書の両方またはいずれから自動的に構造化データを抽出するタスクである。

多くの場合、この作業は人間の言葉で書かれた文書を自然言語処理 (: Natural Language Processing、略: NLP) の手法を用いて処理することを指す。画像・音楽・動画の自動アノテーションやコンテンツ抽出のような、近年のマルチメディア文書の処理もまた情報抽出として捉えられる。

その問題の難しさから、IEに対する現在のアプローチは狭く制限されたドメインに焦点を当てている。例として、ニュースサービスの企業合併についての報道からの情報抽出があり、次のようなフォーマルな関係による情報

,

を次のようなニュース文

"Yesterday, New York based Foo Inc. announced their acquisition of Bar Corp."

から抜き出す。

IEの広い目標は、蓄積された非構造化データのうえで処理を行えるようにすることである。より具体的な目標は、入力データの論理的内容に基づいて推論を行う論理的推論を可能にすることである。

関連項目