情報抽出
この記事は英語版の対応するページを翻訳することにより充実させることができます。(2022年7月) 翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
|
情報抽出(じょうほうちゅうしゅつ、英語: Information Extraction、略称: IE)は非構造化文書と機械が読み取れる (machine-readableな) 半構造化文書の両方またはいずれから自動的に構造化データを抽出するタスクである。
多くの場合、この作業は人間の言葉で書かれた文書を自然言語処理 (英: Natural Language Processing、略: NLP) の手法を用いて処理することを指す。画像・音楽・動画の自動アノテーションやコンテンツ抽出のような、近年のマルチメディア文書の処理もまた情報抽出として捉えられる。
その問題の難しさから、IEに対する現在のアプローチは狭く制限されたドメインに焦点を当てている。例として、ニュースサービスの企業合併についての報道からの情報抽出があり、次のようなフォーマルな関係による情報
- ,
を次のようなニュース文
- "Yesterday, New York based Foo Inc. announced their acquisition of Bar Corp."
から抜き出す。
IEの広い目標は、蓄積された非構造化データのうえで処理を行えるようにすることである。より具体的な目標は、入力データの論理的内容に基づいて推論を行う論理的推論を可能にすることである。
現代的意義
[編集]現代における情報抽出の意義は、インターネットの発展と構造化されていない文書の増大に関連する。膨大に存在する非構造化データをコンピュータが処理可能な形式へ変換する需要が高まっている。ティム・バーナーズ=リーは、現在のWebを「文書のWeb」と呼び、将来的な「データのWeb」への移行を主張している[1]。
情報抽出の応用例として、知識ベースへの情報登録、自動要約、質問応答システムなどが想定される。例として、自然言語で書かれた文書をスキャンし、抽出された情報をデータベースに入力するアプリケーションが挙げられる[2]。
主要タスク
[編集]情報抽出における主要なタスクおよびサブタスクには以下がある:
手法
[編集]情報抽出には主に以下の手法が用いられる:
- 正規表現
- 分類器
- ナイーブベイズ分類器などの生成モデル
- 最大エントロピーモデルなどの識別モデル
- シーケンスモデル
また、これらの手法を組み合わせたアプローチも存在する。
脚注
[編集]- ↑ “Tim Berners-Lee on the next Web”. 2011年4月10日時点のオリジナルよりアーカイブ。2010年3月27日閲覧。
- ↑ “Cambridge Journals Online - Natural Language Engineering Forthcoming articles...”. web.archive.org (2008年5月7日). 2025年4月30日閲覧。
- 1 2 Nguyen, Dat Quoc; Verspoor, Karin (2019). “End-to-end neural relation extraction using deep biaffine attention”. Proceedings of the 41st European Conference on Information Retrieval (ECIR). arXiv:1812.11275. doi:10.1007/978-3-030-15712-8_47.
- 1 2 “A framework for information extraction from tables in biomedical literature”. International Journal on Document Analysis and Recognition 22 (1): 55–78. (February 2019). arXiv:1902.10031. Bibcode: 2019arXiv190210031M. doi:10.1007/s10032-019-00317-0.
- 1 2 Milosevic, Nikola (2018). A multi-layered approach to information extraction from tables in biomedical documents (PDF) (PhD). University of Manchester.
- ↑ “Disentangling the Structure of Tables in Scientific Literature”. Natural Language Processing and Information Systems. Lecture Notes in Computer Science. 21. (June 2016). pp. 162–174. doi:10.1007/978-3-319-41754-7_14. ISBN 978-3-319-41753-0
- ↑ A.Zils, F.Pachet, O.Delerue and F. Gouyon, Automatic Extraction of Drum Tracks from Polyphonic Music Signals Archived 2017-08-29 at the Wayback Machine., Proceedings of WedelMusic, Darmstadt, Germany, 2002.