非構造化データ
非構造化データ(Unstructured Data)とは、構造定義されておらず、主にリレーショナルモデルにうまく適合しないデータモデルに分類されるデータを指す。
データの変遷
従来より、商業活動や自然現象などを数値化した意味のあるデータ(情報)として活用してきました。そのような数値データを、より効率的に、より生産的に活用するために、計算機(コンピュータ)が生まれ、活用が高度化していく中で、主にリレーショナルモデルをベースとしたデータベースに構造化して格納されて活用したため、そのようなデータをのちに構造化データと呼ぶようになりました。さらに、ITは、組織や人間の様々な活動をより効率的で生産的にするために、数値、テキスト、画像、音声、動画をデータとして活用するようになりました。このようなデータは、構造化データという分類を超えて、完全な構造定義を持たない半構造化データ、あるいは、構造定義を持たない非構造化データとして分類されるようになりました。
データベースの変遷
ITの進化にともなって、組織や人間の様々な活動から、数値、テキスト、画像、音声、動画がデータとして大量に生み出されるようになりました。昨今では、それらを総称してビッグデータと呼ぶようになり、それらを格納して活用するためのデータベースも進化し、従来型データベースの問い合わせ言語がSQLであるのに対して、NoSQLと総称されるデータベースも登場するようになりました。
非構造化データの取り扱い
一般的に知られるテキストを構造化する方法としては、テキスト分析してメタデータをタグ付けしたり、画像、音声、動画からテキスト抽出して同じ方法を用いたり、特有のメタデータのタグ付けなどがあります。このような非構造化データの取り扱いを実現する技術には、データマイニング、テキストマイニング、自然言語処理、機械学習、パターン認識などがあげられます。 ビジネスアプリケーションのために非構造化データを分析して理解するソフトウェアは、SAS InstituteやIBM、SAP (企業)、オートノミー、オープンテキストなど様々な企業から提供されています。ソーシャルメディアの非構造化データの分析に焦点を当てたインターネットサービス企業も多数存在します。