機械判読可能なデータ

出典: フリー百科事典『ウィキペディア(Wikipedia)』
ナビゲーションに移動 検索に移動

機械判読可能なデータ(きかいはんどくかのうなデータ、英語: Machine-readable data)とは、コンピューターソフトウェアプログラミング言語)で容易に処理できるデータ形式を指す。機械判読可能データは構造化されている必要がある[1]機械判読に適したデータ機械可読なデータマシンリーダブルデータなどとも呼ばれる。

概要[編集]

アメリカ合衆国で2019年1月に署名されたオープンデータ法(OPEN Government Data Act)では、「意味を全く失うことなく、人の介入なくコンピュータで容易に処理可能な形式のデータ」[2] と定義されている。 この法令ではアメリカの連邦行政機関にデータを基本的に公開するように義務付け、すべての公開データアセットが機械判読可能であることを保証している[3]

また、コンピューター上で閲覧・表示可能な電子文書・電子データと同義ではない。 オンライン上に存在する電子文書が人間にとっては容易に判読できるものだったとしても、それは必ずしもコンピューターにとって判読できるものとは限らない。 例えば紙媒体をスキャンしたPDFや画像に記載されている表は、人間は一目見て内容を理解できるが、プログラミング言語を用いてその内容を抽出・加工することは困難である。

一般的に、機械判読可能データから人間も判読しやすいデータを生成することは容易であるが、逆に人間だけが判読できるデータから機械判読データを生成することは困難である。

分類[編集]

機械判読可能データは大きく2つに分けられる。

  • 人間にも判読できるデータ - マークアップ言語であり、機械にとっても判読可能であるデータ
  • 主にコンピューターによる処理を目的としたデータ

ただし、これらの形式であったとしても、中身が正しく構造化されていなければ機械判読はできない。 例えば、構造に問題のあるExcelファイルからCSVファイルをエクスポートしたとしても、それは機械判読可能にはならない。

機械判読性を高めるための工夫の例[編集]

セルを結合しない[4]

プログラムから結合されたセルを解読しようとする場合、結合された範囲などを認識する複雑な処理が生じてしまう。そのため、結合するのではなく同一の値を個々のセルに記載して対応することが望ましい。

値を省略しない[4]

前行などと同一の値であったとしても、値を省略しない。

複数の表を1つのデータセットに記載しない[4]

1つのデータセット(Excelの1シート上など)に複数の表が記載されている場合、表がどこで分割されているかなどを認識する必要が生じるため、機械判読が困難になる。そのため、1つのデータセットには1つの表のみを記載する。複数の表を扱う必要がある場合、データセットを表の数に応じて分割する。

位取りや見栄えのための記号や、注などをデータに含ませない[4]

「11,000」のように数値の中にカンマを含んだり、整形のために「東 京」のように空白文字(スペース)を含んだりしている場合、機械はその記号に意味があるのかどうか判別できない。そのため、必要ない記号は削除する必要がある。また、「(注1)」などの注釈も同様である。

地理空間情報の場合、座標を併記する[4]

地理空間情報において、位置情報に関するデータを扱う場合は住所だけではなく、座標(緯度経度)も付与する。

関連項目[編集]

脚注[編集]

  1. ^ Machine readable”. opendatahandbook.org. 2019年7月22日閲覧。
  2. ^ data in a format that can be easily processed by a computer without human intervention while ensuring no semantic meaning is lost. HR4174”. stratml.us. 2019年11月29日閲覧。
  3. ^ HR4174”. stratml.us. 2019年11月29日閲覧。
  4. ^ a b c d e "数値(表)、文章、地理空間情報のデータ作成に当たっての留意事項(案)" (DOC). 首相官邸. 2019-12-06閲覧