「データ」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
Otherusesのエントリを追加: データ (コンピュータ)
タグ: サイズの大幅な増減 ビジュアルエディター 曖昧さ回避ページへのリンク
1行目: 1行目:
{{otheruses||ドラマの登場人物|データ (スタートレック)|コンピュータが取り扱う量/文字/記号など|データ (コンピュータ)}}
{{otheruses||コンピュータが取り扱う量/文字/記号など|データ (コンピュータ)|ドラマの登場人物|データ (スタートレック)}}
{{出典の明記|date=2016年7月7日 (木) 11:31 (UTC)}}
{{出典の明記|date=2016年7月7日 (木) 11:31 (UTC)}}
'''データ'''({{lang-en-short|data}})とは、個々の[[事実]]、[[統計]]、または[[情報]]の項目である<ref name=":0">{{cite book|title=OECD Glossary of Statistical Terms|page=119|date=2008|publisher=OECD|isbn=978-92-64-025561}}</ref>。より厳密には、データとは1人または複数の人や物や事象に関する[[定性的研究|定性的]]{{Enlink|Qualitative property|英語版|en}}または[[定量的研究|定量的]]{{Enlink|Variable and attribute (research)|英語版|en}}な値の集まりである<ref name=":0">{{cite book|title=OECD Glossary of Statistical Terms|page=119|date=2008|publisher=OECD|isbn=978-92-64-025561}}</ref>。単数形の'''データム'''({{Lang-en-short|datum}})は、ある変数の単一の値である<ref>{{cite web |url=https://www.abs.gov.au/websitedbs/a3121120.nsf/home/statistical+language+-+what+are+data |title=Statistical Language - What are Data? |date=2013-07-13 |website=Australian Bureau of Statistics |access-date=2020-03-09 |url-status=live |archive-url=https://web.archive.org/web/20190419010315/http://www.abs.gov.au/websitedbs/a3121120.nsf/home/statistical+language+-+what+are+data |archive-date=2019-04-19}}</ref>。
'''データ'''({{lang-en-short|data}})とは、<!--基礎的な--><!--応用的な事実や資料もデータだと思いますが-->[[事実]]や[[資料]]をさす言葉。<!--[[情報処理]]や考察によって[[付加価値]]を与える前提で集められている。--><!--「データ」という語のどこにもそんな. は無い-->言語的には複数形であるため、厳密には複数の事象や数値の集まりのことを指し、単数形は datum(データム)である。


== 概 ==
== 概 ==
「データ」と「情報」は同じ意味で使われることが多いが、これらの用語には明確な意味がある。一般的な出版物では、データは文脈内において表示または分析するときに情報に変換される、と言われることがある<ref>{{Cite web |url=https://www.diffen.com/difference/Data_vs_Information |title=Data vs Information - Difference and Comparison {{!}} Diffen |website=www.diffen.com |language=en |access-date=2018-12-11}}</ref>。しかし、学術的な取り扱いでは、主題のデータは単なる情報の一群である。データの用途は、[[科学的方法|科学研究]]、経営管理(例: 販売、収益、利益、[[株価]])、[[金融]]、統治(例: {{Ill2|犯罪統計学|en|Crime statistics|label=犯罪率}}、[[失業率]]、[[識字率]])、および事実上あらゆる形態の人間の組織活動(例: [[NPO]]による[[ホームレス]]の数の調査)におよぶ。
伝達、解釈、処理などに適するように形式化、符号化されたもの、または再度情報として解釈できるものをいう。[[与件]]または[[所与]]ともいう。英語の「{{lang|en|data}}」「{{lang|en|datum}}」はラテン語・イタリア語の {{lang|la|dare}}(ダーレ、「与える」)を語源とする。中国語では「{{lang|zh|資料}}」(ツーリャオ)または「{{lang|zh|數據}}」(シューチー)ともいう。


一般に、データは意思決定の要素であり、推論、議論、計算の基礎として使用できる事実情報の最小単位である。データは、抽象的なアイデアから具体的な測定値、さらには統計に至るまで多岐にわたる。データは[[測定]]、収集、{{Ill2|データ報告|en|Data reporting|label=報告}}、[[データ解析|分析]]され、グラフ、表、画像などの[[データ視覚化]]のために用いられる。一般的な[[概念]]としてのデータは、既存の[[情報]]や[[知識]]が、より適切な用途や処理に適した形で[[知識表現|表現]]・[[符号|コード化]]されていることを指す。{{Ill2|生データ|en|Raw data}}(''raw data''、未処理データ)とは、研究者によって洗浄・修正される前の数値や文字の集まりのことである。[[外れ値]]や明らかな機器またはデータ入力のエラー(たとえば、北極圏の屋外に設置された温度計が熱帯の気温を記録している)を除去するためには、生データを修正する必要がある。データ処理は一般に、段階的に行われ、ある段階の「加工データ」は次の段階の「生データ」と見なされることがある。[[フィールドワーク|実地データ]](''field data'')とは、制御されていない現場の([[in situ|''in situ'']])環境で収集された生データである。{{Ill2|実験データ|en|Experimental data}}(''experimental data'')とは、[[科学]]的調査の活動内で、観察と記録によって生成されるデータである。
直面している問題の解決や、意思決定に役立つか否かという観点から、データと情報を区別する場合もある。その場合においてデータとは、情報を生みだすための素材のことを呼び、データのなかの問題解決に役立つ材料のみを情報とよぶ。データを受けとった人によって、さらにはその人の状況によって、データであるか情報であるかは変化することになる。


データは「{{Ill2|デジタル経済|en|Digital economy}}の新しい[[石油]]」と呼ばれている<ref>{{Cite magazine|last=Yonego|first=Joris Toonders|date=July 23, 2014|title=Data Is the New Oil of the Digital Economy|url=https://www.wired.com/insights/2014/07/data-new-oil-digital-economy/|magazine=Wired|via=www.wired.com}}</ref><ref>{{Cite web |url=https://spotlessdata.com/blog/data-new-oil |title=Data is the new oil |date=July 16, 2018 |archive-url=https://web.archive.org/web/20180716224058/https://spotlessdata.com/blog/data-new-oil |archive-date=2021-10-27 |accessdate=2022-04-03}}</ref>。
端的に言うと、意味のあるデータが「情報」である。


== 規格上の定義 ==
== 語源と用語 ==
英語で初めて「{{lang|en|data}}」という単語が使われたのは1640年代である。1946年に「データ」という言葉が「伝達可能で保存可能なコンピュータ情報」という意味で初めて使われた。「データ処理」(''data processing'')という表現が初めて使われたのは1954年である<ref name="EOL">{{Cite web |url=https://www.etymonline.com/word/data |title=data &#124; Origin and meaning of data by Online Etymology Dictionary |website=www.etymonline.com |accessdate=2022-04-03}}</ref>。

英語の「{{lang|en|data}}」は、「{{lang|en|datum}}」の複数形で、ラテン語・イタリア語の ''{{lang|la|dare}}''(ダーレ、「与える」)を語源とする<ref name="EOL" />。英語では、dataはこの意味で複数名詞として使われることがあり、特に20世紀や21世紀の多くでは、自然科学、生命科学、社会科学に携わる作家は ''datum'' を単数形で、 ''data'' を複数形で使っている(たとえば、[[APAスタイル]](第7版)ではまだ ''data'' は複数形が要求されている<ref>{{Cite book|author=American Psychological Association|section=6.11|title=Publication Manual of the American Psychological Association: the official guide to APA style|publisher=American Psychological Association|year=2020|isbn=9781433832161}}</ref>)。しかし、日常会話、[[ソフトウェア開発]]、[[コンピュータサイエンス]]の世界では、''data'' は不可算名詞として単数形で使われることがほとんどである(sand(砂)やrain(雨)のように)。[[ビッグデータ]](''big data'')という用語は単数形をとっている。

中国語では「{{lang|zh|資料}}」(ツーリャオ)または「{{lang|zh|數據}}」(シューチー)ともいう。

== 意味 ==
[[ファイル:Philosophical_Transactions_-_Volume_001.djvu|リンク=https://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:Philosophical_Transactions_-_Volume_001.djvu?page=60|ページ=60|右|サムネイル|[[アドリアン・オーズー]]の「対物レンズの開口数表。[[フィロソフィカル・トランザクションズ]]に掲載された論文(1665年)]]
{{See also|en:DIKW pyramid}}データ、[[情報]]、[[知識]]、[[知恵]]は密接に関連した概念であるが、それぞれに役割があり、それぞれの用語には意味がある。一般的な見方では、データは収集され、分析される。データは何らかの形で分析されて初めて意思決定を行うのに適した情報となる<ref>{{cite web |title=Joint Publication 2-0, Joint Intelligence |url=http://www.jcs.mil/Portals/36/Documents/Doctrine/pubs/jp2_0.pdf |work=Joint Chiefs of Staff, Joint Doctrine Publications |publisher=Department of Defense |access-date=July 17, 2018 |pages=I-1 |date=23 October 2013}}</ref>。つまり、あるデータ集合が誰かにとって有益であるかどうかは、その人がどの程度予期していたかによる。データストリームに含まれる情報量は、その[[シャノンエントロピー]]によって特徴付けられることがある。

知識とは、ある主題に関する情報を扱った、豊富な経験に基づく理解のことである。たとえば、[[エベレスト]]の高さは、一般にデータとみなされる。その高さは[[高度計]]で正確に測定し、データベースに入力することができる。このデータを、エベレストに関する他のデータと一緒に本に掲載することで、エベレストに登るための最適な方法を決めたい人に役立つように、山を説明することができる。エベレスト山頂に到達するための方法をアドバイスできるような登山経験に基づいた理解も「知識」と見なせるかもしれない。そして、この知識に基づいたエベレスト山頂への実際の登山は「知恵」と見ることができる。言い換えれば、知恵とは、人が持っている知識を、良い結果が得られるような状況で実践することである。このように知恵は、「データ」「情報」「知識」という抽象化された一連の概念を補完し、完結させるものである。

データは最も抽象度が低い概念で、情報はその次に抽象度が高く、知識は最も抽象的な概念とされることが多い<ref>{{cite web |author=Akash Mitra |year=2011 |title=Classifying data for successful modeling |url=https://dwbi.org/data-modelling/dimensional-model/16-classifying-data-for-successful-modeling |access-date=2017-11-05 |archive-date=2017-11-07 |archive-url=https://web.archive.org/web/20171107030817/https://dwbi.org/data-modelling/dimensional-model/16-classifying-data-for-successful-modeling |url-status=dead}}</ref>。この見方では、データは解釈を加えることによって情報に変わる。たとえば、エベレストの高さは一般に「データ」とされ、エベレストの地質学的特徴に関する書籍は「情報」とされ、エベレスト山頂に到達するための最適な方法に関する実用的な情報を含む登山ガイドブックは「知識」と見なされる。「情報」とは、日常的な使用から専門的な使用まで、さまざまな意味を持っている。しかし、こうした見方は、「データ」が「情報」が作られ、「情報」から「知識」が作られることを逆手に取った主張とも言える<ref>{{cite journal|last=Tuomi|first=Ilkka|date=2000|title=Data is more than knowledge|journal=Journal of Management Information Systems|volume=6|issue=3|pages=103–117|doi=10.1080/07421222.1999.11518258}}</ref>。一般的に言えば、情報という概念は、制約、コミュニケーション、制御、データ、形式、指示、知識、意味、精神的刺激、パターン、知覚、および表現の概念と密接に関係している。{{Ill2|バイノン・デイヴィス|en|Paul Beynon-Davies}}はデータと情報を区別するために[[記号]]の概念を用いている。データは一連の記号であるが、情報はその記号が何かを参照するために使われたときに生まれる<ref>{{cite book|author=P. Beynon-Davies|year=2002|title=Information Systems: An introduction to informatics in organisations|publisher=[[Palgrave Macmillan]]|location=Basingstoke, UK|isbn=0-333-96390-3}}</ref><ref>{{cite book|author=P. Beynon-Davies|year=2009|title=Business information systems|publisher=Palgrave|location=Basingstoke, UK|isbn=978-0-230-20368-6}}</ref>。

計算装置や機械が開発される以前は、人々は手作業でデータを収集し、それにパターンを当てはめる必要があった。しかし、計算装置や機械が発達し、これらのデバイスがデータを収集できるようになった。2010年代には、[[マーケティング]]や市民による[[社会福祉]]の利用状況の分析、科学研究に至るまで、さまざまな分野でデータを収集し、分類や加工するためにコンピュータが広く使われている。データ上におけるこうしたパターンは、知識を高めるための情報と見なされている。これらのパターンは「[[真理]]」として解釈されることもあり(ただし「真理」は主観的な概念となることもある)、一部の分野や文化では美的および倫理的基準として承認されることもある。知覚可能な物理的または仮想的な標識を残す出来事は、データを通して遡ることができる。標識と観察との間の関係が切れると、標識はもはやデータとはみなされなくなる<ref>{{cite book|author=Sharon Daniel|title=The Database: An Aesthetics of Dignity}}</ref>。

[[アナログ計算機]]は、データを電圧、距離、位置、または他の物理量として表現する。デジタルコンピュータは、固定された[[アルファベット]]から取った記号の並びとしてデータを表現する。最も一般的な[[デジタルコンピュータ]]は、二進数アルファベット、つまり、通常「0」と「1」で表される2文字のアルファベットを使用する。次に、数字や文字などの身近な表現は、この二進数アルファベットから構築される。データの中には特殊な形式もあって区別される。[[コンピュータプログラム]]はデータの集まりであり、命令として解釈することができる。ほとんどのコンピュータ言語では、プログラムと、プログラムが操作する他のデータとを区別しているが、[[LISP|Lisp]]やそれに類する言語では、プログラムは他のデータと本質的に区別できない。また、[[メタデータ]]、すなわち他のデータの説明も区別することも有用である。メタデータに類似した、以前の用語は、補助データ(ancillary data)である。メタデータの原型の例は、書籍の内容の説明である図書館目録である。

== データドキュメント ==
データを登録する必要がある場合は必ず、データドキュメント(''data documents'')という形式のデータが存在する。データドキュメントには次のような種類がある。

* {{Ill2|データライブラリ|en|Data library|label=データリポジトリ}}
* [[データスタディ]]
* [[データセット]]
* [[ソフトウェア]]
* {{Ill2|データ公開|en|Data publishing|label=データペーパー}}
* [[データベース]]
* [[データハンドブック]]
* {{Ill2|データ公開|en|Data publishing|label=データジャーナル}}

これらのデータドキュメントの一部(データリポジトリ、データスタディ、データセット、ソフトウェア)はデータ・[[サイテーションインデックス|サイテーション・インデックス]]に、データペーパーは従来の書誌データベース、たとえば[[サイエンス・サイテーション・インデックス]]に索引付けされている<ref>Schöpfel et al. 2020. "Data Documents". ''ISKO Encyclopedia of Knowledge Organization'' https://www.isko.org/cyclo/data_documents</ref>。

== データの収集と分析 ==
データの収集は、一次資料(研究者が最初にデータを入手する)または二次資料(科学雑誌で発表されたデータなど、他の資料によって既に収集されているデータを研究者が入手する)を通じて行うことができる。データ分析の方法論はさまざまで、データ・トライアンギュレーションやデータ・パーコレーションが含まれる<ref>Mesly, Olivier (2015). ''Creating Models in Psychological Research.'' États-Unis : Springer Psychology : 126 pages. {{ISBN|978-3-319-15752-8}}</ref>。前者は、研究の客観性を最大化し、調査対象の現象をできるだけ完全に理解するために、定性的および定量的方法、文献レビュー(学術論文を含む)、専門家へのインタビュー、コンピュータシミュレーションの5つの分析角度(少なくとも3つ)からデータを収集、分類、分析する方法を明確にしたものである。その後、後者は、最も関連性の高い情報を抽出するために、あらかじめ決められた一連のステップでデータを「浸透」させます。

== コンピューティング分野では ==
{{Main|データ (コンピュータ)}}

=== 規格上の定義 ===
[[国際標準化機構]]の「ISO/IEC 2382-1」および[[日本工業規格]]の「X0001 情報処理用語-基本用語」において、「データ」の用語定義は "A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing."「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの」とされている。
[[国際標準化機構]]の「ISO/IEC 2382-1」および[[日本工業規格]]の「X0001 情報処理用語-基本用語」において、「データ」の用語定義は "A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing."「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの」とされている。


== 電子データ ==
=== 電子データ ===
'''電子データ'''は、[[コンピュータネットワーク|コンピュータ]]内にあるか、コンピュータに取り込める形になったデータである。例えば、単なる印刷物上の文字データと区別して、[[文字コード]]に変換された文字データ、単なる印刷物上の画像データと区別して、[[ビットマップ]]データや[[JPEG]]方式の画像に変換された画像データなどをいう。コンピュータ内部の情報処理の場合は、わざわざ電子データと称することはほとんどない。
'''電子データ'''は、[[コンピュータネットワーク|コンピュータ]]内にあるか、コンピュータに取り込める形になったデータである。例えば、単なる印刷物上の文字データと区別して、[[文字コード]]に変換された文字データ、単なる印刷物上の画像データと区別して、[[ビットマップ]]データや[[JPEG]]方式の画像に変換された画像データなどをいう。コンピュータ内部の情報処理の場合は、わざわざ電子データと称することはほとんどない。


20行目: 59行目:
ネットワークを介して[[プロセッサ|CPU]]やハードディスクなどに流れ込む整理されているデータや整理されていないデータの幅広く性質の異なる変動性、速度、量で、企業はそれをビジネスアドバイスに変換する<ref>{{Cite book|title=Foundations of modern networking : SDN, NFV, QoE, IoT, and Cloud|url=https://www.worldcat.org/oclc/927715441|date=2016|location=Indianapolis, Indiana|isbn=978-0-13-417547-8|oclc=927715441|others=Florence Agboma, Sofiene Jelassi|first=William|last=Stallings}}</ref>。
ネットワークを介して[[プロセッサ|CPU]]やハードディスクなどに流れ込む整理されているデータや整理されていないデータの幅広く性質の異なる変動性、速度、量で、企業はそれをビジネスアドバイスに変換する<ref>{{Cite book|title=Foundations of modern networking : SDN, NFV, QoE, IoT, and Cloud|url=https://www.worldcat.org/oclc/927715441|date=2016|location=Indianapolis, Indiana|isbn=978-0-13-417547-8|oclc=927715441|others=Florence Agboma, Sofiene Jelassi|first=William|last=Stallings}}</ref>。


== 磁気データ ==
=== 磁気データ ===
'''磁気データ'''は、[[磁気記録]]されているデータである。[[磁気テープ]]、[[磁気ディスク]]などのコンピュータ用の媒体や、[[ビデオテープ]]、定期券などの[[磁気ストライプ]]に蓄えられる。近くに強力な磁石があると影響を受けて変化することがある。
'''磁気データ'''は、[[磁気記録]]されているデータである。[[磁気テープ]]、[[磁気ディスク]]などのコンピュータ用の媒体や、[[ビデオテープ]]、定期券などの[[磁気ストライプ]]に蓄えられる。近くに強力な磁石があると影響を受けて変化することがある。


== モデ ==
=== モデリング ===
データは、関連するものがひとまとまりにされ、整理されて保管されることが多い。これを[[データ保管]]とよぶ。そこで保管されたデータの集まりを''[[ファイル (コンピュータ)|ファイル]]''と呼ぶ。
データは、関連するものがひとまとまりにされ、整理されて保管されることが多い。これを[[データ保管]]とよぶ。そこで保管されたデータの集まりを''[[ファイル (コンピュータ)|ファイル]]''と呼ぶ。


30行目: 69行目:
処理の対象にされるデータの集合のことを、[[データベース]]とよぶ。
処理の対象にされるデータの集合のことを、[[データベース]]とよぶ。


== 処理系 ==
=== 処理系 ===
[[コンピュータ]]の場合には、データは[[プログラム (コンピュータ)|プログラム]]以外のものをさし、その形態は、文書、映像、音声など様々である。直接スイッチなどを使ってメモリ上に書き込む場合も有るが、大抵はプログラムによって出力され、他のプログラムなどで読み込み使われる。コンパイラなどの処理ではプログラムを[[インタプリタ]]や[[コンパイラ]]のデータとして扱う場合もある。またデータの中にプログラムを含むことも可能。[[x86]]などではプログラムとデータは同一のメモリー空間に配置され、設計者の意図によって区別される。
[[コンピュータ]]の場合には、データは[[プログラム (コンピュータ)|プログラム]]以外のものをさし、その形態は、文書、映像、音声など様々である。直接スイッチなどを使ってメモリ上に書き込む場合も有るが、大抵はプログラムによって出力され、他のプログラムなどで読み込み使われる。コンパイラなどの処理ではプログラムを[[インタプリタ]]や[[コンパイラ]]のデータとして扱う場合もある。またデータの中にプログラムを含むことも可能。[[x86]]などではプログラムとデータは同一のメモリー空間に配置され、設計者の意図によって区別される。


データは、[[レジストリ]]や[[ファイル (コンピュータ)|ファイル]]や[[データベース]]、などに収めることができる。
データは、[[レジストリ]]や[[ファイル (コンピュータ)|ファイル]]や[[データベース]]、などに収めることができる。

== 議論 ==
他の分野でもデータの活用が進んでいるが、その高度な説明的な性質は、データを「与えられたもの」とする倫理観と対立する可能性が指摘されている。{{Ill2|ピーター・チェックランド|en|Peter Checkland}}は、膨大な数の可能なデータと、注意を向けているそれらのサブセットを区別するために、''capta''(ラテン語の ''capere''、「取る」に由来)という用語を導入した<ref>{{cite book|author=P. Checkland and S. Holwell|title=Information, Systems, and Information Systems: Making Sense of the Field.|year=1998|publisher=John Wiley & Sons|location=Chichester, West Sussex|isbn=0-471-95820-4|pages=86–89}}</ref>。{{Ill2|ヨハンナ・ドラッカー|en|Johanna Drucker}}は、人文科学が知識の生産を「立場的、部分的、構成的」なものと断言している以上、''data'' を用いることは、たとえば現象が離散的であるとか観察者に依存しないといった逆効果となる憶説を広めかねないと論じている<ref>{{cite journal|author=Johanna Drucker|year=2011|title=Humanities Approaches to Graphical Display|url=http://www.digitalhumanities.org/dhq/vol/5/1/000091/000091.html|journal=Digital Humanities Quarterly|volume=005|issue=1}}</ref>。人文科学における視覚的表現のための ''data'' に代わるものとして、観察という行為を構成的なものとして強調する ''capta'' という用語が提案されている。


== 脚注 ==
== 脚注 ==
39行目: 81行目:


== 関連項目 ==
== 関連項目 ==

=== コンピューティング ===
*[[情報処理用語規格]]
*[[情報処理用語規格]]
*データの表現に関する項目
*データの表現に関する項目
54行目: 98行目:


== 外部リンク==
== 外部リンク==
* &ensp;[http://purl.org/nxg/note/singular-data Data is a singular noun (データは単数名詞)] - 詳細な評価{{En icon}}
&ensp;{{wiktionary-inline}}
{{Wiktionary}}
{{Commons category}}


{{Data}}
{{Statistics}}
{{Normdaten}}
{{Normdaten}}

{{DEFAULTSORT:てえた}}
{{DEFAULTSORT:てえた}}
[[Category:データ|*]]
[[Category:データ|*]]

2022年4月4日 (月) 21:18時点における版

データ: data)とは、個々の事実統計、または情報の項目である[1]。より厳密には、データとは1人または複数の人や物や事象に関する定性的 (en:英語版または定量的 (en:英語版な値の集まりである[1]。単数形のデータム: datum)は、ある変数の単一の値である[2]

概要

「データ」と「情報」は同じ意味で使われることが多いが、これらの用語には明確な意味がある。一般的な出版物では、データは文脈内において表示または分析するときに情報に変換される、と言われることがある[3]。しかし、学術的な取り扱いでは、主題のデータは単なる情報の一群である。データの用途は、科学研究、経営管理(例: 販売、収益、利益、株価)、金融、統治(例: 犯罪率英語版失業率識字率)、および事実上あらゆる形態の人間の組織活動(例: NPOによるホームレスの数の調査)におよぶ。

一般に、データは意思決定の要素であり、推論、議論、計算の基礎として使用できる事実情報の最小単位である。データは、抽象的なアイデアから具体的な測定値、さらには統計に至るまで多岐にわたる。データは測定、収集、報告英語版分析され、グラフ、表、画像などのデータ視覚化のために用いられる。一般的な概念としてのデータは、既存の情報知識が、より適切な用途や処理に適した形で表現コード化されていることを指す。生データ英語版raw data、未処理データ)とは、研究者によって洗浄・修正される前の数値や文字の集まりのことである。外れ値や明らかな機器またはデータ入力のエラー(たとえば、北極圏の屋外に設置された温度計が熱帯の気温を記録している)を除去するためには、生データを修正する必要がある。データ処理は一般に、段階的に行われ、ある段階の「加工データ」は次の段階の「生データ」と見なされることがある。実地データfield data)とは、制御されていない現場の(in situ)環境で収集された生データである。実験データ英語版experimental data)とは、科学的調査の活動内で、観察と記録によって生成されるデータである。

データは「デジタル経済英語版の新しい石油」と呼ばれている[4][5]

語源と用語

英語で初めて「data」という単語が使われたのは1640年代である。1946年に「データ」という言葉が「伝達可能で保存可能なコンピュータ情報」という意味で初めて使われた。「データ処理」(data processing)という表現が初めて使われたのは1954年である[6]

英語の「data」は、「datum」の複数形で、ラテン語・イタリア語の dare(ダーレ、「与える」)を語源とする[6]。英語では、dataはこの意味で複数名詞として使われることがあり、特に20世紀や21世紀の多くでは、自然科学、生命科学、社会科学に携わる作家は datum を単数形で、 data を複数形で使っている(たとえば、APAスタイル(第7版)ではまだ data は複数形が要求されている[7])。しかし、日常会話、ソフトウェア開発コンピュータサイエンスの世界では、data は不可算名詞として単数形で使われることがほとんどである(sand(砂)やrain(雨)のように)。ビッグデータbig data)という用語は単数形をとっている。

中国語では「資料」(ツーリャオ)または「數據」(シューチー)ともいう。

意味

アドリアン・オーズーの「対物レンズの開口数表。フィロソフィカル・トランザクションズに掲載された論文(1665年)

データ、情報知識知恵は密接に関連した概念であるが、それぞれに役割があり、それぞれの用語には意味がある。一般的な見方では、データは収集され、分析される。データは何らかの形で分析されて初めて意思決定を行うのに適した情報となる[8]。つまり、あるデータ集合が誰かにとって有益であるかどうかは、その人がどの程度予期していたかによる。データストリームに含まれる情報量は、そのシャノンエントロピーによって特徴付けられることがある。

知識とは、ある主題に関する情報を扱った、豊富な経験に基づく理解のことである。たとえば、エベレストの高さは、一般にデータとみなされる。その高さは高度計で正確に測定し、データベースに入力することができる。このデータを、エベレストに関する他のデータと一緒に本に掲載することで、エベレストに登るための最適な方法を決めたい人に役立つように、山を説明することができる。エベレスト山頂に到達するための方法をアドバイスできるような登山経験に基づいた理解も「知識」と見なせるかもしれない。そして、この知識に基づいたエベレスト山頂への実際の登山は「知恵」と見ることができる。言い換えれば、知恵とは、人が持っている知識を、良い結果が得られるような状況で実践することである。このように知恵は、「データ」「情報」「知識」という抽象化された一連の概念を補完し、完結させるものである。

データは最も抽象度が低い概念で、情報はその次に抽象度が高く、知識は最も抽象的な概念とされることが多い[9]。この見方では、データは解釈を加えることによって情報に変わる。たとえば、エベレストの高さは一般に「データ」とされ、エベレストの地質学的特徴に関する書籍は「情報」とされ、エベレスト山頂に到達するための最適な方法に関する実用的な情報を含む登山ガイドブックは「知識」と見なされる。「情報」とは、日常的な使用から専門的な使用まで、さまざまな意味を持っている。しかし、こうした見方は、「データ」が「情報」が作られ、「情報」から「知識」が作られることを逆手に取った主張とも言える[10]。一般的に言えば、情報という概念は、制約、コミュニケーション、制御、データ、形式、指示、知識、意味、精神的刺激、パターン、知覚、および表現の概念と密接に関係している。バイノン・デイヴィス英語版はデータと情報を区別するために記号の概念を用いている。データは一連の記号であるが、情報はその記号が何かを参照するために使われたときに生まれる[11][12]

計算装置や機械が開発される以前は、人々は手作業でデータを収集し、それにパターンを当てはめる必要があった。しかし、計算装置や機械が発達し、これらのデバイスがデータを収集できるようになった。2010年代には、マーケティングや市民による社会福祉の利用状況の分析、科学研究に至るまで、さまざまな分野でデータを収集し、分類や加工するためにコンピュータが広く使われている。データ上におけるこうしたパターンは、知識を高めるための情報と見なされている。これらのパターンは「真理」として解釈されることもあり(ただし「真理」は主観的な概念となることもある)、一部の分野や文化では美的および倫理的基準として承認されることもある。知覚可能な物理的または仮想的な標識を残す出来事は、データを通して遡ることができる。標識と観察との間の関係が切れると、標識はもはやデータとはみなされなくなる[13]

アナログ計算機は、データを電圧、距離、位置、または他の物理量として表現する。デジタルコンピュータは、固定されたアルファベットから取った記号の並びとしてデータを表現する。最も一般的なデジタルコンピュータは、二進数アルファベット、つまり、通常「0」と「1」で表される2文字のアルファベットを使用する。次に、数字や文字などの身近な表現は、この二進数アルファベットから構築される。データの中には特殊な形式もあって区別される。コンピュータプログラムはデータの集まりであり、命令として解釈することができる。ほとんどのコンピュータ言語では、プログラムと、プログラムが操作する他のデータとを区別しているが、Lispやそれに類する言語では、プログラムは他のデータと本質的に区別できない。また、メタデータ、すなわち他のデータの説明も区別することも有用である。メタデータに類似した、以前の用語は、補助データ(ancillary data)である。メタデータの原型の例は、書籍の内容の説明である図書館目録である。

データドキュメント

データを登録する必要がある場合は必ず、データドキュメント(data documents)という形式のデータが存在する。データドキュメントには次のような種類がある。

これらのデータドキュメントの一部(データリポジトリ、データスタディ、データセット、ソフトウェア)はデータ・サイテーション・インデックスに、データペーパーは従来の書誌データベース、たとえばサイエンス・サイテーション・インデックスに索引付けされている[14]

データの収集と分析

データの収集は、一次資料(研究者が最初にデータを入手する)または二次資料(科学雑誌で発表されたデータなど、他の資料によって既に収集されているデータを研究者が入手する)を通じて行うことができる。データ分析の方法論はさまざまで、データ・トライアンギュレーションやデータ・パーコレーションが含まれる[15]。前者は、研究の客観性を最大化し、調査対象の現象をできるだけ完全に理解するために、定性的および定量的方法、文献レビュー(学術論文を含む)、専門家へのインタビュー、コンピュータシミュレーションの5つの分析角度(少なくとも3つ)からデータを収集、分類、分析する方法を明確にしたものである。その後、後者は、最も関連性の高い情報を抽出するために、あらかじめ決められた一連のステップでデータを「浸透」させます。

コンピューティング分野では

規格上の定義

国際標準化機構の「ISO/IEC 2382-1」および日本工業規格の「X0001 情報処理用語-基本用語」において、「データ」の用語定義は "A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing."「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの」とされている。

電子データ

電子データは、コンピュータ内にあるか、コンピュータに取り込める形になったデータである。例えば、単なる印刷物上の文字データと区別して、文字コードに変換された文字データ、単なる印刷物上の画像データと区別して、ビットマップデータやJPEG方式の画像に変換された画像データなどをいう。コンピュータ内部の情報処理の場合は、わざわざ電子データと称することはほとんどない。

日本では刑法条文などで用いられている法律用語の「電磁的記録」は電子データおよび磁気データとほぼ同じ意味である。

ネットワークを介してCPUやハードディスクなどに流れ込む整理されているデータや整理されていないデータの幅広く性質の異なる変動性、速度、量で、企業はそれをビジネスアドバイスに変換する[16]

磁気データ

磁気データは、磁気記録されているデータである。磁気テープ磁気ディスクなどのコンピュータ用の媒体や、ビデオテープ、定期券などの磁気ストライプに蓄えられる。近くに強力な磁石があると影響を受けて変化することがある。

モデリング

データは、関連するものがひとまとまりにされ、整理されて保管されることが多い。これをデータ保管とよぶ。そこで保管されたデータの集まりをファイルと呼ぶ。

データの流れは、データフローと呼ばれ、データフローダイアグラムなどを用いて記述される。

処理の対象にされるデータの集合のことを、データベースとよぶ。

処理系

コンピュータの場合には、データはプログラム以外のものをさし、その形態は、文書、映像、音声など様々である。直接スイッチなどを使ってメモリ上に書き込む場合も有るが、大抵はプログラムによって出力され、他のプログラムなどで読み込み使われる。コンパイラなどの処理ではプログラムをインタプリタコンパイラのデータとして扱う場合もある。またデータの中にプログラムを含むことも可能。x86などではプログラムとデータは同一のメモリー空間に配置され、設計者の意図によって区別される。

データは、レジストリファイルデータベース、などに収めることができる。

議論

他の分野でもデータの活用が進んでいるが、その高度な説明的な性質は、データを「与えられたもの」とする倫理観と対立する可能性が指摘されている。ピーター・チェックランド英語版は、膨大な数の可能なデータと、注意を向けているそれらのサブセットを区別するために、capta(ラテン語の capere、「取る」に由来)という用語を導入した[17]ヨハンナ・ドラッカー英語版は、人文科学が知識の生産を「立場的、部分的、構成的」なものと断言している以上、data を用いることは、たとえば現象が離散的であるとか観察者に依存しないといった逆効果となる憶説を広めかねないと論じている[18]。人文科学における視覚的表現のための data に代わるものとして、観察という行為を構成的なものとして強調する capta という用語が提案されている。

脚注

  1. ^ a b OECD Glossary of Statistical Terms. OECD. (2008). p. 119. ISBN 978-92-64-025561 
  2. ^ Statistical Language - What are Data?”. Australian Bureau of Statistics (2013年7月13日). 2019年4月19日時点のオリジナルよりアーカイブ。2020年3月9日閲覧。
  3. ^ Data vs Information - Difference and Comparison | Diffen” (英語). www.diffen.com. 2018年12月11日閲覧。
  4. ^ Yonego, Joris Toonders (July 23, 2014). “Data Is the New Oil of the Digital Economy”. Wired. https://www.wired.com/insights/2014/07/data-new-oil-digital-economy/. 
  5. ^ Data is the new oil” (2018年7月16日). 2021年10月27日時点のオリジナルよりアーカイブ。2022年4月3日閲覧。
  6. ^ a b data | Origin and meaning of data by Online Etymology Dictionary”. www.etymonline.com. 2022年4月3日閲覧。
  7. ^ American Psychological Association (2020). “6.11”. Publication Manual of the American Psychological Association: the official guide to APA style. American Psychological Association. ISBN 9781433832161 
  8. ^ Joint Publication 2-0, Joint Intelligence”. Joint Chiefs of Staff, Joint Doctrine Publications. Department of Defense. pp. I-1 (2013年10月23日). 2018年7月17日閲覧。
  9. ^ Akash Mitra (2011年). “Classifying data for successful modeling”. 2017年11月7日時点のオリジナルよりアーカイブ。2017年11月5日閲覧。
  10. ^ Tuomi, Ilkka (2000). “Data is more than knowledge”. Journal of Management Information Systems 6 (3): 103–117. doi:10.1080/07421222.1999.11518258. 
  11. ^ P. Beynon-Davies (2002). Information Systems: An introduction to informatics in organisations. Basingstoke, UK: Palgrave Macmillan. ISBN 0-333-96390-3 
  12. ^ P. Beynon-Davies (2009). Business information systems. Basingstoke, UK: Palgrave. ISBN 978-0-230-20368-6 
  13. ^ Sharon Daniel. The Database: An Aesthetics of Dignity 
  14. ^ Schöpfel et al. 2020. "Data Documents". ISKO Encyclopedia of Knowledge Organization https://www.isko.org/cyclo/data_documents
  15. ^ Mesly, Olivier (2015). Creating Models in Psychological Research. États-Unis : Springer Psychology  : 126 pages. ISBN 978-3-319-15752-8
  16. ^ Stallings, William (2016). Foundations of modern networking : SDN, NFV, QoE, IoT, and Cloud. Florence Agboma, Sofiene Jelassi. Indianapolis, Indiana. ISBN 978-0-13-417547-8. OCLC 927715441. https://www.worldcat.org/oclc/927715441 
  17. ^ P. Checkland and S. Holwell (1998). Information, Systems, and Information Systems: Making Sense of the Field.. Chichester, West Sussex: John Wiley & Sons. pp. 86–89. ISBN 0-471-95820-4 
  18. ^ Johanna Drucker (2011). “Humanities Approaches to Graphical Display”. Digital Humanities Quarterly 005 (1). http://www.digitalhumanities.org/dhq/vol/5/1/000091/000091.html. 

関連項目

コンピューティング

外部リンク