データ保存
データ保存(データほぞん)とは、データの安全性と完全性を保全・維持する活動のことである。保存活動は、データおよびそのメタデータの存在と真正性を保護し持続させることを目的とした方針・規制・戦略が組織的に整えられることで展開されていく[1]。データとは知識や情報が生み出される際の要素ないし単位であり[2]、メタデータとはデータの諸要素を要約した部分集合、あるいはデータについてのデータである[3]。データ保存の主な目的は、データを紛失や破壊から守り、データの再利用と充実化を促すことにある。
歴史
[編集]長い年月をかけて収集された歴史的データのほとんどは、失われるか破壊されてきたのが実態である。戦争や自然災害が発生したり、データを保存・保護するための資材が欠如していたり、必要な対応が施されていなかったりなど、さまざまな要因が入り混じってそのような事態が引き起こされてきた。おおむね、政府の記録・統計、法律上の契約や経済的取引に関わる文書類など、もっとも重要な類のデータセットだけが意図的に残されてきたといえる。科学研究や学位論文のデータについては、管理の不十分さやデータ保存に対する認識の低さから、そのほとんどが失われてきた[4]。だが現代では、データ保存の重要性に対する意識が高まりを見せている。データを保存するうえではさまざまな方法があり、そうした取り組みを行う重要な組織も多数存在している。
デジタルデータの保存用ストレージ製品が最初に登場したのは1950年代で、基本はフラットないし階層構造のものであった[5]。こうした製品には諸々の問題が残っていたが、それまでと比べてデータの保管コストがはるかに安価になり、アクセスも容易になった。1970年代には、関係データベースとスプレッドシートが現れる。関係データベースは構造化された問い合わせ言語を使ってデータを表形式で構造化するもので、以前の種類のストレージよりも効率的であった。スプレッドシートでは大量の数値データを保持し、関係データベースに適用して派生データを生成することができる。さらに近年では、関係データベースを補完するものとして、非構造化ないし半構造化データを大量に保持する非関係データベース(非構造化クエリ言語)が出てきた[4]。
重要性
[編集]データ保存の範囲は広い。政府や企業の記録からアート作品に至るまで、本質的にあらゆるものがデータとして表現され、失われる可能性がある。それは、人類の歴史を永久に失うことにつながる。
データの損失は、個人的なもの、仕事上のもの、組織内でのものなど、小規模な範囲ないし独立した文脈で生じるだけでなく、環境保護、医学研究、国家安全保障、公衆衛生、経済開発[6]、文化などに良い意味からも悪い意味からも永続的な影響を与えかねないような、大規模な範囲で、あるいは国内規模や国際規模で生じることもある。データ消失が生じる要因もまた、災害、戦争、データ漏えい、過失など、単純な亡失から自然劣化に至るまで多種多様である。
たとえば自然災害、天然資源、景観に関するデータコレクションを保管している米国地質調査所を見ると、データコレクションを適切に保存・保管することでどのようにそれらを活用できるかが分かる。同調査所が収集したデータは連邦・州政府の土地管理機関により土地利用の計画・管理目的で利用されているとともに、それら過去データは継続的に参照されている[6]。
関連する概念
[編集]英語の data holding (データ保有) という概念は、インフォーマルな形で保管されているデータのコレクションを指し、必ずしも長期保存が目的とならない。たとえば、個人用ファイルのコレクションやバックアップデータが該当する。この「データ保有」は一般的に、これまで天災・人災のせいでデータが失われた際に用いられてきた管理手法とされる[4]。
データリテンションという概念もデータ保存とは区別される[7]。というのも、リテンション(保持)ということばは本来、対象物(ここではデータ)を持ち続ける、もしくは使い続けることを意味するためである。一方、保存は、将来利用するために対象物を保護・維持管理・確保することを意味する[8]。リテンション方針では、データを意図的に削除すべき、公開アクセスを制限すべきタイミングについても言及されることが多いが、保存方針では、永続性とアクセス可能性の担保が重視される。
したがってデータ保存とは、データやそのバックアップコピーをもつ、あるいは所有するという概念を超えるものである。データ保存は、災害の発生や技術の変化という事象に先立ち、バックアップやリカバリの仕組みを含め、データへ確実にアクセスできることを保証する取り組みである[9]。
手法
[編集]デジタル
[編集]デジタル保存は、データ保存と似ているが、主に技術的な脅威、さらにいうとデジタルデータのみに関心が向けられる。基本的にデジタル保存とは、技術的な故障や変化が生じても、継続的ないし永続的に、デジタルデータを利用できるようにするための、かつ、それらデータへアクセスできるようにするための一連の活動のことをいう[10]。デジタル保存の文脈では、技術やプロトコルに変化が生じるのは避けられないことが前提とされ、対象となるデータとメタデータの完全性を担保しつつ、新しい種類の技術やプラットフォームでもデータへアクセスできるような対策がとられる[4]。
技術は、過去には不可能だったかもしれないデータを保存する手段を実現させてくれるが、あまりにも速いスピードで変化していることから、新しいソフトウェアとの互換性が失われ、デジタルデータにアクセスできなくなってしまう可能性が一方である。データ保存を行わなければ、既存のデジタルデータの多くが危険にさらされてしまう[9]。
データ保存のために用いられる手法の大半はこのようなデジタル形式のものになっており、現状、もっとも効果的な手法とされる。
アーカイブズ
[編集]アーカイブズとは歴史的な文書・記録の集合である。アーカイブズは、データを適切に組織化し、その内容を裏付けるメタデータを付与することにより、データ保存の実現に寄与している[11]。
重要なデータアーカイブズの例として、臨床試験・研究に関するデータを集めたアーカイブズである LONI Image Data Archive があげられる[12]。
目録、ディレクトリ、ポータル
[編集]目録、ディレクトリ、ポータルは個々の機関が保持する、かつアーカイブデータや保有データと関連する、集約された諸資源のことをいう[4]。いいかえると、この場合のデータはメタデータやそれらの集合体であるアグリゲータとしての役割を果たすもので、網羅的に棚卸された一覧リストとして機能しうる[13]。
リポジトリ
[編集]リポジトリとは、アーカイブデータや保有データが保管され、それらにアクセスできる場所のことである。アーカイブデータや保有データに関する要件・規約がすべて満たされていることとともに、データの完全性が担保され、利用者からも信頼をえられるように、データが確かなものと認証されていることが、リポジトリの目標となる[4]。
単一拠点のリポジトリ
すべてのデータセットを単一拠点で保有するリポジトリのこと[4]。
単一拠点のリポジトリの例としては、デジタル研究資源への継続的なアクセス機会を提供しているオランダのリポジトリ Data Archiving and Networking Services (DANS) があげられる[14]。
複数拠点のリポジトリ
データセットを複数拠点で保有するリポジトリのこと[4]。
複数拠点のリポジトリとしてよく知られた例として、OpenAIRE があげられる。これは、EU諸国ほかが協力して研究データおよび刊行物を保有するリポジトリである。OpenAIRE はオープンな学術研究活動を推進し、データの発見可能性および再利用可能性を向上させることを目的に事業展開している[15]。
信頼に足るデジタルリポジトリ
アクセス機会を確実に信頼できる形で長期保証することを目指すリポジトリのこと。そうしたリポジトリは単一拠点のものでも複数拠点のものでもありうるが、Open Archival Information System 参照モデルに準拠するとともに[16]、信頼性の向上につながるため、一連の規則を遵守ないし要件(長期的な財政力、組織としての対応力、管理責任力、セキュリティ・安全性の確保など)を維持できなければならない[4]。
信頼に足るデジタルリポジトリの例としては、アイルランドの人文・社会科学系データセットを保有するアイルランド デジタルリポジトリ (Digital Repository of Ireland) があげられる[17]。
サイバーインフラ
[編集]サイバーインフラとは、アーカイブコレクションで構成され、ハードウェア、各種技術、ソフトウェア、方針、サービス、ツールなどのシステムを通じて利用可能となる基盤のこと。そうしたサイバーインフラは、データの共有を促すように設計される[3]。
主要なサイバーインフラの例として、カナダの地理空間データへのアクセス機会を提供している カナダ地理空間データインフラ (Canadian Geo-spatial Data Infrastructure) があげられる[18]。
関連項目
[編集]脚注
[編集]- ^ “Dictionary Definitions”. InterPARES 2 Terminology Database. InterPARES2 (2013年). 21 October 2013閲覧。
- ^ Kitchin, R (2012). “Conceptualizing Data”. The Data Revolution (London: Sage): 1–26.
- ^ a b Cyberinfrastructure Council (2007年). “Cyberinfrastructure vision for 21st century discovery”. Washington DC: National Science Foundation. 2024年4月9日閲覧。
- ^ a b c d e f g h i Kitchin, R (2012). “Small Data, Data Infrastructures and Data Brokers”. The Data Revolution (London: Sage): 27–47.
- ^ Driscoll, K (2012). “From punched cards to "big data": a social history of database populism”. Communication +1 1 (4) 22 February 2013閲覧。.
- ^ a b Pierce, F.; Steinmetz, J.; Dickinson, T.; McHugh, J. (2010). The importance of data preservation. The Geological Society of America. オリジナルの2017-12-01時点におけるアーカイブ。 2017年11月29日閲覧。.
- ^ (2017) Retain [Definition]. Marriam-Webster. Retrieved From: https://www.merriam-webster.com/dictionary/retain
- ^ (2107) Preserve [Definition]. Marriam-Webster. Retrieved From: https://www.merriam-webster.com/dictionary/preserve
- ^ a b Corrado, E.; Sandy, M. (2014). Digital Preservation for Libraries, Archives, and Museums. Chapter 1. Rowman & Littlefield Publishers. pp. 3–16.
- ^ “Data Preservation”. International Federation of Data Organizations for Social Science. (2012). オリジナルの2017-12-01時点におけるアーカイブ。 2017年11月28日閲覧。.
- ^ Lauriault, T. P.; Hackett, Y; Kennedy, E (2013). Geo-spatial Data Preservation Primer. Ottawa: Hickling, Aurthurs and Low
- ^ “About Us”. LONI Image and Data Archive (2017年). 11 April 2024閲覧。
- ^ O'Carroll, A.; Collins, S.; Gallgher, D.; Tang, J.; Webb, S (2013). Caring for the Digital Content, Mapping International Approaches. Dublin: NUI Maynooth, Trinity College Dublin, Royal Irish Academy and Digital Repository of Ireland
- ^ “About DANS”. Data Archiving and Networked Services (2016年). 11 April 2024閲覧。
- ^ “Project Factsheets”. OpenAIRE (2017年). 11 April 2024閲覧。
- ^ “The OAIS reference model”. www.oclc.org. 2013年12月13日時点のオリジナルよりアーカイブ。11 April 2024閲覧。
- ^ “About DRI”. Digital Repository of Ireland (2014–2015). 11 April 2024閲覧。
- ^ “Canada's Spatial Data Infrastructure”. Government of Canada (2017年). 11 April 2024閲覧。