k-匿名性(ケーとくめいせい)は、匿名化されたデータのもつ特性の1つである。k-匿名性の概念が最初に登場したのはラタニア・スウィーニー英語版Pierangela Samarati英語版1998年に発表した論文中で[1]、「個人の特徴をフィールド構造にしたデータが与えられたとき、実用性を残しつつそのデータの個人が再特定されないという科学的な証明が与えられた公開データを作成する」という問題を解決する試みにおいてである[2][3][4]個人情報が含まれている公開データの情報で少なくともk-1人を区別することができないとき、公開データはk-匿名性をもつという。k-匿名性を満たす匿名データを作成するための様々な手法やプログラム米国において特許を得ている(Patent 7,269,578)[5]





識別子 準識別子 センシティブ属性
名前 年齢 性別 居住地 宗教 病気
伊藤 29 静岡県浜松市 神道 ガン
黒田 24 愛知県豊田市 無宗教 ウイルス感染症
山本 28 静岡県浜松市 仏教 ガン
高橋 27 岐阜県各務原市 仏教 結核
加藤 24 愛知県名古屋市 キリスト教 心血管疾患
田中 23 岐阜県大垣市 仏教 結核
斎藤 19 愛知県春日井市 無宗教 ガン
岡田 29 岐阜県岐阜市 無宗教 心血管疾患
17 愛知県名古屋市 無宗教 心血管疾患
鈴木 19 愛知県名古屋市 仏教 ウイルス感染症


  1. 抑制: この処理では、ある属性の一定の値をアスタリスク「*」で置換する。その列の全てないし一部の値が「*」に置換される。下の匿名化した表においては、「名前」のすべての値と「宗教」のすべての値を「*」で置換した。
  2. 一般化: この処理では、個々の属性値を広い範囲に置換する。たとえば、年齢の「19歳」は「10代」に、「23歳」は「20代」にといった具合である。


識別子 準識別子 センシティブ属性
名前 年齢 性別 居住県 宗教 病気
* 20代 静岡県 * ガン
* 20代 愛知県 * ウイルス感染症
* 20代 静岡県 * ガン
* 20代 岐阜県 * 結核
* 20代 愛知県 * 心血管疾患
* 20代 岐阜県 * 結核
* 10代 愛知県 * ガン
* 20代 岐阜県 * 心血管疾患
* 10代 愛知県 * 心血管疾患
* 10代 愛知県 * ウイルス感染症


識別子 準識別子 センシティブ属性
同値類 名前 年齢 性別 居住県 宗教 病気
A * 20代 静岡県 * ガン
* 20代 静岡県 * ガン
B * 20代 愛知県 * ウイルス感染症
* 20代 愛知県 * 心血管疾患
C * 20代 岐阜県 * 結核
* 20代 岐阜県 * 結核
* 20代 岐阜県 * 心血管疾患
D * 10代 愛知県 * ガン
* 10代 愛知県 * 心血管疾患
* 10代 愛知県 * ウイルス感染症


MeyersonとWilliamsは2004年に最適なk-匿名化はNP困難な問題であることを示したが、2005年にBayardo、Agrawalにより示されたk-最適化のようなヒューリスティックな解法はしばしば良い結果を生み出す[7][8]。 概ねO(log k)の計算量であるという証明のある、k-匿名化問題を解くことができる実用的な近似アルゴリズムがKenigとTassaによって示された[9]




k-匿名化は高次元のデータの匿名化には良い方法ではない[10]。例として、4つの時空間点があれば携帯電話の単一性(, k-匿名性 のとき)は95%の割合で満たされるということが示されている[11]

k-匿名性は不釣合な抑制やそのデータを代表するものではないものによる一般化により、データの結果を歪めることもある [12]k-匿名化における抑制や一般化のアルゴリズムを改めることで、こういった歪曲を避けられる[13]











