バイオリン図

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索
バイオリン図の例
PLOS Pathogensでのバイオリン図の例

バイオリン図は数値データを描画する手法の一つであり、箱ひげ図の両脇に90度回転させたカーネル密度グラフを付加したものに近い[1]。バイオリン図は 箱ひげ図 に似ているが、異なる値のデータに確率密度を表示する点で異なっている。確率密度は、最も単純な場合にヒストグラムとなる。一般にバイオリン図には、箱ひげ図同様、データの中央値を示すマークと四分位範囲を示す箱も描かれる。この箱ひげ図に重ねて描画されるのはカーネル密度推定である。箱ひげ図のようにバイオリン図は複数のカテゴリ間での変数分布の比較に用いられる。例えば日中と夜間の温度分布の比較や、複数の製造業者での車両価格の分布などである。

バイオリン図には箱ひげ図よりも多くの情報が含まれる。箱ひげ図には平均/中央値と四分位範囲という要約統計量のみが含まれるのに対し、バイオリンプロットにはすべての分布データが含まれる。これはデータ分布がmultimodal(複数のピークがある)場合に特に有用である。このような場合、バイオリン図では複数のピークの位置と大きさが明確に表現されるが、これは箱ひげ図では表現されない。バイオリン図の内部には平均(または中央値)と四分位範囲が描かれる。特にサンプル数があまり多くない場合には、すべてのサンプルデータが点や線として描かれる場合もある。

箱ひげ図よりも多くの情報が含まれるものの、バイオリン図はよりマイナーである点が欠点である。知名度が低いため、バイオリン図を知らない人にとっては意味が理解しづらい。このような場合、より分かりやすい代替図としてはヒストグラムを複数描画するか、カーネル密度を描画することが考えられる。

バイオリン図は多くのソフトウェアパッケージで拡張機能として利用することができる。例えばR言語ではライブラリの vioplot, wvioplot, caroline, UsingR, lattice, ggplot2、Stataではアドオンコマンドの vioplot[2]Pythonではmatplotlib[3],Plotly[4],Seaborn[5]などがある。

参考文献[編集]

  1. ^ VIOLIN PLOT”. NIST DataPlot. National Institute of Standards and Technology (2015年10月13日). 2017年11月11日閲覧。
  2. ^ Hintze, Jerry L.; Nelson, Ray D. (1998). “Violin Plots: A Box Plot-Density Trace Synergism”. The American Statistician 52 (2): 181–4. doi:10.1080/00031305.1998.10480559. http://search.proquest.com/openview/dcd68eb137d2d6b08aa23f37e34e0b01/1?pq-origsite=gscholar. 
  3. ^ violin plots”. What's new in matplotlib. 2017年11月11日閲覧。
  4. ^ Violin Plots in Python”. Plotly Python API Library Reference. 2017年11月11日閲覧。
  5. ^ Waskom, Michael. “Violinplot from a wide-form dataset”. Seaborn: statistical data visualization. 2017年11月11日閲覧。

外部リンク[編集]

 この記事にはアメリカ国立標準技術研究所が作成したアメリカ合衆国政府の著作物である文書"Dataplot reference manual: Violin plot"本文を含む。