箱ヒゲ図と幹葉図
箱ヒゲ図(box-and -wisker plots)とは、データの分布(中央値、百分位、度数分布)をわかりやすく視覚化したもので、幹葉図(stem and leaf display)とは、度数分布の棒グラフを数字で描く方法です。いずれも米国の統計学者J.W.Tukeyが提唱したEDA(=explaoratory data analysis=探索的データ解析)に含まれるものです#1。通常のアンケート調査で作成することはあまりありませんが、このような方法もあるということを知っておくだけでも便利と思います。
こちらは箱ヒゲ図のサンプルです。
これはある製品を10 point評価したもので、データ中央の50%は4ptから7ptに分布していことがわかり、中央値は5ptです。50%内の分布は4-5ptに比較的偏っていることがわかります。また、下のヒストグラムと比較すれば視覚化において見やすいことがわかると思います。(画像クリックで拡大)
この箱ヒゲ図はSPSSのBase(基本ソフト)でも簡単に作成できますが、Excelでも以下の方法で作成すればそれなりの見た目の箱ヒゲ図が作成できます。
Y列は作図のための定数です。(好みによって適宜変更できます)X列には該当データの以下の方法で算出した値を挿入します。
=MIN(A1:A100)→最小値
=PERCENTILE(A1:A100,0.25)→25th %
=MEDIAN(A1:A100)→中央値
=PERCENTILE(A1:A100,0.75)→75th %
=MAX(A1:A100)最大値
X,Y列を範囲選択して挿入→グラフ→散布図(データポイントを折れ線でつないだマーカーなしの散布図)作成で見た目を編集すれば出来上がりです。
箱ヒゲ図はグループ間で相対的にデータの分布を比較したいときに特に便利です。上記のExcelの方法ではX,Y列に比較したいデータの統計値を追加していきます。Y列の定数は+8に設定すると見やすいです。こんな感じです。色付きのひし形マークは平均値を参考に追加プロットしたものです。(画像クリックで拡大)
製品AとBでは中央値が同じ6ptですが、中央50%のデータの分布が異なるのがよくわかると思います。
幹葉図についてもSPSSを使えば簡単に作成できますが、イメージとしては、
2 | 00113345556669
3 | 111222233
4 | 00000044499
5 | 112223
これは、年齢データの十の位を|の左に、一の位を|の右に頻度通りに並べたものです。10歳代刻みの出現頻度と個別年齢の出現頻度が一目瞭然です(20代が最も多いが個別には40才が6件と最も多い)。
#1:マーケティング・リサーチ辞典(日本マーケティング・リサーチ協会編)より