BDAstyle

Business Data Analysis & Visualization with Excel

ヒストグラム付き散布図の作成 with Excel

Step 0はじめに

念のため,この頁にいう「ヒストグラム付きの散布図」は,外形的には下図のようなものを指して言っています。相関係数を求めるにあたって,パラメトリックな手法をとるか否かの判断をなしたり,あるいは他者にその根拠を示す必要のあるときには有用な図かと思います。

呼称について,英表記では概して“with marginal histograms”の散布図 ……といった表現を見かけますが,邦文ではさまざまで,たとえば

  • 「ヒストグラムを使用した」散布図 -"Minitab(url: http://support.minitab.com/ja-jp/minitab/17/topic-library/basic-statistics-and-graphs/graphs/graphs-of-pairs-of-variables/marginal-plots/create-a-marginal-plot-with-histograms/ ;リンク切れ)"
  • 「ヒストグラム投影」散布図 -"Origin(url: http://originlab.jp/doc/Origin-Help/Marginal-Histograms-Graph ;リンク切れ)"
  • 「周辺ヒストグラムをもつ」散布図 -"MATLAB"

といった呼称があてられているのを,それぞれの処理系のドキュメントで見ることができます。この頁ではストレートに「ヒストグラム付き」散布図と呼びたいと思いますが,いずれにしろ,どれが正しい――といった性格のものではないことは確かです。以下ここでは,そうしたワード群が示すところの可視化の手順を追っていきます。

例示にあたっては,リサーチサービス社の取引履歴から起こした次のデータを利用します(2変数)。

DL

工程

Step 1

2変数をもとに散布図を作成します。

Step 2

散布図の軸のレンジを調整する必要があればこの時点で整えておきます。

ここでは,第1変数,第2変数ともデフォルトのまま0-80の区間で利用したいと思います。

ヒストグラムの階級幅(h)を第1,第2変数の別に指定します。

このとき,軸のレンジ(Max-Min)をhで割って余りが生じないような値を設定しておきます。

階級の上限を(軸のレンジに注意して)見出しを付けずに入れ,

それをもとにFrequency関数で度数を求めます。

Step 3

あたらしいシートを作成し,このセルを細かな正方の格子状に調整します(以下,このシートを「グリッド」と呼びます)。

先に作った散布図を,グリッドに移動ないしはコピーします。

配置に関する枠線およびオブジェクトへの吸着の設定をONにして,貼り付けたグラフをアバウトに正方に整えていきます。

Step 4

散布図のプロットエリアより少し小さめに,図形「正方形/長方形」を,シートの上の任意の場所に描画します。描画したら(図形の方の)縦横のサイズを厳密に揃えます(pxでも指定可)。

図形の左角ないしは右角をグラフのプロットエリアのそれと吸着させ,プロットエリアの縦横を,図形をものさしにして厳密な正方に整えていきます。この作業が難しく感じる場合は図形の色に透明度を加えるとマシになるかもしれません。

下図は,先の作業を終えた状態です。この時点でものさしとして使用した図形は削除するなり移動させるなりしてOKです。

Step 5

緑・ピンクの領域をもとに,順次ヒストグラムを作成します。

緑は第1変数なので集合棒,ピンクは第2変数なので集合棒を利用します。

それぞれの柱の間隔を調整(間隔なし)し,階級の側のラベルを不可視にしていきます。この作業を終えると,第1変数のヒストグラムが下図,

第2変数のヒストグラムが下図のとおり完成します。

それらをグリッドに移動ないしはコピーします。

Step 6

先にそれぞれのグラフの横幅(第1変数の場合)ないしは縦幅(第2変数の場合)を,散布図のグラフエリアの枠線(外周線)に合致するよう調整したうえで所定の位置に据えておきます。

それを終えたら,プロットエリアの幅(第1変数の場合)ないしは高さ(第2変数の場合)を散布図のそれに合致するよう調整します。

Step 7

ヒストグラム付き散布図の完成です。WordやPowerpointなどの他のアプリまたは文書の上で利用する場合は,3つのグラフをグループ化してしまった方がいろいろラクかもしれません。

Step 8

なお両ヒストグラムの度数について,目盛りの最大値を揃える場合,グリッドを利用した補助線を引いてやると,対応をより明瞭にすることができます。

とはいえこのグラフを利用するときには,そもそも作成者の視点の多くが度数の正確なところを知るところではなく“山のシルエット”を拾うところにあるんじゃないかと思いますので,個人的には過剰な要素を取っ払って,下図のようにグラフを重ねてしまう方が好みです。

その他の参照