BDAstyle

ビジネスデータ分析ツールの作成 with Excel

ヒストグラム付き散布図の作成 with Excel

Step 0シチュエーションの設定

はじめに


念のため,この頁にいう「ヒストグラム付きの散布図」は,外形的には下図のようなものを指して言っています。相関係数を求めるにあたって,パラメトリックな手法をとるかそうでないかの判断をなしたり,あるいは他者にその選択の根拠として提示する場合には有用な図かと思います。

呼称について,英表記では概してwith marginal histogramsの散布図 …といった表現を見かけますが,邦文ではさまざまで,たとえば

といった呼称があてられているのを,それぞれの処理系のドキュメントで見ることができます。この頁では「ヒストグラム付き」散布図という語を用いていきますが,いずれにしろ,どれが正しい――といった性格のものではないことは確かです。以下ここでは,そうしたワード群が示すところの可視化の手順を追っていきます。


例示においては,次のリサーチサービス社の取引履歴から起こしたデータを利用します(2変数)。

ヒストグラム付き散布図・サンプルデータ


Step 1

2変数をもとに散布図を作成します。

Step 2

散布図の軸のレンジを調整する必要があればこの時点で整えておきます。

ここでは,第1変数,第2変数ともデフォルトのまま0-80の区間で利用したいと思います。

ヒストグラムの階級幅(h)を第1,第2変数の別に指定します。

このとき,軸のレンジ(Max-Min)をhで割って余りが生じないような値を設定しておきます。

階級の上限を(軸のレンジに注意して)見出しを付けずに入れ,

それをもとにFrequency関数で度数を求めます。

Step 3

あたらしいシートを作成し,このセルを細かな正方の格子状に調整します(以下,このシートを「グリッド」と呼びます)。

先に作った散布図を,グリッドに移動ないしはコピーします。

配置に関する枠線およびオブジェクトへの吸着の設定をONにして,貼り付けたグラフをアバウトに正方に整えていきます。

Step 4

散布図のプロットエリアより少し小さめに,図形「正方形/長方形」を,シートの上の任意の場所に描画します。描画したら(図形の方の)縦横のサイズを厳密に揃えます。

図形の左角ないしは右角をグラフのプロットエリアのそれと吸着させ,プロットエリアの縦横を図形をものさしにして厳密な正方に整えていきます。この作業が難しく感じる場合は図形の彩色に透明度を加えるとマシになるかもしれません。

下図は,先の作業を終えた状態です。この時点でものさしとして使用した図形は削除するなり移動させるなりしてOKです。

Step 5

緑・ピンクの領域をもとに,順次ヒストグラムを作成します。

緑は第1変数なので集合棒,ピンクは第2変数なので集合棒を利用します。

それぞれの柱の間隔を調整(間隔なし)し,階級の側のラベルを不可視にしていきます。この作業を終えると,第1変数のヒストグラムが下図,

2変数のヒストグラムが下図のとおり完成します。

それらをグリッドに移動ないしはコピーします。

Step 6

先にそれぞれのグラフの横幅(第1変数の場合)ないしは縦幅(第2変数の場合)を,散布図のグラフエリアの枠線(外周線)に合致するよう調整したうえで所定の位置に据えておきます。

それを終えたら,プロットエリアの幅(第1変数の場合)ないしは高さ(第2変数の場合)を散布図のそれに合致するよう調整します。

Step 7

ヒストグラム付き散布図の完成です。WordPowerpoint等による他文書での利用を考える際は,3つのグラフをグループ化してしまった方がラクかもしれません。

Step 8

なお両ヒストグラムの度数に関する目盛りの最大値を揃える場合は,グリッドを利用した補助線を引いてやると,対応がより明瞭となるように感じます。

とはいえこのグラフを利用するときには,そもそも作成者の視点の多くが度数の正確なところを知るところではなく“山のシルエット”を拾うところにあるんじゃないかと思いますので,個人的には余剰な要素を取っ払って,下図のようにグラフを重ねてしまう方が好みです。

その他の参照