BDAstyle

ビジネスデータ分析ツールの作成 with Excel

基本統計量の計算 with Excel 2/3

中央値・最頻値の計算

1. 中央値[メディアン, 中位数](Median)

Step 0シチュエーションの設定

下表は,ネット通販X社のある月の営業日(計24日)に入ったクレーム入電件数の記録です。

11営業日には,交通事情に伴う商品の遅配が発生し,ふだんより大幅に件数が増加しました。

初期データ

この月の入電数の平均を求めると…このようになります。

平均=20

データの代表値としては,いささか実態にそぐわない感のある値が出てきました。

これは,外れ値に大きく引きずられてしまったゆえの結果です。

参考までに11日目の入電数を異常値として除いてやると,平均はより小さな値となります。

平均(補正)=6.6

このケースのような場合には,中央値や最頻値を代表値とした方がより好ましいこともあろうかと思います。また中央値や最頻値は,算術平均を求めることのできない順序データやカテゴリデータの代表値として利用することができます(当然ですが カテゴリデータの場合は中央値を求めることはできません)。

Step 1中央値の計算/Median関数

中央値は,エクセルではMedian関数により求められます。

Median関数に拠らず求める場合(デフォルトで非表示|クリックで展開)

関数を利用しない場合,次のような手続きで確認します。

最初に,「入電数」列を昇順または降順で並べ替えます。

「入電数」列に条件付き書式を2パターン設定します。

1に,上位50%の要素(セル)の背景を任意の色で彩色する設定を施し…

2に,下位50%の要素(セル)の背景を,上とは異なる任意の色で彩色する設定を施します。

その1|n(ここでは「入電数」列の値の数)が偶数個の場合

異なる色の境界の上下のセルの平均をとり,これを中央値とします。

=average(B13,B14)

その2|n(ここでは「入電数」列の値の数)が奇数個の場合

(※次のデータは例示のため初期データを奇数個に調整しています)

非彩色のセルの値を中央値とします。

Step 2中央値・計算完了

この期間の中央値は,次のとおりです。

中央値=7.5

2. 最頻値[モード](Mode)

Step 3最頻値の計算/Mode関数

つづいて最頻値を計算します。エクセルではバージョンにより使用する関数が異なります。バージョン2007ではMode関数を,バージョン2010以降ではMode.Sngl関数を使用します(ただしMode関数は後方に互換性があります)。

Mode関数に拠らず求める場合(デフォルトで非表示|クリックで展開)

関数を利用しない場合,次のような手続きで確認します。

最初に,「入電数」列を昇順または降順で並べ替えます。

リボンのデータタブ「アウトライン」グループのアウトラインから小計をクリックします。

「入電数」列の値をカテゴリとみなしてそれらの出現頻度をとるよう,「集計の設定」ダイアログを次のように設定します。

[グループの基準]入電数, [集計の方法]データの個数, [集計するフィールド]入電数, [チェック]現在の小計をすべて置き換える・集計行をデータの下に挿入する

アウトラインの第2レベルで表を折りたたんだのち([2]ボタンをクリック),「入電数」列を降順で並べ替えます。

Maxの出現頻度に対応する値を読み取ります(なおこの方法であれば,後述のMode.Mult関数の用意のないver.2007においても 複数の最頻値が予見される場合の対応は可能です)。

「x データの個数」表記の x が最頻値

Step 4最頻値・計算完了

この期間の最頻値は,次のとおりです。

最頻値=9

Step 5付記(1)

もっとも,最頻値はひとつだけとは限りません。参考までに,下のようにな単純なデータを用意し,「9」および「10」の2つの最頻値が存在する場合を考えます。

このとき,Mode関数,Mode.Sngl関数ともに最初に登場する値しか返されません。

初期データ

Step 6付記(2)

このように2つ以上の最頻値が予見されるような場合,バージョン2010以降に限りMode.Mult関数が利用できます(配列数式)。

この場合,まずは予見される数にざっくりと目途をつけ,それにいくらかの余裕を加えた数だけセル範囲を選択します(ぶっちゃけ,“テキトー”な数の選択でかまいません。ここで選択した領域に答えが返ります)。

Step 7付記(3)

そして選択を維持したまま,Mode.Mult関数で数式を作成し,[Ctrl]+[Shift]+[Enter]キーを同時に押します

=MODE.MULT(B2:B25)

Step 8付記(4)

これにより,下の図のように複数の値が正しく返ります(青い囲みの部分の,最初の2つの数字)。

なお「#N/A」は“該当なし”―――すなわち最初に#N/Aが表示されたセルまでの値をもって,すべての値が返されたことを意味します。

Next

次頁は「分散」「標準偏差」および「変動係数」の例です。

その他の参照