BDAstyle

ビジネスデータ分析ツールの作成 with Excel

母比率の信頼区間の推定 with Excel

Step 0Case 1 - 2 共通の設定

この頁では推定にあたり,

を判断し,前者の場合で標準正規分布(z分布)を,後者の場合でF分布を利用します。


ショートカット


大標本のときのz推定

Case 1-Step 0シチュエーションの設定

スナック菓子製造X社は,新商品のパッケージデザインについて,社内評価の高いものから順にA~D4つの案を持っています。X社は今のところ社内受けのよいA案を採用したいと考えていますが,限られた範囲の評価で不安もあります。そこでこの商品のメインターゲット層に対し,あらためて反応を探ってみることになりました。

具体的には,ターゲットとなる特定の属性の女性30人(ここでは無作為の抽出と仮定します)に,A~Dについて支持できるデザインを1つだけ選択してもらう……といった調査をおこないました。下の表がその結果です。

このデータから,メインターゲット層のデザインAに関する支持率の区間推定をおこないます。結果,信頼度80%で下側信頼限界が50%を超えてくるようであれば,X社はデザインAを採用する方針です。

Case 1-Step 1前提

標本サイズn≧30を満たすことから,これを

  • 大標本

と判断します(これは一意な基準ではありません[以下Caseに同じ])。

したがってCase 1ではStep 0の方針と照らし,推定に

標準正規分布(z分布)

を利用します。

Case 1-Step 2見出しの入力

母比率pの信頼区間は次の式によって求められます。

\widehat {p}-z\left( \alpha /2\right) \sqrt {\dfrac {\widehat {p}\left( 1-\widehat {p}\right) }{n}}\leq p\leq \widehat {p}+z\left( \alpha /2\right) \sqrt {\dfrac {\widehat {p}\left( 1-\widehat {p}\right) }{n}}

ただし, p̂:標本比率, √p̂(1-p̂):標準偏差, n:標本サイズ, z(α/2):標準正規分布の上側α/2パーセント点.

これをシート上で計算するため,下表のような見出しを作成しておきます。

Case 1-Step 3p̂, n, √p̂(1-p̂) の入力または計算

標本サイズn(セルE3),およびA案についての標本比率(セルE5)を求めます。

あわせて標準偏差√p̂(1-p̂)も求めておきます(セルE6)。

[セルE3]=SUM(B4:B7), [セルE5]=B4/E3, [セルE6]=SQRT(E5*(1-E5))

Case 1-Step 4信頼係数の決定

(仮に)同様の標本抽出から区間推定を繰り返しおこなうと考えたとき,その繰り返しにおいて信頼区間のなかに母比率pを捉えられるであろう割合を定めます。一般には0.90,0.95,0.99(百分率での表記の場合,これらを順に“信頼度”90%, 95%, 99%とも)といったところが利用されます。信頼係数を大きくとれば,区間の幅も広くなります。

ここでは設定のとおり,上記の候補にはない0.80(80%)を選択します。これにより,有意水準(or 過誤確率)も決まります(1-信頼係数)。

[セルE8]=1-E9, [セルE9]0.8

Case 1-Step 5zの入力または計算

標準正規分布おける上側α/2パーセント点を計算または入力します(下は計算の例です)。ExcelNORM.S.INV関数は累積(下側)確率pに対するzの値を返すので,上側zNORM.S.INV(有意水準α/2+信頼係数)で計算します。つまり,信頼係数を0.80とした場合,p=0.90として対応するzを求めることになります。

[セルE11]=NORM.S.INV(E8/2+E9)

また直接入力する場合,標準正規分布表から上側α/2に対応するzを読み取ります。たとえば先に上げた3つ+今回利用の信頼係数に対応する上側zは,下の表のとおりです。

0.80(α/2=0.10) 1.28
0.90(α/2=0.05) 1.64
0.95(α/2=0.025) 1.96
0.99(α/2=0.005) 2.58

Case 1-Step 6信頼区間の計算

Step 2の式から信頼区間を求めます。具体的には,

下側 =E5-E11*(E6/SQRT(E3))
上側 =E5+E11*(E6/SQRT(E3))

となります。

Case 1-Step 7信頼区間の計算(桁をくり上げる場合)

任意の桁で丸めるときは,信頼区間を満たすよう 下は切り捨て・上は切り上げによって処理します。

下側 =ROUNDDOWN(D14, 3)
上側 =ROUNDUP(F14, 3)

結果:メインターゲット層の支持に関して,信頼度80%のとき下側信頼限界は50%をこえることが確認できます。

Case 1-Step 8専用の関数を使うなら

上述の経過をブラックボックスにしてもよいのなら,CONFIDENCE.NORM関数によっても同様の計算が可能です。

[セルE13]=CONFIDENCE>NORM(E8,E6,E3), [セルD16]=E5-E13, [セルF16]=E5+E13

1/2区間 =CONFIDENCE.NORM(α, √p̂(1-p̂), n)

この場合,戻り値は区間の幅の半分(1/2)です。これをに加減して上限・下限を求めます。

小標本のときのF推定

Case 2-Step 0シチュエーションの設定

ある大学の大学祭実行委員会は,この年の成功を左右するイベント“企画Aを学生に対し積極的にPRしています。

周知期間をいくらか経たのち,さらに周知を続けるべきかが議論され,結局,効果を測定してから判断しようという方針になりました。そこで,無作為に抽出した20人の学生に対し,企画Aを知っているか聞き取りをおこなった結果が下の表です(○:既知, ×:未知)。

このデータから,現時点における企画Aの認知度の区間推定をおこないます。

Case 2-Step 1前提

標本サイズn<30なので,これを

  • 小標本

と判断します。

したがってCase 2ではStep 0の方針と照らし,推定に

F分布

を利用します。

Case 2-Step 2見出しの入力

母比率pの信頼区間は次の式によって求められます。

\dfrac {n_{2}}{n_{1}F\left( n_{1},n_{2};\alpha /2\right) +n_{2}}\leq P\leq \dfrac {m_{1}F\left( m_{1},m_{2};\alpha /2\right) }{m_{1}F\left( m_{1},m_{2};\alpha /2\right) +m_{2}}

ただし,

\begin{flalign*} n_{1}&=2n\left( 1-\widehat {p}\right) +2\\ n_{2}&=2n\widehat {p}\\ m_{1}&=2n\widehat {p}+2\\ m_{2}&=2n\left( 1-\widehat {p}\right) \end{flalign*}

p̂:標本比率, n:標本サイズ. また, F(n1, n2; α/2):自由度n1, n2のF分布の上側α/2パーセント点, F(m1, m2; α/2):自由度m1, m2のF分布の上側α/2パーセント点.

これをシート上で計算するため,下表のような見出しを作成しておきます。

Case 2-Step 3p̂, n, 自由度n1~m2 の入力または計算

標本サイズn(セルE3),標本比率(セルE5)を求めます。

また自由度n1,n2,m1,m2についても求めておきます(セルE7:E10)。

[セルE3]=SUM(B4:B5), [セルE5]=B4/E3, [セルE7]=2*E3*(1-E5)+2, [セルE8]=2*E3*E5, [セルE9]=2*E3*E5+2, [セルE10]=2*E3*(1-E5)

Case 2-Step 4信頼係数の決定

(仮に)同様の標本抽出から区間推定を繰り返しおこなうと考えたとき,その繰り返しにおいて信頼区間のなかに母比率pを捉えられるであろう割合を定めます。一般には0.90,0.95,0.99(百分率での表記の場合,これらを順に“信頼度”90%, 95%, 99%とも)といったところが利用されます。信頼係数を大きくとれば,区間の幅も広くなります。

ここでは0.95(95%)を選択します。これにより,有意水準(or 過誤確率)も決まります(1-信頼係数)。

[セルE12]=1-E13, [セルE13]0.95

Case 2-Step 5Fの計算

自由度n1,n2,自由度m1,m2それぞれのF分布における上側α/2パーセント点を計算します。F.INV.RT関数は上側確率pに対するFの値を返すので,F.INV.RT(有意水準α/2, 第1自由度, 第2自由度)として計算します。 つまり,信頼係数を0.95とした場合,p=0.025として対応するFを求めることになります。

[セルE15]=F.INV.RT(E12/2,E7,E8), [セルE16]=F.INV.RT(E12/2,E9,E10)

Case 2-Step 6信頼区間の計算

Step 2の式から信頼区間を求めます。具体的には,

下側 =E8/(E7*E15+E8)
上側 =E9*E16/(E9*E16+E10)

となります。

Case 2-Step 7信頼区間の計算(桁をくり上げる場合)

任意の桁で丸めるときは,信頼区間を満たすよう 下は切り捨て・上は切り上げによって処理します。

下側 =ROUNDDOWN(D19, 2)
上側 =ROUNDUP(F19, 2)

結果:企画Aの学生の認知度pは,信頼度95%23%~69%の間にあると考えられます。

参考にした書籍

母比率の推定に対応するexcelアドインソフト

  • エクセル統計 BellCurve
    • 「1標本の推定と検定」「母比率の推定」(z推定・F推定|有限母集団修正も可能)

その他の参照