平均・分散の推定(損保数理の問題から)

今日は、読者の方(以下「Aさん」と表記します。)からのいただいた損保数理の問題(平成17年度の損保数理の問題1の(5))に関連し、
平均・分散の推定
というテーマで考えてみます。


問題は次のとおりです。(過去問題集からの引用)

ある保険のポートフォリオが、次のとおり与えられているものとする。
(i)*1被保険者のクレーム件数はポアソン分布に従う。
(ii)被保険者ごとに被保険者のクレーム件数の平均は異なる値をとる。
(iii)1,000人の被保険者を無作為に抽出したところ、各被保険者ごと*2のクレーム件数は下表のとおりであった。

クレーム件数n 0 1 2 3 4 5
被保険者数f_n 512 307 123 41 11 6 1,000

(iv)クレーム額の平均は1,500、分散は6,750,000である。
(v)クレーム額とクレーム件数は、互いに独立である。
(vi)95%の確率でクレーム総額が上下5%以内に入る場合に全信頼度を与える。
なお、
\frac{1}{\sqrt{2\pi}}\int_0^{1.96}\exp\left(\frac{-x^2}{2}\right)dx=0.475
とする。
このとき、クレーム総額の期待値に全信頼度を与えるために必要な被保険者数を、次の選択肢の中から選ぶとして、そのうちで最も小さいものはどれか。
(A)1,000
(B)3,000
(C)5,000
(D)7,000
(E)9,000
(F)11,000
(G)13,000
(H)15,000


解答では、
クレーム件数をN、クレーム額をX、クレーム総額をSとして、
E(S)=E(N)E(X)=\frac{0 \times 512+1 \times 307+ \cdots 5 \times 6}{1,000} \times 1,500=1,125
V(S)=E(N)V(X)+V(N)E(X)^2 *3
=0.75 \times 6,750,000+\left(\frac{0^2 \times 512+1^2 \times 307+ \cdots 5^2 \times 6}{1,000} -0.75 \right)\times 1,500^2=7,158,375
としたあとで、
n \ge \left( \frac{1.96}{0.05}\right)^2 \cdot \frac{V(S)}{\{E(S)\}^2}=8,691
としています。


Aさんは、次のようなご質問をされました。

ここで私が答えを見ても理解できなかったことがあります。
クレーム件数をN、クレーム額をX、クレーム総額をSとおいています。
E(N)とV(N)を1000人の被保険者を無作為に抽出した標本から求めています。
この無作為に抽出した値は標本平均と標本分散になるのではないですか?
E(N)とV(N)は母平均と母分散でこの問題のクレーム額の母平均、母分散ように与えられるものかまたは、被保険者数を無限大にして近づけるものではないのですか?


Aさんのご質問にはない点ですが、この問題では、
「被保険者のクレーム件数はポアソン分布に従う。」という部分は問題を解くのに直接関係ない
ということに注意しなければなりません。
実際、個別の被保険者のクレーム分布がどうであろうと、そのパラメーターが一定でない(何らかの分布に従う)のであれば、全体のクレーム件数の分布は別の分布になります。
(例えば、パラメーターがガンマ分布に従う場合は、全体の件数の分布は負の二項分布になります。もちろん、パラメーターの分布が与えられていないにで負の二項分布になるという保証もありません。)

もちろん損保(だけではなく生保も年金もそうでしょうが)の実務では、膨大な情報の中から不要な情報を捨て、必要な情報のみを選び取る能力が必要ですが、それを「損保数理」の試験として課することが適当かどうかは議論の余地があると思います。


さて、Aさんのご質問に戻ると、
まず、
(1)クレーム件数の平均と分散であるE(N)とV(N)は、1,000件の抽出データ(標本)からの「推定」値なのですが、問題文では、どのように推定すべきかその方法が明記されていないし、解答では、E(N)やV(N)を推定したという事実が明記されていない
点がポイントだと考えられます。
もっとも推定量の計算方法としては、教科書(平成21年7月改訂版)の0-21ページには
a.モーメント法
b.最尤法
しか明記されておらず、b.最尤法は使えない(Nの分布の情報が与えられていないので)ので、
「当然モーメント法を使うべきだ」
というのが暗黙の前提となっているのかも知れません

次のポイントとして、
(2)モーメント法を使うとして
E(N)の推定値を標本平均とすることは自然としても、
V(N)の推定値は標本分散とするか、標本不偏分散とするか?
という点があります。


例えば、
X_1,X_2, \cdots ,X_nが独立に平均\mu、分散\sigma^2(共に未知)の正規分布に従うn個の確率変数とするとき、
標本分散
S^2=\frac{(X_1-M)^2+(X_2-M)^2+ \cdots +(X_n-M)^2}{n}
は、分散\sigma^2最尤推定量ですが、不偏推定量ではありません。
(例えば、
http://actuary.upthx.net/pukiwiki/index.php?1.1.2.2.1.%B3%C6%CA%AC%C9%DB%A4%CE%B4%D8%B7%B8
御参照)


より一般には次のことが言えます。

(命題)
X_1,X_2, \cdots ,X_nを平均\mu、分散\sigma^2の独立同分布に従うn個の確率変数とする、
このとき、
標本平均
M=\frac{X_1+X_2+ \cdots +X_n}{n}
標本分散
S^2=\frac{(X_1-M)^2+(X_2-M)^2+ \cdots +(X_n-M)^2}{n}
とおくとき、
E(M)=\mu
E(S^2)=\frac{(n-1)\sigma^2}{n}
つまり、
標本不偏分散
U^2=\frac{(X_1-M)^2+(X_2-M)^2+ \cdots +(X_n-M)^2}{n-1}=\frac{nS^2}{n-1}
\sigma^2不偏推定量 

(証明は最後にいたします。)


この問題では、V(N)の推定値を標本分散(分母が1,000)をそのまま採用するのか、標本不偏分散(分母が999)を採用するのかがポイントになります。

もっとも、実務上は、標本数が多ければ、標本分散としても標本不偏分散としても結果の数値に大きな変動がなく*4、標本分散を使うことも少なくないのですが*5、解答例のように、
いきなり注釈もつけずに、標本平均・標本分散を元の分布の平均・分散とし、かつ標本不偏分散に言及しないとAさんのような混乱を来す可能性も懸念される
ところではないかとも考えられます。


上記の命題の証明はそれほど難しいものではないですが、それを掲載して本稿を終わることにします。


(証明)
(a)標本平均
E(M)=\frac{E(X_1)+E(X_2)+ \cdots +E(X_n)}{n}=\frac{n\mu}{n}=\mu
(b)標本分散
iに対して、
X'_i=X_i-\mu
M'=\frac{X'_1+X'_2+ \cdots +X'_n}{n}=M-\mu
とおくと、
E(X'_i)=E(M')=0
であり、
また、
E(X'_i^2)=V(X'_i)=V(X_i)=\sigma^2


X_1-M=X'_1-M'
=\frac{n-1}{n}X'_1-\frac{1}{n}X'_2-\cdots-\frac{1}{n}X'_n
(X_1-M)^2
[tex:=\frac{(n-1)^2}{n^2}X'_1^2+\frac{1}{n^2}X'_2^2+\cdots+\frac{1}{n^2}X'_n^2+\sum_{1 \le i1)]

これより、
E\{(X_1-M)^2\}
=E\left(\frac{(n-1)^2}{n^2}X'_1^2+\frac{1}{n^2}X'_2^2+\cdots+\frac{1}{n^2}X'_n^2\right)(∵E(X'_iX'_j)=E(X'_i)E(X'_j)=0
=\left(\frac{(n-1)^2}{n^2}+\frac{n-1}{n^2}\right)\sigma^2
=\frac{(n-1)\sigma^2}{n}

E(S^2)=\frac{(n-1)\sigma^2}{n}\cdot\frac{n}{n}=\frac{(n-1)\sigma^2}{n}…(証明終)

*1:もともとは丸数字だったのですが、機種依存文字のため(i)〜(xi)としました。

*2:原文まま

*3:原文ではV(S)=E(N)V(X)^2+V(N)E(X)^2となっていますが、V(X)^2V(X)の誤植ではないかと考えられます。

*4:本問でも、標本分散だと答えが8,691となるとこころ、標本不偏分散だと8,694であり、もちろん結果の選択肢に影響はしない

*5:例題で学ぶ損保数理(isbn:4320017358)の例題17でモーメント法による推定を行っていますが、ここでは標本分散をもとの分布の分散の推定値として採用しています