東京大学情報理工学研究科数理情報学 2020年度第2問

Author

Description

ある生物の生存時間は平均 \(\mu\) の指数分布に従う。この生物 \(n\) 匹の生存時間を観測することで \(\mu\) を推定したい。ただし実験上の制約により、生まれた直後の一定期間 \([0,a]\) は観測ができず、もしこの期間内に生物が死んだ場合には、死んだ事実だけが観測されるものとする。 \(a\) は正の定数である。

\(i = 1, \ldots, n\) に対し、第 \(i\) 番目の個体の生存時間を \(X_i\) とおく。これらは平均 \(\mu\) の指数分布に従い、互いに独立とする。平均 \(\mu\) の指数分布の確率密度関数は \(f(x; \mu) = (1/\mu)e^{-x/\mu} \ (x > 0)\) である。また観測値 \(Y_i\) を

\[ Y_i = \begin{cases} a & (X_i \leq a \text{ のとき}) \\ X_i & (X_i > a \text{ のとき}) \end{cases} \]

と定義する。

以下の問いに答えよ。

(1) \(Y_1\) の期待値を \(g(\mu)\) とおく。 \(g(\mu)\) を求めよ。

(2) \(\bar{Y} = n^{-1} \sum_{i=1}^n Y_i\) とおく。\(\bar{Y} > a\) のとき、 \(g(\hat{\mu}) = \bar{Y}\) を満たす \(\hat{\mu}\) がただ一つ存在することを示せ。

(3) \(Y_i = a\) を満たす \(i\) の個数を \(M\) とおく。\(0 \leq m \leq n - 1\) および \(b > a\) に対して

\[ P(M = m, \bar{Y} \leq b) = \int_a^b h(m, y; \mu) \text{d}y, \]

を満たす関数 \(h(m, y; \mu)\) を求めよ。

(4) \(m < n\) かつ \(y > a\) のとき、 \(h(m, y; \mu)\) を最大にする \(\mu\) がただ一つ存在することを示せ。

Kai

(1)

\(Y_1\) の期待値は

\[ \begin{aligned} \int_0^a af(x;\mu)\text{d}x + \int_a^\infty xf(x;\mu)\text{d}x=a+\mu e^{-\frac{a}{\mu}} \end{aligned} \]

(2)

\(g(\hat{\mu})-a=\hat{\mu}e^{-\frac{a}{\hat{\mu}}}\) を考える。

存在は、連続性と \(\lim_{x \to \infty}\hat{\mu}e^{-\frac{a}{\hat{\mu}}} \to \infty\) より明らか。

一意性は、微分すると狭義単調と分かるので明らか。

(3)

まず、\(P(M=m)\) を求める。

\(P(Y_1=a)=\int_0^a{f(x;\mu)}\text{d}x=1-e^{-\frac{a}{\mu}}\)より、\(P(M=m) = {}_NC_m (1-e^{-\frac{a}{\mu}})^m(e^{-\frac{a}{\mu}})^{N-m}\)

次に、\(P(\overline{Y}\leq b | M=m)\) を求める。

\[ \begin{aligned} P(\overline{Y}\leq b | M=m) & = P\left( \sum_{i=1}^N Y_i \leq Nb \middle| M=m \right) \\ & = P\left( am + \sum_{i=1}^{N-m} (X_i+a) \leq Nb \right) \\ & = P\left( \sum_{i=1}^{N-m} X_i \leq N(b-a) \right) \\ & = \int_0^{N(b-a)} f_{N-m}(x) \text{d}x \\ & = \int_a^{b} Nf_{N-m}(N(y-a)) \text{d}y \end{aligned} \]

ただし、一行目から二行目の変形で、指数分布の無記憶性を用いた。

また、\(f_{N-m}\) で、指数分布を \(N-m\) 個重ね合わせた分布を示している。

これは、ガンマ分布に従うことが一般に知られている。(後述)

以上より、

\[ \begin{aligned} P(M=m,\overline{Y}\leq b) & = P(M=m)P(\overline{Y} \leq b|M=m) \\ & = {}_NC_m (1-e^{-\frac{a}{\mu}})^m(e^{-\frac{a}{\mu}})^{N-m} \int_a^{b} N f_{N-m}(N(y-a)) \text{d}y \\ & = {}_NC_m (1-e^{-\frac{a}{\mu}})^m(e^{-\frac{a}{\mu}})^{N-m} \int_a^{b} \frac{N}{(N-m-1)!\mu^{N-m}} (N(y-a))^{N-m-1} e^{-\frac{N(y-a)}{\mu}} \text{d}y \\ \end{aligned} \]

(4) - by hari64boli64

\(\mu\) に関連する部分だけ取り出すと、

\[ \begin{aligned} M(\mu) & = (1-e^{-\frac{a}{\mu}})^m(e^{-\frac{a}{\mu}})^{N-m} \frac{1}{\mu^{N-m}} e^{-\frac{N(y-a)}{\mu}} \end{aligned} \]

となるが、これを微分するのは大変な困難を伴うように思われる。

なので、別の方針を考える。

\[ \begin{aligned} h(m,y;\mu) & =\frac{\text{d}}{\text{d}y} \left(\int_a^y{h(m,y';\mu)}\text{d}y' \right) \\ & =\frac{\text{d}}{\text{d}y} \left(P(M=m,\overline{Y}\leq y) \right) \\ & =P(M=m,\overline{Y}=y) \\ \end{aligned} \]

ただし、最後の変形で、累積分布関数の微分が確率密度関数になることを用いた。

細かい議論は (2) などと同様になるので省くが、無記憶性を用いた議論や適切な変形を経ると、結局のところ、指数分布の確率密度関数 \(f(x;\mu)\) について、ある値 \(Y\) を取る確率が最大になるような \(\mu\) が、ただ一つ存在することを示す問題に帰着されると思われる。 (厳密にはガンマ分布に対して言うべきか?)

これは、(2) の議論とほぼ同様である。

以下では、おまけ程度に、上で示した問題の解を与える。

\[ \begin{aligned} \frac{\partial}{\partial \mu} f(Y;\mu) & =-\frac{1}{\mu^2}e^{-\frac{Y}{\mu}}+\frac{1}{\mu}\frac{Y}{\mu^2}e^{-\frac{Y}{\mu}} \\ & =\frac{-mu+Y}{\mu^3}e^{-\frac{Y}{\mu}} \end{aligned} \]

よって、\(\frac{\partial}{\partial \mu} f(Y;\mu)=0\) となる \(\mu\) は、\(Y=\mu\) の時、これのみである。

以上で、大まかには題意が示された。

より詳細な議論を、本来は行うべきであろう。

(4) - by Kurosu9991

\(\mu\) に関連する部分だけ取り出すと、

\[ M(\mu) = (1-e^{-\frac{a}{\mu}})^m(e^{-\frac{a}{\mu}})^{N-m} \frac{1}{\mu^{N-m}} e^{-\frac{N(y-a)}{\mu}} \]

\(\lambda=\frac{1}{\mu}\) とおくと、

\[ L(\lambda) = \lambda^{N-m} (1-e^{-\lambda a})^m e^{-\lambda (Ny-ma)} \]

を得る。対数を取って微分すると

\[ l(\lambda) = (N-m)ln\lambda + mln(1-e^{-\lambda a}) - \lambda (Ny-ma) \]

\[ \begin{aligned} l'(\lambda) & = \frac{N-m}{\lambda} + m\frac{ae^{-\lambda a}}{1-e^{-\lambda a}} - (Ny-ma) \\ & = \frac{N-m}{\lambda} + \frac{ma}{e^{\lambda a}-1} - (Ny-ma) \end{aligned} \]

を得る。ここで、\(l'(\lambda)\) は単調減少であり、\(l'(0^{+})=+\infty\) , \(l'(+\infty)<0\) であるから、\(l(\lambda)\) は増加から減少に移り変わるので、唯一の極大点を持つことがわかる。

Knowledge

指数分布は再生性を持たない。つまり、\(X_1,X_2,\cdots\) が独立に指数分布に従うとしても、\(X_1+X_2+\cdots\) は指数分布に従わない。これは一般にはアーラン分布に従う。特に、今回はガンマ分布に従う。これは以下の畳み込みの式と帰納法で示せる。

\[ \begin{aligned} f_{Y(=X_1+X_2)}(y)=\int_0^{y}{f_{X_1}(x)f_{X_2}(y-x)\text{d}x} \end{aligned} \]

同じ指数分布の重ね合わせがガンマ分布になることを示す。

\[ \begin{aligned} f_1(x;\mu) & =\frac{1}{\mu}e^{-\frac{x}{\mu}} \\ f_2(x;\mu) & =\int_0^x{f_1(y;\mu)f_1(x-y;\mu)\text{d}y} \\ & =\int_0^x{\frac{1}{\mu}e^{-\frac{y}{\mu}}\frac{1}{\mu}e^{-\frac{x-y}{\mu}}\text{d}y} \\ & =\frac{1}{\mu^2}\int_0^x{e^{-\frac{x}{\mu}}\text{d}y} \\ & =\frac{1}{\mu^2}xe^{-\frac{x}{\mu}} \\ f_3(x;\mu) & =\int_0^x{f_2(y;\mu)f_1(x-y;\mu)\text{d}y} \\ & =\int_0^x{\frac{1}{\mu^2}ye^{-\frac{y}{\mu}}\frac{1}{\mu}e^{-\frac{x-y}{\mu}}\text{d}y} \\ & =\frac{1}{\mu^3}\int_0^x{ye^{-\frac{x}{\mu}}\text{d}y} \\ & =\frac{1}{2\mu^3}x^2e^{-\frac{x}{\mu}} \\ f_n(x;\mu) & =\int_0^x{f_{n-1}(y;\mu)f_1(x-y;\mu)\text{d}y} \\ & =\frac{1}{(n-1)!\mu^n} x^{n-1} e^{-\frac{x}{\mu}} \\ \end{aligned} \]

頑張れば、ガンマ分布の形を覚えていなくても、畳み込み計算から示すことが出来る。

指数分布の無記憶性を示す。

\[ \begin{aligned} P(X>s+t|X>s) & =\frac{P(X>s+t)}{P(X>s)} \\ & =\frac{\int_{s+t}^{\infty}\frac{1}{\mu}e^{-\frac{x}{\mu}}\text{d}x}{\int_{s}^{\infty}\frac{1}{\mu}e^{-\frac{x}{\mu}}\text{d}x} \\ & =\frac{e^{-\frac{s+t}{\mu}}}{e^{-\frac{s}{\mu}}} \\ & =e^{-\frac{t}{\mu}} \\ & =P(X>t) \\ \end{aligned} \]

指数分布の無記憶性とその証明 

指数分布とは，「コールセンターに次に電話がかかってくるまでにかかる時間」や「電化製品が次に壊れるまでの時間」などに用いられます。「昨日コールセンターに電話がかかってきたから，今日はかかってこないだろう」とか「昨日電化製品が壊れなかったから，今日は壊れないだろう」とか，そういうことはないわけですから，この事象には，無記憶性があるといえるわけですね。

そして、最後の (4) などは、図1が念頭にあると、より分かりやすいと思われる。

図1 パラメータ毎の指数分布

とある \(x\) でこのグラフを切った時に、最大の値を取るような \(\lambda\) は、ただ一つだけというのが、この問題の視覚的な理解であると思われる。

東京大学 情報理工学研究科 数理情報学 2020年度 第2問