HEAVEN INSITE's Blog::統計学覚え書き②

統計学覚え書き②

2016-08-06 23:51:31 (9 years ago)

数学

　今回は標本調査について。木を見て森を推測するため、誤差が発生する。
　この標本誤差は、母集団と標本のデータ数が近づけば近づくほど小さくなる（全数調査では標本誤差は発生しないから）。これを大数の法則という。
　
正規分布
別名ガウス分布。パラメータ（後述）を説明する際には、ノーマル・ディストリビューションの頭文字Nを用いる。
身長や体重、偏差値など、最も数が多い平均的（フツー）な集団が山の頂上を形成し、フツーじゃない奴はその程度に応じてどんどん山の裾野に追いやられていくという分布。
グラフの形自体はシンメトリーでシンプルだが、式にすると恐ろしいことになる。ちなみにμ（ミュー）は平均、σ2（シグマ）は分散を表す。

exp[ほにゃらら・・・]は経験値・・・ではなく、エクスポネンシャル・ファンクション（指数関数）の略で、対数関数を微分するための無理数（ネイピア数e≒２．７１）の指数を表している。
ちなみにネイピア数は超便利で、１を何乗しても１であるように、e^xを何回微分しても答えがe^xのまま変わらない。

そもそも正規分布のグラフは、もっとも簡単に表すと

正規分布の公式２.jpg

であり（急激に減少するタイプの関数）、指数にも指数がついちゃっているので、ややこしいから

と、表し直す。

次に正規分布は、デジタルではなく、身長のようにスペクトラムなデータを扱うので、その合計値は∑ではなく∫（インテグラル）を使用する。つまり積分（グラフの内側の面積を、シュレッダー的に無限に細かく千切りをしてから、再び貼り合わせて求めること）をする。
ちなみにインテグラルは、足し算の答えのSUMの頭文字のSを縦にビヨーンと引き伸ばしたもので、シグマとあんま意味は変わらない。
ただシグマは１番からn番までを足していたが、インテグラルは数直線の原点０の左右に広がる正の世界と負の世界のそれぞれの地平線の向こう側まで足してしまう。
オレ達と一緒に行こうぜ！無限大の彼方へ！（懐かしい）

正規分布の公式４.jpg

を積分すると、ガウス積分の公式より、その値は円周率の平方根と等しくなるので

また、正規分布はそこに含まれるすべての集団の割合の合計値が１（＝100％）になるので、方程式の右辺を１にするために、両辺を√πで割る。

個人的にはこの形で終了でもいいと思うんだけど、この式を微分すると、係数で×２が出てきちゃうので、その手間を省くためにXを変数変換（※）して調整する。

※X→√２×X’と変換する（√２で割る）と指数は複雑になるが、微分したあとの係数が１になる。

こうしてできた式が、平均が０（正規分布のグラフの真ん中を示す軸zがＸ＝０、つまり中心にある）、分散が１（標準偏差も１）という、最もわかりやすい正規分布、標準正規分布の式である。
実際は平均が中心からずれてたり（軸zがプラスにズレたりマイナスにズレたり）、分散も１より小さかったり（グラフの幅が狭まる）、１よりも大きかったり（グラフの幅が広がる）するので

として、μとσに具体的な値を代入し、グラフの形を求める。

母数（パラメータ）
母集団分布の状況を曲線で示したときに現れる、そのモデルを特徴付ける特性値のこと。
たとえば、正規分布の曲線の場合、平均μと分散σ2のふたつの母数の値が決まれば、曲線の形状が決まることが、さっきの式で理解できる。

標本の抽出方法
いろいろあります。

無作為抽出
母集団から完全にランダムに標本を選ぶというイメージがあるが、厳密には母集団が含む調査対象をすべて同じ確率で選ぶ抽出方法を指す。そう言う意味で乱数は完全なカオスってわけでもない。

単純無作為抽出法
母集団のすべてのデータをナンバリングして標本を選ぶ方法。母集団の大きさがそれほどでもない時に使える。

系統抽出法
母集団のすべてのデータをナンバリングし、最初に一つサンプルを選び、このサンプルのナンバーから一定間隔で次の標本を選んでいく方法。

多段抽出法
都道府県を選ぶ→選ばれた都道府県の中の市町村を選ぶ→選ばれた市町村の中の地区を選ぶ・・・といったように段階的に集団を選ぶ方法。

層別抽出法
母集団に含まれる各グループの構成比率を考慮して標本を選ぶ抽出方法。
例えば母集団の構成が、Aグループ70％、Bグループ30％で、ここから100人のサンプルを選ぶ場合、Aから70人、Bから30人を選ぶとあらかじめ設定してしまう。

最尤法
現在手元にあるサンプルは最も手に入れやすい、一番妥当なサンプルであると仮定する方法。例えばコイントスを10回して、表が６回、裏が４回出たとすると、このコインで表が出る確率は60％が妥当だと考える。
とはいえ、このコインが表を出す本当の確率はよくわからないので、これをpとすると、裏が出る確率は（１－p）となり、先ほどの試行結果が出る確率（尤度関数L）は

尤度.jpg

となる。では、この式の確率を最大にするためのpの値はいくつなのかを考えると、上の式の尤度関数か対数尤度関数の答えを最大化させればいいので、比較的計算が易しいほうの対数尤度関数で計算すると

これを微分して答えが０になれば、正規分布に傾き０の接線が引け、それが可能なポイントはグラフの頂点だけだということで、尤度関数の確率は最大になる。
ということで、微分してみると

尤度３.jpg

分数の足し算なので、通分して

よってこの答えを最大化するにはpに３／５を代入すれば分子の（）の中が０になり、答えが０になるので、p＝３／５、すなわち６／10で、やっぱり60％となる。

最尤推定量
この話を一般化すると、パラメータθの母集団f（x；θ）からn個の無作為標本をゲットした場合、尤度関数L（θ｜x１，x２…xn）は

また、対数尤度関数は

これを最大化させるパラメータは最尤推定量（θハット）と呼ばれる。

例えば、平均μ、分散σ2の正規分布N（μ，σ2）からn個の無作為標本x１，x2，・・・，xnをゲットしたとして、この時の母集団の平均μの最尤推定量と、分散σ2の最尤推定量を求める。
まず、下ごしらえ。
n個の無作為標本が平均μ、分散σ2の正規分布に従う確率は、１個目～n個目までのデータをかけていくので、小学館の机を使って

これを計算すると

　　　　
の部分は普通にn回かければよく、

の部分は指数なので、指数法則（※）より、指数同士をn回足せばいいので

　

かなり複雑なので、対数尤度関数の形にして
　　　

指数をマイナスにすると分母が累乗されるので

この式を最大にするμの値を求めればいいので、この式を微分するわけだが、この式にはμとσの二つのパラメータがあるので、まずは平均μについてだけ微分する。つまり、σを定数としてμで微分する。
こういう複数のパラメータがある際、任意のパラメータだけを微分することを偏微分といい、偏微分をしたよという意味の∂（デルもしくはデルタ、ディー）をつける。

指数のない

名称未設定-6.5.jpg

の部分は消え、

指数２のある

名称未設定-7.jpg

　　　　
は指数の２が消えて、係数の２がつくので
　　　　

この値が０になればよいので

名称未設定-9.jpg

の時に分子が０になり、対数尤度関数は最大になる。
よって、平均μの最大推定量μ^（ミューハット）は

名称未設定-10.jpg

で、標本平均値と同じということがわかる。

次に、分散σ2の最尤推定量を求める。今度はσ2で偏微分すればいいので、まずは微分しやすいように式の形を変える。

log（）の平方根は、２で割ると（）の中が２乗されて消えるので

分配法則を使って

　　　
ここでσ2で偏微分して（※y＝logxの微分はy′＝１／x）

　　　
この分数の引き算を通分して

この式が＝０になればいいので

よって、分散σ2の最尤推定量σ2^は

統計的仮説検定
生まれたばかりのラット15匹のうち、８匹には飼料Aを、７匹には飼料Bを与え飼育した。一定期間後に体重（g）を量ったところ以下のようなデータが出た。

飼料A 46.9 46.2 47.1 45.0 48.7 47.6 46.8 48.6
飼料B 48.6 49.2 47.5 51.0 50.3 49.0 49.7

このデータから餌の違いがラットの生育に影響を与えているかどうかを、有意水準（危険率）５％で仮説検証する。
ただし、ラットの集団は正規分布に従い、飼料Aの群れと飼料Bの群れの分散は等しいとする。

二つのグループがある場合の分散は

つまりグループAのそれぞれのラットの体重とグループAのラットの平均体重の差の合計を二乗した値と、グループBのそれぞれのラットの体重とグループBのラットの平均体重の差の合計を二乗した値を足し、さらにラット15匹－２＝13で割る。

したがって、分散は

この推定量を使って

が自由度13のt分布の95％のエリア内かどうかを確かめる。

Sはだいたい1.19なので

となる。
最後に、この－3.55が自由度13のt分布の95％のエリアに入っているかを、テキスト巻末資料のt分布の棄却点の表で確認する。
すると自由度13のt分布の棄却点は±2.160なので、－3.55は自由度13のt分布の95％のエリアから外れていることがわかる。
つまり「餌の違いがラットの生育に影響を与えている」という仮説が実際に正しい場合、上記のデータが現れる確率は５％以下であるため、この仮説は有意水準５％で棄却される。

前の記事：統計学覚え書き①
次の記事：確率論覚え書き

Calendar

search this site.

tags

漫画 (387)
脚本 (243)
映画 (235)
雑記 (163)
ゲーム (156)
本 (116)
教育 (107)
生物学 (105)
科学 (93)
社会学 (81)
歴史 (72)
テレビ (71)
芸術 (61)
政治 (50)
数学 (40)
進化論 (40)
資格試験 (38)
情報 (38)
サイト・ブログ (37)
語学 (37)
映画論 (36)
物理学 (33)
哲学 (32)
恐竜 (29)
育児 (28)
文学 (26)
化学 (25)
論文 (22)
PIXAR (22)
心理学 (18)
地学 (16)
気象学 (15)
地理学 (15)
技術 (13)
経済学 (12)
医学 (11)
玩具 (9)
司書 (8)
法律学 (7)
対談 (5)
スポーツ (4)
映画の評価について (1)
プロフィール (1)

archives

202601 (2)
202512 (4)
202511 (15)
202510 (8)
202509 (5)
202508 (3)
202507 (3)
202506 (3)
202505 (1)
202504 (2)
202503 (2)
202502 (2)
202501 (1)
202412 (2)
202411 (6)
202410 (2)
202409 (4)
202408 (4)
202407 (7)
202406 (27)
202405 (11)
202404 (4)
202403 (23)
202402 (22)
202401 (15)
202312 (4)
202311 (7)
202310 (2)
202309 (8)
202308 (9)
202307 (8)
202306 (5)
202305 (15)
202304 (4)
202303 (4)
202302 (2)
202301 (4)
202212 (15)
202211 (7)
202210 (5)
202209 (4)
202208 (4)
202207 (7)
202206 (2)
202205 (5)
202204 (3)
202203 (2)
202202 (5)
202201 (6)
202112 (6)
202111 (4)
202110 (6)
202109 (7)
202108 (5)
202107 (8)
202106 (4)
202105 (8)
202104 (4)
202103 (6)
202102 (10)
202101 (3)
202012 (12)
202011 (3)
202010 (4)
202009 (5)
202008 (6)
202007 (4)
202006 (4)
202005 (4)
202004 (7)
202003 (5)
202002 (6)
202001 (8)
201912 (6)
201911 (5)
201910 (3)
201909 (4)
201908 (10)
201907 (3)
201906 (6)
201905 (10)
201904 (3)
201903 (7)
201902 (8)
201901 (5)
201812 (7)
201811 (12)
201810 (7)
201809 (5)
201808 (10)
201807 (5)
201806 (19)
201805 (14)
201804 (11)
201803 (15)
201802 (4)
201801 (6)
201712 (4)
201711 (3)
201710 (11)
201709 (9)
201708 (15)
201707 (7)
201706 (4)
201705 (5)
201704 (6)
201703 (7)
201702 (6)
201701 (3)
201612 (3)
201611 (7)
201610 (7)
201609 (2)
201608 (8)
201607 (8)
201606 (7)
201605 (3)
201604 (4)
201603 (8)
201602 (3)
201601 (2)
201512 (3)
201511 (3)
201510 (4)
201509 (4)
201508 (8)
201507 (17)
201506 (2)
201505 (5)
201504 (9)
201503 (20)
201502 (7)
201501 (4)
201412 (5)
201411 (3)
201410 (2)
201409 (3)
201408 (3)
201407 (3)
201406 (12)
201405 (6)
201404 (7)
201403 (5)
201402 (12)
201401 (9)
201312 (6)
201311 (9)
201310 (8)
201309 (6)
201308 (6)
201307 (6)
201306 (10)
201305 (10)
201304 (23)
201303 (17)
201302 (16)
201301 (5)
201212 (10)
201211 (4)
201210 (18)
201209 (4)
201208 (30)
201207 (7)
201206 (4)
201205 (6)
201204 (4)
201203 (4)
201202 (3)
201201 (3)
201112 (4)
201111 (7)
201110 (3)
201109 (9)
201108 (3)
201107 (7)
201106 (2)
201105 (11)
201104 (7)
201103 (14)
201102 (19)
201101 (27)
201012 (25)
201011 (70)
201010 (34)
201009 (30)
201008 (42)
201007 (44)
201006 (29)
201005 (37)
201004 (50)
201003 (44)
201002 (48)
201001 (38)
200912 (20)

recent comment

recent trackback

others

admin

@tashirotakahiro からのツイート

<< January 2026 >>
Sun	Mon	Tue	Wed	Thu	Fri	Sat
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31