解析学覚え書き①

 解法が覚えきれん。特にリミット(極限)が好かん。アキレスとカメのパラドックスも、無限に時間を刻んじゃうからいつまでたってもカメに追いつけないわけで、そもそもその発想が違うんじゃないかっていうね。
 実際ゼノンも直線の無限分割を批判する文脈で、このパラドックスを論じたらしい。シュレーディンガーのネコ的に。

 こういう脳が疲れた時にこそ『ペット』のようなバカ映画よ。あと、この前いまさらだけど『バトルロワイヤル』観た。なんも内容がなかった。公開当時は、すごいセンセーショナルな内容で、これ以後サブカルで「殺し合いゲームもの」みたいなジャンルができたような気もするけど、私はなんといっても酒鬼薔薇世代だからな。こういう「最近の中学生はモンスター」的な映画に、すごい嫌悪感があった(『告白』とか)。
 そもそも子どもっていうのは「おとな」と「こども」のように二元的に隔てられうる種族じゃないわけで、時間的な経過点なわけじゃん。来た道、行く道で。
 まあそういうマスコミの短絡的な報道を、この映画は皮肉ったのかもしれないんだけど、鑑賞してみてびっくり。全くテーマや内容がないww
 ただ中学生がサバイバルゲームやって撃ち合うだけ。超テレビゲーム。たけしさんが出てくるんだけど『アウトレイジ』のような痛さはゼロ。
 例えば、マリオでクリボーを踏み殺すとき、そんな罪悪感ってないじゃん。この映画も何十発もマシンガンの弾があたっているのにみんな結構平気なんだよ(^_^;)この映画のマシンガンって、かめはめ波みたいなもんで様式美なんだよな。でもサブカルチャーって本来はそんなものなのかもな。
 逆に、ここまで暴力をリアリティのないものとして描けるんだってことにゾッとしたっていうのはある。だから国会がやばいぞって動いたんだろう。そう言う意味で女の子が戦車乗るやつと変わらねえんだ。弾が当たったら死ぬか死なないかの違い。
 で、キャラが死んでも、クリボーが死ぬレベル。ゲームやってるとそういう感情が麻痺するのかもしれない。そういや、自分の時代ってテレビゲームをやる女子って少数派だったからさ、たまにいたよね。あまりテレビゲームやらない女の子がクリボー踏む時に「ごめんなさい!」って言ったり。あのピュアな感性を忘れずにいたいものよ。

 そんなわけで、映画観るのに頭使いたくないっていう客が多いのも、今ならわかるわ。学生は学校以外で頭を使いたくないのだ。

逆関数
y=2Xは、YはXを二倍した値という意味だが、これをXの視点から考えると、XはYを二で割った値ということになる。
この時のX=Y/2を逆関数という。

三角関数の逆関数
三角関数では、Y=tanXを満たすXは複数あり、ひとつに絞られないため
X=arctanYみたいに表す。
これを踏まえて
arctan1.jpgという逆三角関数の足し算の値を求める。

arctan2.jpgはタンジェント(正接)の逆関数(アークタンジェントarctan)であるので

arctan3.jpg
とすると

arctan4.jpg
なので

arctan5.jpg
※tan=sin/cos

上のタンジェントの加法定理の式に代入すると
arctan6.jpg

タンジェントが1になる角度は45°(=π/4)なので
arctan7.jpg

逆三角関数の微分
逆三角関数の微分.jpg

arctan微分.jpg
を微分すると
名称未設定-1.jpg
2/√3有理化をして
名称未設定-3.jpg

極座標
ある点P(x,y)が座標上にあったとき、点Pの原点からの距離rと、その点と原点を結んだ直線の傾き(角度)θをまとめて表した(r,θ)を点Pの極座標という。
このとき、点Pと、原点と、点(x,0)で直角三角形を作ると
x=r×cosθ → cosθ=x/r
y=r×sinθ → sinθ=y/r
rは三平方の定理から
極座標.jpgと表せる。

曲線
極座標2.jpg
を直交座標(※)で表した時の方程式は、二倍角の公式を使って
極座標3.jpg
となる。

(※)座標を表す直線が直交する方眼紙のような座標。中学校で習うデカルト座標

対数微分法
対数微分法1.jpg
を微分すると、両辺をxで微分するので(※)
対数微分法2.jpg

(※)yについての式であるlogy.jpgをxで微分するにはちょっとした工夫が必要になってくる。

①yをxで微分するとy'
logy.jpgをyで微分すると1/y

①②より合成関数の微分と考えて
対数微分法3.jpg

確率論覚え書き

 本当に覚え書きレベル。おそらく積率母関数の解法も追加すると思うんだけど、ちょっと現段階では歯が立たないので後回し。
 しかし、数学を解いていると時間があっという間に過ぎてタイムワープするよね。そして寝不足。そりゃ、円周率やフェルマーの最終定理の証明に人生すべてを使っちゃう人も出てくるよね。
 この前買った統計学の本にも「なんと!このテキストは通し読みがたったの二週間でできます!」みたいに書いてあって、軽く衝撃を受けたもんw読書に対するイメージが文系のそれとは全く異なるわけだ。
 だから高校の数学のカリキュラムがいかに無茶な詰め込みをやっているのがよくわかるよね。初見は理解に時間がかかるのは当たり前なのに、自分の学校なんかは理系進学校とかで3年分を2年で終わしちゃってたしね。当然取り残されたしたよ、あたしゃ(C)浅香光代さん
 むしろ、あれでついていける方がおかしいんだよな。エリート以外をそぎ落とすためのカリキュラムなんだろうな。

参考文献:塚田真一著『Primary大学テキストこれだけはおさえたい確率統計』

確率の基本用語
中学~高校で習う言葉をおさらい。
おう、なつだぜ。おれはげんきだぜ。カップとキャップがややこしいぜ。

施行
結果が偶然に支配されている実験のこと。ある施行(サイコロを転がす)を行った時に、起こり得る結果(2や5)を根本事象、これを集めた集合を標本空間Ω(1、2、3、4、5、6)という。

数学的確率(ラプラスの確率定義)
有名なラプラスによる定義(Since1812)。ある施行(例:サイコロをふる)についての標本空間のサイズがn(1~6の目=6通り)で、どの根本事象(目)も、“同様に確からしく”起きるとき、Eが起きる場合の数をrとすると、Eが起きる確率P(E)は

P(E)=r/n

経験的確率(統計的確率)
明日の天気や保険会社の掛け金など、手持ちの統計(データ)をもとに未来を予測する確率。
サイコロを振る回数をどんどん増やしていけばいくほど、ある目が出る回数はだんだん1/6に近づいていくという考え方。
つまり試行回数をn、そのうちEが起きた回数をrとする

P(E)=lim(n→∞)r/n

リヒャルト・フォン・ミーゼスが定義(Since1928)。ちなみに兄のルートヴィヒ・ミーゼスはハイエクの師匠として有名なオーストリア学派の経済学者。

全事象
必ず起こる事象。

空事象
絶対起こらない事象。

和事象
AかBのどっちか一方が起きる事象のこと。A∪B(AカップB)と表す。
AorBのがわかりやすい気がする。

積事象
AtoBが同時に起きる事象のこと。A∩B(AキャップB)と表す。
AandBのがわかりやすい気がする。
A∩Bが空事象であるときは、AtoBは互いに排反であると呼ばれる。

余事象
Aが起こらない事象。Acと表す。Aは起こるが、Bは起こらない事象はA∩Bcとする。

ド・モルガンの法則
モーガンではなく、あえてモルガンと読む。ベン図を書くと分かりやすい。

①Aが不可能またはBが不可能である場合、AとBを兼ねることは不可能。
Ac∪Bc=(A∩B)c

②AとBが同時に不可能である(AもBも起きない)場合、AまたはBであることは不可能。
Ac∩Bc=(A∪B)c

確率分布
ひとつのサイコロを2回投げた時、出た目の大きい値をxとする。
このときxの確率分布および、その平均と分散を求めよ。

x=1の時
2回とも1の目の時だけなので
1/6×1/6=1/36

x=2の時
①1回目が1、2回目が2の時
②1回目が2、2回目が1の時
③1回目も2回目も2が出た時
の3パターンあるので
3/36

もしくは(1回目も2回目も2以下の目の時)-(x=1の時)なので
2/6×2/6-1/36=3/36

x=3の時
同様に(1回目も2回目も3以下の目の時)-(1回目も2回目も2以下の目の時)なので
3/6×3/6-4/36=5/36

x=4の時
(1回目も2回目も4以下の目の時)-(1回目も2回目も3以下の目の時)なので
4/6×4/6-9/36=7/36

x=5の時
以下省略
5/6×5/6-16/36=9/36

x=6の時
6/36×6/36-25/36=11/36

したがって確率分布の平均は
(1×1/36)+(2×3/36)+(3×5/36)+(4×7/36)+(5×9/36)+(6×11/36)=161/36≒4.472

分散は、(各事象と平均との差の二乗)×その事象の確率なので

 {1-(161/36)}^2×1/36
+{2-(161/36)}^2×3/36
+{3-(161/36)}^2×5/36
+{4-(161/36)}^2×7/36
+{5-(161/36)}^2×9/36
+{6-(161/36)}^2×11/36

となり、通分して分子を足したり、電卓を使って二乗すると

 15625×1/46656
+7921×3/46656
+2809×5/46656
+289×7/46656
+361×9/46656
+3025×11/46656

 15625/46656
+23763/46656
+14045/46656
+2023/46656
+3249/46656
+33275/46656

=91980/46656
≒1.97

倍数の判定方法
それぞれ1、2、3、4が書かれたカード4枚を無作為に並び替えて4ケタの数字を作る。
この時出来た数字が4の倍数である確率を求めよ。

無作為に並べて出来る4ケタの数は4×3×2×1=24通り。

4の倍数は100の位より大きい位はすべて4で割れてしまうので、下2ケタだけ確認すればいい。

4(250×A+25×C)+10×C+1×D

4ケタの数字の下2ケタが4の倍数になる場合は、12、24、32の3通りなので、4の倍数になる確率は3/24=1/8

ベイズの定理
Aが起きる確率×Aが起きて更にBが起きる確率と
Bが起きる確率×Bが起きて更にAが起きる確率は
AとBが同時に起きる確率と等しいという定理。

P(A)×P(B|A)=P(B)×P(A|B)=P(A∩B)

Aを「ハンバーガーを注文した客の数」、Bを「ポテトを注文した客の数」などにして、ベン図を書いて実際に計算してみるとわかりやすい。
例えば100人のお客がサンドサンドバーガーコスモ店にやってきて、そのうちハンバーガーをオーダーした客が70人、ポテトをオーダーした客が30人いたとする。
さらにハンバーガーとポテトをどちらもオーダーした人は100人中20人いた。

ハンバーガーとポテトをどちらも注文した人の確率は言うまでもなく2/10
ハンバーガーを注文し、さらにポテトを注文した人の確率は70/100×20/70=2/10
ポテトを注文し、さらにハンバーガーを注文した人の確率は30/100×20/30=2/10

よってどれも同じ確率である。

もう一つ大学で出された問題をやってみる。
同じ形をした3個の箱A,B,Cがある。
箱Aの中には赤玉1個と青玉1個が入っている。
箱Bの中には赤玉1個と青玉3個、箱Cの中には赤玉2個と青玉3個が入っている。
3つの箱の中から1つの箱を選び、選んだその箱から玉を1個無作為に取り出すとき、次の確率を求めよ。

(1)取り出した玉が青玉である確率
青玉が出る事象をbとすると、その確率P(b)は
P(b)=P(b∩A)∪(b∩B)∪(b∩C)
   =P(b∩A)+P(b∩B)+P(b∩C)

箱Aを選んで青玉を取り出す確率P(b∩A)は
1/3×1/2=1/6
箱Bを選んで青玉を取り出す確率P(b∩B)は
1/3×3/4=1/4
箱Cを選んで青玉を取り出す確率P(b∩C)は
1/3×3/5=1/5
したがって
取り出した玉が青玉である確率は
1/6+1/4+1/5=37/60

(2)取り出した玉が青玉であるとき、箱Aが選ばれた確率
箱Aを選んで青玉を取り出す確率/取り出した玉が青玉である確率
なので
1/6/37/60 =10/37

確率密度関数
根本事象がデジタルな離散形の確率ならともかく、連続型の確率の場合、その事象がピッタリ起きる確率はほとんどゼロであるため、確率を求めたい事象にA以上B以下といった具合に幅を持たせる。
この考えのもと、連続型確率変数 X(どの根本事象が起きるかによって変わる変数。サイコロの目なら1~6のどれか) に対して,Xが a 以上 b 以下となる確率が

P(a≦X≦b)=∫[a→b]f(x)dx

である場合、f(x)は確率密度関数と呼ばれる。

また、このときの平均は、確率変数X×確率密度関数f(x)の積分となるため

E(X)=∫[a→b]Xf(x)dx

連続型確率変数Xの一次変換Y=aX+b (aとbは定数)の平均は
E[Y]=a E[X] +bになることを確かめてみる。

確率密度関数をf(x)、確率変数をXとする

E(X)=∫[-∞→∞]Xf(x)dx

Y=aX+bとして

E(Y)=∫[-∞→∞] Yf(y)dy
  =∫[-∞→∞] (aX+b)f(x)dx
  =a∫[-∞→∞]Xf(x)dx+b∫[-∞→∞]f(x)dx
  =aE[X]+b※

※∫[-∞→∞]f(x)dxの確率は1(100%)になるため。

確率分布の平均
f(x)=k(x^2-1)(-1≦x≦1)
f(x)=0(x<-1、1<x)
が確率密度になるようにkの値を求め、その確率分布の平均を求めよ。
確率分布関数①.jpg

上の式を積分すると
1の積分はx
x^2の積分はx^3/3なので
確率分布関数②.jpg

確率分布関数③.jpg
-4/3k=1なので、k=-3/4

確率分布の平均は
確率分布関数④.jpg
※カッコの中が1/4-1/4と1/2-1/2になるので
平均は0である。

モーメント(積率)
次の日頑張ったので追加。モーメントとは確率分布の特徴を表す量。
E[X]を確率の期待値(平均値)、次数をkとすると

離散形では
モーメント離散形.jpg

連続型では
モーメント連続型.jpg

となり、1次(k=1)だと期待値(平均値)、2次(k=2)だと分散、3次(k=3)だと歪度、4次(k=4)だと尖度が求められる。

モーメント母関数
微分して任意の実数tに0を代入すれば、1次、2次、3次・・・と、すべての次数のモーメントが得られる関数をモーメント母関数(モーメント・ジェネレーティング・ファンクション)という。

離散形では
母関数離散形.jpg

連続型では
母関数連続形.jpg

モーメント母関数は微分が無制限にできるので、テーラー展開(Xのべき乗の多項式に展開すること)ができる。

テーラー展開.jpg

標準正規分布のモーメント母関数
平均=0、分散=1の標準正規分布の式は
標準正規分布.jpg

なので、連続型の方の式に代入すると
標準正規分布の母関数の解法.jpg
※正規分布の式を-∞~∞の区間で積分すると1になる(確率関数なので)。

よって標準正規分布のモーメント母関数は
標準正規分布の母関数.jpg

となる。
このモーメント母関数を1~4階微分して導関数を求めると、それぞれ
標準正規分布の母関数の1~.jpg
となる。(※)

これらの式に、それぞれt=0を代入すると

1次モーメントは
2次モーメントはeの0乗の答えは1になるので
3次モーメントは
4次モーメントは一番左の項だけ生き残って3×1=

となる。

(※)こしさんの解説(ありがとうございました!)
こしさん.jpg

統計学覚え書き②

 今回は標本調査について。木を見て森を推測するため、誤差が発生する。
 この標本誤差は、母集団と標本のデータ数が近づけば近づくほど小さくなる(全数調査では標本誤差は発生しないから)。これを大数の法則という。
 
正規分布
別名ガウス分布。パラメータ(後述)を説明する際には、ノーマル・ディストリビューションの頭文字Nを用いる。
身長や体重、偏差値など、最も数が多い平均的(フツー)な集団が山の頂上を形成し、フツーじゃない奴はその程度に応じてどんどん山の裾野に追いやられていくという分布。
グラフの形自体はシンメトリーでシンプルだが、式にすると恐ろしいことになる。ちなみにμ(ミュー)は平均、σ2(シグマ)は分散を表す。

正規分布の公式.jpg

exp[ほにゃらら・・・]は経験値・・・ではなく、エクスポネンシャル・ファンクション(指数関数)の略で、対数関数を微分するための無理数(ネイピア数e≒2.71)の指数を表している。
ちなみにネイピア数は超便利で、1を何乗しても1であるように、e^xを何回微分しても答えがe^xのまま変わらない。

そもそも正規分布のグラフは、もっとも簡単に表すと

正規分布の公式2.jpg

であり(急激に減少するタイプの関数)、指数にも指数がついちゃっているので、ややこしいから

正規分布の公式3.jpg

と、表し直す。

次に正規分布は、デジタルではなく、身長のようにスペクトラムなデータを扱うので、その合計値は∑ではなく∫(インテグラル)を使用する。つまり積分(グラフの内側の面積を、シュレッダー的に無限に細かく千切りをしてから、再び貼り合わせて求めること)をする。
ちなみにインテグラルは、足し算の答えのSUMの頭文字のSを縦にビヨーンと引き伸ばしたもので、シグマとあんま意味は変わらない。
ただシグマは1番からn番までを足していたが、インテグラルは数直線の原点0の左右に広がる正の世界と負の世界のそれぞれの地平線の向こう側まで足してしまう。
オレ達と一緒に行こうぜ!無限大の彼方へ!(懐かしい)

正規分布の公式4.jpg

を積分すると、ガウス積分の公式より、その値は円周率の平方根と等しくなるので

ガウスの積分公式.jpg

また、正規分布はそこに含まれるすべての集団の割合の合計値が1(=100%)になるので、方程式の右辺を1にするために、両辺を√πで割る。

ガウスの積分公式2.jpg

個人的にはこの形で終了でもいいと思うんだけど、この式を微分すると、係数で×2が出てきちゃうので、その手間を省くためにXを変数変換(※)して調整する。

※X→√2×X’と変換する(√2で割る)と指数は複雑になるが、微分したあとの係数が1になる。

ガウスの積分公式3.jpg

こうしてできた式が、平均が0(正規分布のグラフの真ん中を示す軸zがX=0、つまり中心にある)、分散が1(標準偏差も1)という、最もわかりやすい正規分布、標準正規分布の式である。
実際は平均が中心からずれてたり(軸zがプラスにズレたりマイナスにズレたり)、分散も1より小さかったり(グラフの幅が狭まる)、1よりも大きかったり(グラフの幅が広がる)するので

正規分布の公式.jpg

として、μとσに具体的な値を代入し、グラフの形を求める。

母数(パラメータ)
母集団分布の状況を曲線で示したときに現れる、そのモデルを特徴付ける特性値のこと。
たとえば、正規分布の曲線の場合、平均μと分散σ2のふたつの母数の値が決まれば、曲線の形状が決まることが、さっきの式で理解できる。

標本の抽出方法
いろいろあります。

無作為抽出
母集団から完全にランダムに標本を選ぶというイメージがあるが、厳密には母集団が含む調査対象をすべて同じ確率で選ぶ抽出方法を指す。そう言う意味で乱数は完全なカオスってわけでもない。

単純無作為抽出法
母集団のすべてのデータをナンバリングして標本を選ぶ方法。母集団の大きさがそれほどでもない時に使える。

系統抽出法
母集団のすべてのデータをナンバリングし、最初に一つサンプルを選び、このサンプルのナンバーから一定間隔で次の標本を選んでいく方法。

多段抽出法
都道府県を選ぶ→選ばれた都道府県の中の市町村を選ぶ→選ばれた市町村の中の地区を選ぶ・・・といったように段階的に集団を選ぶ方法。

層別抽出法
母集団に含まれる各グループの構成比率を考慮して標本を選ぶ抽出方法。
例えば母集団の構成が、Aグループ70%、Bグループ30%で、ここから100人のサンプルを選ぶ場合、Aから70人、Bから30人を選ぶとあらかじめ設定してしまう。

最尤法
現在手元にあるサンプルは最も手に入れやすい、一番妥当なサンプルであると仮定する方法。例えばコイントスを10回して、表が6回、裏が4回出たとすると、このコインで表が出る確率は60%が妥当だと考える。
とはいえ、このコインが表を出す本当の確率はよくわからないので、これをpとすると、裏が出る確率は(1-p)となり、先ほどの試行結果が出る確率(尤度関数L)は

尤度.jpg

となる。では、この式の確率を最大にするためのpの値はいくつなのかを考えると、上の式の尤度関数か対数尤度関数の答えを最大化させればいいので、比較的計算が易しいほうの対数尤度関数で計算すると

尤度2.jpg

これを微分して答えが0になれば、正規分布に傾き0の接線が引け、それが可能なポイントはグラフの頂点だけだということで、尤度関数の確率は最大になる。
ということで、微分してみると

尤度3.jpg

分数の足し算なので、通分して

尤度4.jpg

よってこの答えを最大化するにはpに3/5を代入すれば分子の()の中が0になり、答えが0になるので、p=3/5、すなわち6/10で、やっぱり60%となる。

最尤推定量
この話を一般化すると、パラメータθの母集団f(x;θ)からn個の無作為標本をゲットした場合、尤度関数L(θ|x1,x2…xn)は

尤度5.jpg

また、対数尤度関数は

尤度6.jpg

これを最大化させるパラメータは最尤推定量(θハット)と呼ばれる。

例えば、平均μ、分散σ2の正規分布N(μ,σ2)からn個の無作為標本x1,x2,・・・,xnをゲットしたとして、この時の母集団の平均μの最尤推定量と、分散σ2の最尤推定量を求める。
まず、下ごしらえ。
n個の無作為標本が平均μ、分散σ2の正規分布に従う確率は、1個目~n個目までのデータをかけていくので、小学館の机を使って

名称未設定-1.jpg

これを計算すると

名称未設定-2.jpg
    
の部分は普通にn回かければよく、

名称未設定-3.jpg

の部分は指数なので、指数法則(※)より、指数同士をn回足せばいいので
指数法則.jpg

名称未設定-4.jpg 

かなり複雑なので、対数尤度関数の形にして
   
名称未設定-5.jpg

指数をマイナスにすると分母が累乗されるので

名称未設定-6.jpg

この式を最大にするμの値を求めればいいので、この式を微分するわけだが、この式にはμとσの二つのパラメータがあるので、まずは平均μについてだけ微分する。つまり、σを定数としてμで微分する。
こういう複数のパラメータがある際、任意のパラメータだけを微分することを偏微分といい、偏微分をしたよという意味の(デルもしくはデルタ、ディー)をつける。

指数のない

名称未設定-6.5.jpg

の部分は消え、

指数2のある

名称未設定-7.jpg
    
は指数の2が消えて、係数の2がつくので
    
名称未設定-8.jpg

この値が0になればよいので

名称未設定-9.jpg

の時に分子が0になり、対数尤度関数は最大になる。
よって、平均μの最大推定量μ^(ミューハット)は

名称未設定-10.jpg

で、標本平均値と同じということがわかる。

次に、分散σ2の最尤推定量を求める。今度はσ2で偏微分すればいいので、まずは微分しやすいように式の形を変える。

σ1.jpg

log()の平方根は、2で割ると()の中が2乗されて消えるので

σ2.jpg

分配法則を使って

σ3.jpg
   
ここでσ2で偏微分して(※y=logxの微分はy′=1/x)

無題.jpg
   
この分数の引き算を通分して

σ5.jpg

この式が=0になればいいので

σ6.jpg

よって、分散σ2の最尤推定量σ2^は

分散の最尤推定.jpg

統計的仮説検定
生まれたばかりのラット15匹のうち、8匹には飼料Aを、7匹には飼料Bを与え飼育した。一定期間後に体重(g)を量ったところ以下のようなデータが出た。

飼料A 46.9 46.2 47.1 45.0 48.7 47.6 46.8 48.6
飼料B 48.6 49.2 47.5 51.0 50.3 49.0 49.7

このデータから餌の違いがラットの生育に影響を与えているかどうかを、有意水準(危険率)5%で仮説検証する。
ただし、ラットの集団は正規分布に従い、飼料Aの群れと飼料Bの群れの分散は等しいとする。

二つのグループがある場合の分散は

ラット2.jpg

つまりグループAのそれぞれのラットの体重とグループAのラットの平均体重の差の合計を二乗した値と、グループBのそれぞれのラットの体重とグループBのラットの平均体重の差の合計を二乗した値を足し、さらにラット15匹-2=13で割る。

グループA.jpg

グループB.jpg

したがって、分散は

ラットの分散.jpg

この推定量を使って

t分布.jpg

が自由度13のt分布の95%のエリア内かどうかを確かめる。

Sはだいたい1.19なので

t分布2.jpg

となる。
最後に、この-3.55が自由度13のt分布の95%のエリアに入っているかを、テキスト巻末資料のt分布の棄却点の表で確認する。
すると自由度13のt分布の棄却点は±2.160なので、-3.55は自由度13のt分布の95%のエリアから外れていることがわかる。
つまり「餌の違いがラットの生育に影響を与えている」という仮説が実際に正しい場合、上記のデータが現れる確率は5%以下であるため、この仮説は有意水準5%で棄却される。

統計学覚え書き①

 式がほぼ英語。

 ここで自分の英語アレルギーが足を引っ張るとは思わなんだ。
 この分野に関しては、地道にコツをつかんでいかないと、式の意味すら分からないということが判明したため、急遽、統計学に関する本を4冊ほど追加注文。ごちゃごちゃした数式とにらめっこしながら、元気にネットカフェで頑張ってます。
 ちなみに今日から生物学実験が始まったんだけど、生物学の教授、超いい人。話超面白い。
 ただ、その優しさに騙されてはいけない!理科の単位で最もカラい評価なのが、イエッス、生物学なのだ!試験範囲が生物学全て(細胞、植物、動物、発生、遺伝、生理、分類、生態、環境、進化・・・)という前代未聞の広さで、北欧の生物学のテキストを暗記しなければならず、しかも、テキストに書いてあることをテストでそのまま書いても合格しないという恐ろしさよ。
 まあ自分は生物学が好きだから、割ととんとん拍子にとれたんだけど、苦戦した人が多かったようで、一体どんなバケモンがバイオを担当してたんだと思ってたら、超いい人。この優しさの仮面の裏は般若だね。(C)まる子

参考文献:塚田真一著『Primary大学テキストこれだけはおさえたい確率統計』、吉田寿夫著『本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本』、今野紀雄著『図解雑学統計』、馬場敬之著『スバラシク実力がつくと評判の統計学キャンパス・ゼミ―大学の数学がこんなに分かる!単位なんて楽に取れる!』

統計
統計学の歴史は古く、古代文明のセンサスまでさかのぼるらしい。統計の語源は国家と一緒でステータスで、国家を運営するためには国民の統計が欠かせないというわけである。
近代的な国際関係ができた17世紀のウェストファリア条約以降は、国家の運営だけではなく、疫病の流行や、天文学、生物学といった自然科学にも応用され(あと優生学)、その後、各学問における統計学的な規則性は、そっくりそのまま他の分野に流用できる普遍性を持つことがわかってきた。
ここらへんから素人お断りな抽象的な数理モデルが幅を利かせるようになり、現在ではエクセルで決まったコマンドを打ち込むとコンピュータが勝手に計算してくれるまでになった。

全数調査(記述統計学)
イギリスの統計学者ピアソンが大成。調査対象を全部しらみつぶしに調べるタイプ。
データが膨大でそこから傾向を導き出すのは非常に難しい。よって、平均をとったり、棒グラフや円グラフにしてわかりやすく視覚化するなどの工夫が必要になる。今回の統計学覚え書き①はその手法についてまとめます。

標本調査(推測統計学)
調査対象の一部しか調べないタイプ。1925年に経済学者のフィッシャーが考案。
世論調査や視聴率のように調査対象の集団が大きすぎる場合や、製品の品質管理における破壊検査など、とてもじゃないけど調査対象をすべて調べられない場合におこなうサンプル調査。全体(母集団)の一部である部分(標本)から、全体を推測するという考え方。

ベイズ統計学
1950年代に誕生。母集団を前提にしないで、現時点における情報だけで計算してしまう、かなり主観的なタイプ。
有名なのは、クイズ番組のモンティホール問題というやつで、これはいまだに決着がついていない。計算の仕方でどうにでもなるらしい。

データ
いろいろあります。

質的データ(カテゴリカルデータ)
割合は求められるが、平均は求められない、もしくは求めても意味がないデータのこと。
さらに、質的データは、性別や血液型といった順序関係がないデータである名義尺度と、現在の内閣は「非常に満足」「やや満足」「どちらでもない」「やや不満」「不満」など順序がつけられるデータである順序尺度に分けられる。

量的データ
数値によって記録できるデータ。
身長・体重といった連続的(アナログ)な値をとる連続型データと、さいころの目といった非連続的(デジタル)なとびとびの値をとる離散型データに分けられる。

比尺度のデータ
0の意味が絶対的な意味を持つデータのこと。身長など。0cmは長さがない。

間隔尺度のデータ
0の意味が相対的な意味を持つデータのこと。気温など。0℃は温度がないわけじゃない。

次元
観測値の項目のこと。項目がひとつだけなら一次元データ、ふたつなら二次元データ。三次元以上は多次元データと呼ばれる。次元が複数のデータを分析する場合は多変量統計解析を行う。

グラフ
いろいろあります。

棒グラフ
各自動車会社の販売台数といった、ランキングを表示するときわかりやすい。

折れ線グラフ
時間とともに変化する歴史的なデータをとらえるときわかりやすい。

円グラフ
それぞれのデータの構成比率がわかりやすい。

ヒストグラム(柱状グラフ)
縦軸を各階級の度数、横軸を階級にしたグラフで、データの分布状況がわかりやすい。

箱ひげ図
名前が危機一髪的で面白い。各データの最小値と最大値のギャップをひげの長さで、データのばらつきを表す第1四分位点(小さい順から1/4番目のデータ)と、第3四分位点(小さい順から3/4番目のデータ)のギャップを箱の長さで表すグラフ。ちなみに箱の間には中央値(小さい順にデータを並べたときちょうど真ん中のデータ)の線が入る。

相関図(散布図)
縦軸に湿度、横軸に最高気温といったように、相関性のありそうなデータを両軸に取った図のこと。
3つの相関性のあるデータを一度に図にしたい場合はバブルチャートになる。ロープレの各ステータス(HP、MP、攻撃力、防御力、素早さ)のような、それ以上の種類のあるデータをまとめるときはレーダーチャートを使う。

縮約値
データの特徴を表してくれる値。いくつかは脱ゆとりで中学校の数学で習うことになった。

モード(最頻値)
質的データの場合に、観測される頻度が最も多いカテゴリーをいう。たとえば都知事選の出口調査における百合子みたいな。
これはデータの分布をグラフ化したときに山(ピーク)が一つだけのときに有効な値となる。

メジアン(中央値)
データを大きさ順に並べたとき、ちょうど真ん中にくるデータの値。ゴレンジャーをイメージすればわかるように、データの数が奇数の場合は真ん中のメジアンは決めやすいが、偶数の場合は真ん中がどっちか決められないので、二つの値を合計して二で割っちゃう。
メジアンは、例えばGDPが超高い国があったとして、じゃあ国民全員が金持ちなのかな、いや、実はごく一部の超ウルトラ金持ちが平均を引き上げてるんじゃないか?みたいな疑問を持ったときに便利です。

平均
最も有名な縮約値。
たとえば30人のクラスのテストの平均点は、生徒30人分の点数を一回すべて足して(集めて)、その値を30で割れば出せる。つまり、n個のデータをすべて足して、その数をnで割ると出せる。まさに社会主義の富の再分配。
xの平均はxの上に横棒を載せてxバーとするのだが、案の定タイプできないので、x均とします。

Xの平均=(1番目からn番目までの全部のデータの合計)/n

x均=(x1+x2+x3+・・・+xn)/n

シグマを使って表すと、小学生でも理解できる計算が一気に遠い存在になる。

平均.jpg

この時の∑は「xに関するデータを1番目からn番目まですべて足す」という意味。
これをnで割るので、×1/nをしている。
ちなみに1番目からn番目までかける場合は、シグマではなくパイの大文字のΠを使います。こいつずっと読み方わからなかった。小学館の机だと思ってた。

ちなみに、元のデータの単位を変えてxiがaxi+bになったとき、再びその平均を出す場合は、元データの平均にaをかけて、定数bを足す。
なんでそうなるかの計算は難しくはないんだけど、Σの計算式をタイプするのが非常に面倒くさいので、ワードの最新版を買ったら打ち込みます。

度数
それぞれの階級に該当するデータの数のこと。例えば点数が52点だった生徒は「2人」など。

級代表値
階級に「61~70点」などと幅があった場合、その階級を代表する値。ここでは真ん中の「65点」がそれ。

相対度数
各度数が度数の合計に占める割合。
各級代表値×各相対度数を全度数分Σですべて足すと、平均値が出る。

トリム平均
データの特異値(変に大きすぎたり、小さすぎたりする観測値)の影響をカットするため、データの上位と下位のいくらかを除いて、残ったデータの平均をとる方法。
吹奏楽コンクールやフィギュアスケートなど、複数の審査員がいる競技でよく用いられる。金属の熱伝導率の測定実験で用いた平均の出し方。

ミッドヒンジ
第1四分位点と、第3四分位点の平均。第1四分位点と、第3四分位点の値を足して、2で割る。

平均偏差
それぞれのデータと、平均値との差(Xi-X均)を、平均化するとする。
すると、当たり前っちゃ当たり前だけど、この値を全度数分、シグマを使って足すと(あとnで割るんだけど)、平均値に届かないデータ(負の数)も、オーバーするデータ(正の数)も互いに綺麗に相殺され、値は0/nとなり、答えは常に0になる。
これだとデータの偏りが何もわからないため、(Xi-X均)を|Xi-X均|と絶対値にして、平均化したものを平均偏差という。
平均偏差.jpg

分散
平均偏差では(Xi-X均)を絶対値にしてΣですべて足したが、(Xi-X均)を2乗したものは分散と呼ばれ、S2で表される。
なぜに2乗かというと、平均偏差の時にも言ったように(Xi-X均)で計算をすると、正の数と負の数が出てしまうので、2乗することで符号をプラスに統一しているというわけ。じゃあ4乗でも6乗でもいいじゃんって感じなんだけど、まあ確かに符号はプラスになるんだけど、何乗もしちゃうとデータの誤差もそれだけ指数関数的に増大しちゃうので、偶数で一番小さい2が選ばれている。
ちなみにxiの単位を変換し、xiが(axi+b)となっても、分散は元の分散の値にaの2乗をかけた値になるだけで、定数bは関係しないことが分かる。

標準偏差
平均偏差はそれぞれのデータと平均との距離(絶対値)の平均なので、もとのデータと単位がそろっているが、分散の場合は(Xi-X均)を2乗しているので元のデータの単位がそのまま使えない。そのため一般的にデータのばらつきを表す場合は、分散の平方根を求める。これを標準偏差といいで表す。
正規分布の山なりのグラフは、標準偏差が小さいほど、グラフの幅が狭く山の高さが高くなり、標準偏差が大きいほど、グラフの幅が大きくなり山の高さは低くなる。

変動係数
身長や体重といった個体差のばらつきの程度を調べる際に求める係数(%)。
標準偏差を平均で割って100をかける。

歪度
分布の山の頂上が左右のどこにあるか、つまり山のシンメトリー具合を表す。
歪度がプラスだと頂上は中心よりも左に、歪度が0だと左右対称(正規分布)、歪度がマイナスだと頂上は中心よりも右になる。

尖度
分布の山の尖り具合を表す。尖度がプラスだと尖り頂上は高くなり、尖度が0だと正規分布、尖度がマイナスだと山はなだらかに低くなる。

相関
xとyの2つのデータが影響しあっていること。
例えば土地の面積(x)と家賃(y)など。
xy座標の(x均,y均)に接近するほど相関性は強い(右肩上がりの角度45°の直線になる)。

最小二乗法
2つのデータを相関性を示す直線を回帰直線というが、その直線を求める際に用いる一つの手段。マリ・ルジャンドルが考案。
仮に回帰直線をy=ax+bとしたとき、その傾きと切片を求める場合、各データのポイント(xi,yi)を考えると、一次関数の左辺はyiで右辺はaxi+bとなり、左辺と右辺にはズレが生じる。
このズレyi-(axi+b)を二乗した値を度数分すべて足した値が最小になるような定数aとbを求める方法を最小二乗法という。
これを、またしちめんどうな計算をして求めると

a=Sxy/Sxx

b=y均-ax均

となるので、これをy=ax+bに代入すると回帰直線の式は

y=(Sxy/Sxx)x+{y均-(Sxy/Sxx)x均}
y=(Sxy/Sxx)(x-x均)+y均

ちなみにSxyは共分散、bは回帰係数と呼ばれる。

シン・ゴジラ

 「面白い度☆☆☆☆☆ 好き度☆☆☆☆ 業☆☆☆☆☆」

 ラーメンのびちゃったよ。

 なんとカードのポイントでタダで見れました。しかし言葉に困る。気軽に面白いって言うとヤバイ、クリエイターの“業”を痛感してしまうもの凄い映画だった。初代では太平洋戦争、こちらでは未曾有の震災。
 だから不謹慎なんだけど、ああいうクライシスが起きたとき、政府はこう動くんだ、へ~って感じで創作のネタにした奴らが作った映画なんだ。
 911が起きたとき、ある著名な芸術家が「感動しちゃった」とか言って、世間の顰蹙を買ったっていう話があるんだけど、これは口にするかしないかの話だけであって、クリエイターっていうのは、こういう大惨事が起きると「うおおお参考になる!メモメモ!」と心の中で不謹慎にも興奮してしまうマッドな側面が絶対にある。
 実際、世界貿易センタービルが崩れていく映像を見てバベルの塔の崩壊を重ねた人は多かったと思う。ほんと人間のクズだな~って思うんだけど、たけしさんがいうように笑いと美って魔物でさ。
 人間にはそれがどんな凄惨な光景でも、美しさに感動しちゃうという残酷性がある。

 だから、のんきに感想を言うのもはばかられるんだけど、あえて率直な感想を言うと、すっごい政治風刺コメディとしてよく出来ていて、笑った笑ったwこれが、この前のハリウッド映画にはなかった。
 菅直人さんや、甘利さん、枝野さん、塩爺、昨今話題の小池百合子さんとか、そのまま出してるし、ずり~よってwこの映画って宣伝見るからに怖い映画だと思ってたら、もうコメディなんだもん。『総理と呼ばないで』の第4話の「ヘルメットの総理」を作り手は意識したんじゃないかな。
 あと巨大生物対策班の教授として自分が大好きな数物理学者、竹内薫さんがモデルにされていて嬉しかった。
 ただ、石原さとみさんだけはいらない。あいつだけアニメのキャラクターみたくて浮いてた(^_^;)でも、ああいう胡散臭いキャラって昭和の特撮では名物だったりするよねwウルトラマンの科特隊パリ本部の人とかw

 とにかく、オタクっぽいディティールだけで、初代のコアを見失った『ジュラシック・ワールド』と明暗分けたな。こっちは本当に初代のゴジラを上手に現代風にアレンジしてる。
 とにかく、アメコミではよくやるんだけど、日本のサブカルではてんで取り上げられない、ファイヤーマンとか警察とか市井の公務員(っていうのか?)のかっこよさを描いた映画でもある。明日から自分の仕事を地道に頑張ろうって、日曜日に応援してくれた『官僚たちの夏』みたいな。
 だからっていうわけじゃないけれど、この映画って311の理想の対応を描いたとか言ってる人いるけど、私は全然違うと思う。偉そうに現実に対してダメ出しをしているというよりは、311はなんだかんだで首相以下みんなが最善を尽くしたよってメッセージを私は感じたんだよね。
 なんでかっていうとさ、この映画から受けた最終的な感覚って、ゴジラなんぞと比較しちゃダメだとは思うけど、石井光太さんのルポ『遺体』にすごい近かったんだ。震災の時、凄惨な現場に趣いて一生懸命対応した地域の人たちの話なんだけど。興味のある人は読んで欲しい。

 実際にこの映画は、311を経たからこそ描けたリアリティがあるわけで、オレ達日本人っていろいろ問題点あるけど、まだまだやれるぞっていうポジティブなメッセージを感じたよ。大杉(菅)内閣もそんなに無能に描かれてないしね(とはいえそこまで有能でもない)。
 そういや、奇しくも今年の夏は『インデペンデンス・デイ』の続編も公開したけれど、あの映画とこの映画を対比させると日米のリーダーのあり方の違いが明確化して面白いよね。
 作中でも「これほど早く次の総理が決まるんだ」みたいなセリフがあったんだけど、日本のリーダーって受動的でトップダウン的に命令をバシバシ下さないんだよね。
 だからリーダーは割と誰でもいいというか、これは内閣を支える官僚がすごいっていうよりは、官僚たちのアルゴリズムになっている法的システムが強固なんだろうね。非常時だ!超法規的措置を!みたいな短絡的な流れに絶対ならないというw
 これはしばしば日本のダメなところって言われてたけど(少なくても今の総理は問題視してる)、実は反面強みなんじゃないかっていうのをこの映画は描いていて面白かった。トップ倒しても次々生えてくるハイルヒドラー的な。これはアメリカ政府とかにとっては不気味だな、確かに(^_^;)

 SFとしても面白くてね。日本のSFアニメってすごい頭悪くてさ、小難しい専門用語をそれらしく言って、なんとなく済ませちゃうっていうのばっかで、アニメーターに理系はいないのかって感じだったんだけど、この映画はそれなりにロジックがしっかりしてて、結構それなりに納得ができる。
 とはいえ冷却装置の役目を持つ血液を凝固したら、むしろ停止じゃなくて暴走してメルトダウンしちゃうんじゃないのかとは思ったけど、セリフの速度が早すぎていくらか聞き逃した可能性はあるwあの組織アスペルガーばっかなんだもん(^_^;)
 つーか、このゴジラのSF的なトリックとか科学的な対応におけるストーリー展開って、まんまマイクル・クライトンの『アンドロメダ病原体』でさwコリン・トレボロウ監督よ、ゴジラにやられてどうするっていう。
 そして、極めつけが怪獣退治にウルトラマンも巨大ロボットもいらない!と言わんばかりの在来線ボムw
 ここで、もう私は降参したねw「庵野オレの負けだ!」というわけで、政治映画としても空想科学映画としてもディザスター映画としても、すごいよくできたTHEジャパン映画。
 初代しか満足していない人はぜひどうぞ。
Calendar
<< January 2020 >>
SunMonTueWedThuFriSat
   1234
567891011
12131415161718
19202122232425
262728293031
search this site.
tags
archives
recent comment
recent trackback
others
にほんブログ村 科学ブログへ にほんブログ村 科学ブログ 恐竜へ カウンター
admin
  • 管理者ページ
  • 記事を書く
  • ログアウト

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 | 105 | 106 | 107 | 108 | 109 | 110 | 111 | 112 | 113 | 114 | 115 | 116 | 117 | 118 | 119 | 120 | 121 | 122 | 123 | 124 | 125 | 126 | 127 | 128 | 129 | 130 | 131 | 132 | 133 | 134 | 135 | 136 | 137 | 138 | 139 | 140 | 141 | 142 | 143 | 144 | 145 | 146 | 147 | 148 | 149 | 150 | 151 | 152 | 153 | 154 | 155 | 156 | 157 | 158 | 159 | 160 | 161 | 162 | 163 | 164 | 165 | 166 | 167 | 168 | 169 | 170 | 171 | 172 | 173 | 174 | 175 | 176 | 177 | 178 | 179 | 180 | 181 | 182 | 183 | 184 | 185 | 186 | 187 | 188 | 189 | 190 | 191 | 192 | 193 | 194 | 195 | 196 | 197 | 198 | 199 | 200 | 201 | 202 | 203 | 204 | 205 | 206 | 207 | 208 | 209 | 210 | 211 | 212 | 213 | 214 | 215 | 216 | 217 | 218 | 219 | 220 | 221 | 222 | 223 | 224 | 225 | 226 | 227 | 228 | 229 | 230 | 231 | 232 | 233 | 234 | 235 | 236 | 237 | 238 | 239 | 240 | 241 | 242 | 243 | 244 | 245 | 246 | 247 | 248 | 249 | 250 | 251 | 252 | 253 | 254 | 255 | 256 | 257 | 258 | 259 | 260 | 261 | 262 | 263 | 264 | 265 | 266 | 267