僕がデータ分析者として覚醒するまで

しがない会社員がデータ分析者として覚醒するまでのブログ

統計学

Ridge回帰とLasso回帰について

読んでる本 まだ途中です。 見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑作者: 秋庭伸也,杉山阿聖,寺田学,加藤公一出版社/メーカー: 翔泳社発売日: 2019/04/17メディア: 単行本(ソフトカバー)この商品を含むブログを見る ただの線形回帰と…

統計検定2級_わからんメモ

わからないことメモ 2014年度の過去問を解いていく中で、頭に入っていない項目を列挙した。 χ2分布およびその検定 t分布およびその検定(統計量の求め方) クロス集計表(およびその自由度) 標準偏差の式 確率密度関数 偏差値の算出 母集団の比率の問題 F分布…

統計検定2級_第1種の過誤・第2種の過誤

過誤 帰無仮説が正しいのに、対立仮説を正しいとしてしまうことを第1種の過誤 対立仮説が正しいのに、帰無仮説を正しいとしてしまうことを第2種の過誤 問題集に、一様分布の話がでてきた。 有意水準1%で帰無仮説を棄却する 対立仮説の下で、過誤が起こる確率…

統計検定_シンプソンのパラドクス

シンプソンのパラドクス え?シンプソンズがなんだって? 「シンプソンのパラドクス」は、データの区切り方によって相関が逆になったりすることらしい。この「シンプソンのパラドクス」は、統計検定2級の問題集でも出てました。 mathtrain.jp 僕の場合、エネ…

標準化と変動係数の違い

標準化 標準化の目的は、平均と分散を考慮した上で、の数字の「大きさ」を得ることらしい。 mathwords.net 変動係数 変動係数は、異なるデータのばらつきを相対的に評価する数値らしい。 bellcurve.jp 異なるデータ同士を評価できるようにデータを変換してい…

統計検定2級_独立性の検定

独立性の検定 前回と同じ、クロス集計表をにおいて、分類されたデータ群に関連があるか検定すること。 適合度検定と同じくχ2分布を使って検定を行う。 bellcurve.jp 上記のURLから見ると、適合度検定とほぼ同じ?感じ? クロス集計表で2行あるほうが独立性の…

統計検定2級_適合度検定

適合度検定 適合度検定は、χ2分布に従う。らしい。 bellcurve.jp リンク先の例題だと、クロス集計表を使った適合度検定をしているけど、 クロス集計表の場合、自由度は(行数-1)×(列数-1)だよね? 中間の説明がないと、なぜ自由度がn-1なのか疑問だわ。。。 …

統計検定2級_ベルヌーイ試行

ベルヌーイ試行 結局のところ0/1で表せることができる試行 どの確率が欲しいかによって分布が異なる。 初めて成功するときに使う分布 幾何分布 bellcurve.jp ちょうどn回成功するときに使う分布 二項分布 bellcurve.jp 試行回数がすごく多くて、起こる確率が…

標準化

標準化 標準化するにためには、下記の式を用いて、標準化得点(Z値)を求めて評価を行うらしい。 具体的には、異なる値(あるテストの数学の得点と国語の得点)を同じ土俵で評価するために、単位なくすために下記の式を用いる。 \begin{align*} z = \frac{X-…

不偏推定量

ブログを書き始めたころに、覚えたはずの不偏推定量。 今日統計検定2級の問題を解いていて、不偏推定量の意味が分からず、悶絶。 ブログに記録したことは覚えてたのに記憶に定着していなかった。。。 下記のURLのような意味なんだけど、結局のところ自分で書…

層化抽出法

層化抽出法とは 母集団をあらかじめいくつかの層(グループ)に分けておき、各層の中から必要な数の調査対象を無作為に抽出する方法 bellcurve.jp 統計検定2級の試験問題に出てきたんだけど、母集団をいくつかのグループに分ける必要がある。その分けるグル…

自己相関関数と偏自己相関関数

コレログラム コレログラムは、時系列データにおいて、周期性や自己相関がどの時点にあるかを 判断できるグラフである。 時系列データを分析する上で、どこに相関があるかは重要で、ARモデルなどで係数を推定するために必要なものである。 自己相関 自己相関…

算術平均と幾何平均

算術平均と幾何平均 算術平均 学生時代に学ぶ平均値のこと [1,2,3,4]の数値があった場合、(1+2+3+4)/4 = 2.5 となる。 これは、特に違和感なく理解できる。 幾何平均 oto-suu.seesaa.net 幾何平均違和感ありまくり。 何に使えるかは成長”率”とか寄与”率”とか…

統計学のお勉強_003

点推定と区間推定 点推定は、標本集団を使って1点を推定する方法 区間推定は、標本集団を使って区間を推定する方法 実務上、点推定ってどういうときに使えるんだろうか? エネルギーの分析を行っている身としては、区間推定を使って、年間通して信頼区間95%…

統計学のお勉強_002

標準正規分布 複数のデータが分布があり、それぞれ母集団が異なる場合単純に比較できない。そのため、それぞれの変化量に対して標準化を行い、標準変化量として比較する。 標準変化量 bellcurve.jp ポアソン分布 ポアソン分布は、試行回数が多く、起こる確率…

統計学のお勉強_001

標本統計量の分布 標本誤差 標本分布の標準偏差のこと 正規分布 標本サイズがものすごく大きい標本平均の分布? 標本サイズがものすごく大きい標本平均は正規分布に従う t分布、z分布 まだ理解してないのでまた明日。 今日は少なかったなぁ

統計学のお勉強_000

統計学のお勉強 本日より、統計学の勉強の備忘録をつけていこうと思います。 今日の勉強内容 不偏推定量 偏りの大きい標本統計量から自由度を使って求める推定量(偏りの少ない)のこと 自由度 A+B+C = xとした場合、自由度は3(左辺の個数) A+B+C = 5 とし…