僕がデータ分析者として覚醒するまで

しがない会社員がデータ分析者として覚醒するまでのブログ

2018-01-01から1ヶ月間の記事一覧

算術平均と幾何平均

算術平均と幾何平均 算術平均 学生時代に学ぶ平均値のこと [1,2,3,4]の数値があった場合、(1+2+3+4)/4 = 2.5 となる。 これは、特に違和感なく理解できる。 幾何平均 oto-suu.seesaa.net 幾何平均違和感ありまくり。 何に使えるかは成長”率”とか寄与”率”とか…

VARモデルについてのメモ

VARモデルについてのメモ 概要 VARとは、VectorAutoRegression(ベクトル自己回帰)モデルである。 VARはARモデル(単変量)を拡張したものである。 VARは、多変量のモデルで、目的変数が自己のみではなく、他の変量にも依存する変量を解析するために用いる…

建築設備のエネルギーデータをpandasで処理するときの注意

Pandasで処理するときの注意 建築設備のエネルギーデータ 一般に、建築設備におけるエネルギーデータは、カラム名が日本語でついます。 pandasで読み込む際も、下記のようにencoding = 'Shift-JIS'と指定してあげないとエラーを吐きます。 # header:0行目,in…

時系列データ分析SARIMAモデル 「学習データのinputについて」【statsmodels】

stasmodelsのSARIMAX statsmodelsのSARIMAXに学習データを読み込む際の注意点についてのメモです。 SARIMAXのモデル作成 学習データ statsmodelsではSARIMAモデルを扱うのに下記のクラスを使用します。 学習データは、endogに入力します。(arrayやDataframe…

統計学のお勉強_003

点推定と区間推定 点推定は、標本集団を使って1点を推定する方法 区間推定は、標本集団を使って区間を推定する方法 実務上、点推定ってどういうときに使えるんだろうか? エネルギーの分析を行っている身としては、区間推定を使って、年間通して信頼区間95%…

Pythonのお勉強_言語処理100本ノック_更新[5]

enumerate,zip 第5問はenumerate,zipが活躍した。若干カンニングしてしまった。。。 Pythonでループ処理するのはすごく便利だなぁ。 github.com string = "Hello world!" for elm in enumerate(string): print(elm[0],elm[1]) #output 0 H 1 e 2 l 3 l 4 o 5…

Pythonのお勉強_言語処理100本ノック_更新[3-5]

言語処理100本ノック 今回3問やってみて思ったことは、便利な関数がPythonには備わっていて、簡単にやりたいことが実装できる手軽さはすごくありがたい。 これは大学で学んだCやJavaにはないことで、今の業務のデータ分析にはすごくマッチしているからやりが…

統計学のお勉強_002

標準正規分布 複数のデータが分布があり、それぞれ母集団が異なる場合単純に比較できない。そのため、それぞれの変化量に対して標準化を行い、標準変化量として比較する。 標準変化量 bellcurve.jp ポアソン分布 ポアソン分布は、試行回数が多く、起こる確率…

Pythonのお勉強_言語処理100本ノック

言語処理100本ノック始めました。 今日から言語処理100本ノック始めました。 githubでソースは管理していこうと思います。 経緯 今まで、個人で業務効率化やデータ分析のために独学でPythonを使ってきました。業務でプロのプログラマーのソースコードを見る…

統計学のお勉強_001

標本統計量の分布 標本誤差 標本分布の標準偏差のこと 正規分布 標本サイズがものすごく大きい標本平均の分布? 標本サイズがものすごく大きい標本平均は正規分布に従う t分布、z分布 まだ理解してないのでまた明日。 今日は少なかったなぁ

統計学のお勉強_000

統計学のお勉強 本日より、統計学の勉強の備忘録をつけていこうと思います。 今日の勉強内容 不偏推定量 偏りの大きい標本統計量から自由度を使って求める推定量(偏りの少ない)のこと 自由度 A+B+C = xとした場合、自由度は3(左辺の個数) A+B+C = 5 とし…