僕がデータ分析者として覚醒するまで

しがない会社員がデータ分析者として覚醒するまでのブログ

データ分析

線形計画法 + pulp のハンズオン

線形計画法のハンズオンを行いました。機械学習にも使われている技術なのでより深く理解していきたいと思います。

PyCaretで主成分分析ハンズオン【正規化+可視化(plotly)】メモ

概要 PyCaretでPCAを行いました。(ハイパーパラメータ等の最適化はしていません) とある電力量データでPCAを行いました。 ソースコード 自前のデータ整形ソースコード(汚い):13行 import pandas as pd def load_sampledata(): data = pd.read_csv(r'pyca…

概要 Bokehによるエネルギーデータの可視化 pandasの使い方は下記を参照するとすごく幸せになれます。 データ分析で頻出のPandas基本操作 StatsFragments 初心者による「Python初心者がコピペで使える!時系列データの可視化!」でのBokeh分になります。 impor…

Qiitaの記事が伸びた理由を考えてみた。

概要 初心者による「Python初心者がコピペで使える!時系列データの可視化!」が自分史上かなり伸びたので、やったことないGoogleAnalyticsを導入してみました。 Qiitaの記事をGoogleAnalyticsに登録するのは意外と簡単で、ここを参考にしました。 ↓こんな感じ…

初心者による「Python初心者がコピペで使える!時系列データの可視化!」

Qiitaで書きました。 qiita.com 時系列データ分析の可視化 僕が普段扱っているデータ(エネルギーデータ)の可視化をPythonを使って行うためのメモです。 Githubにまとめもあげています。 エネルギーデータの分析にPythonを使うときの参考になればと思ってい…

統計検定_シンプソンのパラドクス

シンプソンのパラドクス え?シンプソンズがなんだって? 「シンプソンのパラドクス」は、データの区切り方によって相関が逆になったりすることらしい。この「シンプソンのパラドクス」は、統計検定2級の問題集でも出てました。 mathtrain.jp 僕の場合、エネ…

エネルギーデータを4年分析してわかったこと

概要 私は建築物の消費エネルギーのデータ分析(省エネ分析)を4年行ってきました。 大学・病院・事務所ビルなど 様々な建物のエネルギーデータの分析をさせていただきました。 4年分析してきてわかったことを書きます。 お客様はそれほど分析内容に興味がない…

Dark Skyを使用した天気予測をCSV化する

qiita.com 概要 建築物のエネルギーデータを予測するにあたって、空調機の消費電力量が与える影響は非常に大きい。 外乱のあるデータを予測するには単変量解析では限界がある。多変量にすべき? 翌日の外気温度使えば空調機の消費電力量の予測精度ってもっと…

自己相関関数と偏自己相関関数

コレログラム コレログラムは、時系列データにおいて、周期性や自己相関がどの時点にあるかを 判断できるグラフである。 時系列データを分析する上で、どこに相関があるかは重要で、ARモデルなどで係数を推定するために必要なものである。 自己相関 自己相関…

VARモデルについてのメモ

VARモデルについてのメモ 概要 VARとは、VectorAutoRegression(ベクトル自己回帰)モデルである。 VARはARモデル(単変量)を拡張したものである。 VARは、多変量のモデルで、目的変数が自己のみではなく、他の変量にも依存する変量を解析するために用いる…

建築設備のエネルギーデータをpandasで処理するときの注意

Pandasで処理するときの注意 建築設備のエネルギーデータ 一般に、建築設備におけるエネルギーデータは、カラム名が日本語でついます。 pandasで読み込む際も、下記のようにencoding = 'Shift-JIS'と指定してあげないとエラーを吐きます。 # header:0行目,in…

時系列データ分析SARIMAモデル 「学習データのinputについて」【statsmodels】

stasmodelsのSARIMAX statsmodelsのSARIMAXに学習データを読み込む際の注意点についてのメモです。 SARIMAXのモデル作成 学習データ statsmodelsではSARIMAモデルを扱うのに下記のクラスを使用します。 学習データは、endogに入力します。(arrayやDataframe…

Pythonのお勉強_言語処理100本ノック_更新[5]

enumerate,zip 第5問はenumerate,zipが活躍した。若干カンニングしてしまった。。。 Pythonでループ処理するのはすごく便利だなぁ。 github.com string = "Hello world!" for elm in enumerate(string): print(elm[0],elm[1]) #output 0 H 1 e 2 l 3 l 4 o 5…

Pythonのお勉強_言語処理100本ノック_更新[3-5]

言語処理100本ノック 今回3問やってみて思ったことは、便利な関数がPythonには備わっていて、簡単にやりたいことが実装できる手軽さはすごくありがたい。 これは大学で学んだCやJavaにはないことで、今の業務のデータ分析にはすごくマッチしているからやりが…

Pythonのお勉強_言語処理100本ノック

言語処理100本ノック始めました。 今日から言語処理100本ノック始めました。 githubでソースは管理していこうと思います。 経緯 今まで、個人で業務効率化やデータ分析のために独学でPythonを使ってきました。業務でプロのプログラマーのソースコードを見る…