僕がデータ分析者として覚醒するまで

しがない会社員がデータ分析者として覚醒するまでのブログ

Python

PyCaretで主成分分析ハンズオン【正規化+可視化(plotly)】メモ

概要 PyCaretでPCAを行いました。(ハイパーパラメータ等の最適化はしていません) とある電力量データでPCAを行いました。 ソースコード 自前のデータ整形ソースコード(汚い):13行 import pandas as pd def load_sampledata(): data = pd.read_csv(r'pyca…

Python_特殊メソッド__str__

概要 datetime.date(2019,5,21)をインスタンス化した後に、print(instance)で文字列が返ってくるのが気になった。 コード class testclass: def __init__(self,val1,val2,val3): self.year = val1 self.month = val2 self.day = val3 def __str__(self): pri…

【備忘録】pythonを使ってftp接続し、最新フォルダを取得する

概要 ftp接続し、最新フォルダを取得する。 覚書 ftplibでftp接続しフォルダにアクセスする。 フォルダは自動生成され、フォルダ名称はint型の数値でインクリメントされたものになる。 ファイルとフォルダの判断は、.(ピリオド)の有無で行っている。 Code 最…

RandomForest

概要 ランダムフォレストとは、弱学習器の決定木たくさん使って、単体の決定木より予測精度を向上させましょうというもの 回帰でも分類でもどちらでも使用できる 弱学習器を重ねる方法は、XGBoostとかLGBMとかもこのアルゴリズムらしい。 昔に書いたもの qii…

ナイーブベイズ(単純ベイズ)

ナイーブベイズ(単純ベイズ) 概要 自然言語処理によく用いられるらしい 分類問題に使用 確率に基づいて予測する スパムの除去やカテゴリ分類に利用される メリット 自然言語処理によってそれなりに良い精度をだしてくれるらしい 名詞のみで予測できるので…

コーディングのお勉強 @classmethod

わからなかったこと Classをインスタンスにするまえに、methodを呼び出せることが理解できなかった。 下記のclassでtest.methodtest()としたかった。 class test: def __init__(self): print('初期化') def methodtest(self): print('method_test') return s…

Ridge回帰とLasso回帰について

読んでる本 まだ途中です。 見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑作者: 秋庭伸也,杉山阿聖,寺田学,加藤公一出版社/メーカー: 翔泳社発売日: 2019/04/17メディア: 単行本(ソフトカバー)この商品を含むブログを見る ただの線形回帰と…

テキストマイニング

テキストマイニングとは テキストマイニング(英: text mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報…

概要 Bokehによるエネルギーデータの可視化 pandasの使い方は下記を参照するとすごく幸せになれます。 データ分析で頻出のPandas基本操作 StatsFragments 初心者による「Python初心者がコピペで使える!時系列データの可視化!」でのBokeh分になります。 impor…

初心者による「Python初心者がコピペで使える!時系列データの可視化!」

Qiitaで書きました。 qiita.com 時系列データ分析の可視化 僕が普段扱っているデータ(エネルギーデータ)の可視化をPythonを使って行うためのメモです。 Githubにまとめもあげています。 エネルギーデータの分析にPythonを使うときの参考になればと思ってい…

Dark Skyを使用した天気予測をCSV化する

qiita.com 概要 建築物のエネルギーデータを予測するにあたって、空調機の消費電力量が与える影響は非常に大きい。 外乱のあるデータを予測するには単変量解析では限界がある。多変量にすべき? 翌日の外気温度使えば空調機の消費電力量の予測精度ってもっと…

Memo:[Django]バージョンによるurls.py内のincludeの仕様の違い

概要 Urlディスパッチャの記述でハマった。 問題 旧DjangoのTutorialでは、下記のようにしなければならなかった。 urlpatterns = [ url(r'^testapp/', include('testapp.urls', namespace='testapp')), ] 新しいDjangoで上記を写経すると下記のエラーがでる…

VARモデルについてのメモ

VARモデルについてのメモ 概要 VARとは、VectorAutoRegression(ベクトル自己回帰)モデルである。 VARはARモデル(単変量)を拡張したものである。 VARは、多変量のモデルで、目的変数が自己のみではなく、他の変量にも依存する変量を解析するために用いる…

建築設備のエネルギーデータをpandasで処理するときの注意

Pandasで処理するときの注意 建築設備のエネルギーデータ 一般に、建築設備におけるエネルギーデータは、カラム名が日本語でついます。 pandasで読み込む際も、下記のようにencoding = 'Shift-JIS'と指定してあげないとエラーを吐きます。 # header:0行目,in…

時系列データ分析SARIMAモデル 「学習データのinputについて」【statsmodels】

stasmodelsのSARIMAX statsmodelsのSARIMAXに学習データを読み込む際の注意点についてのメモです。 SARIMAXのモデル作成 学習データ statsmodelsではSARIMAモデルを扱うのに下記のクラスを使用します。 学習データは、endogに入力します。(arrayやDataframe…

統計学のお勉強_003

点推定と区間推定 点推定は、標本集団を使って1点を推定する方法 区間推定は、標本集団を使って区間を推定する方法 実務上、点推定ってどういうときに使えるんだろうか? エネルギーの分析を行っている身としては、区間推定を使って、年間通して信頼区間95%…

Pythonのお勉強_言語処理100本ノック_更新[5]

enumerate,zip 第5問はenumerate,zipが活躍した。若干カンニングしてしまった。。。 Pythonでループ処理するのはすごく便利だなぁ。 github.com string = "Hello world!" for elm in enumerate(string): print(elm[0],elm[1]) #output 0 H 1 e 2 l 3 l 4 o 5…

Pythonのお勉強_言語処理100本ノック_更新[3-5]

言語処理100本ノック 今回3問やってみて思ったことは、便利な関数がPythonには備わっていて、簡単にやりたいことが実装できる手軽さはすごくありがたい。 これは大学で学んだCやJavaにはないことで、今の業務のデータ分析にはすごくマッチしているからやりが…

Pythonのお勉強_言語処理100本ノック

言語処理100本ノック始めました。 今日から言語処理100本ノック始めました。 githubでソースは管理していこうと思います。 経緯 今まで、個人で業務効率化やデータ分析のために独学でPythonを使ってきました。業務でプロのプログラマーのソースコードを見る…