僕がデータ分析者として覚醒するまで

しがない会社員がデータ分析者として覚醒するまでのブログ

初心者でもできる!ArmadilloでSoftEtherVPN(Client編)

概要 マイコン(Armadillo)でSoftEtherVPNのClientを作成する エッジコンピュータの通信におけるセキュリティを担保する IPを固定できないSIMカードに対して、仮想NICでIPを固定してやることでメンテナンスを楽にする 前提条件 root権限で実行してください(…

線形計画法 + pulp のハンズオン

線形計画法のハンズオンを行いました。機械学習にも使われている技術なのでより深く理解していきたいと思います。

PyCaretで主成分分析ハンズオン【正規化+可視化(plotly)】メモ

概要 PyCaretでPCAを行いました。(ハイパーパラメータ等の最適化はしていません) とある電力量データでPCAを行いました。 ソースコード 自前のデータ整形ソースコード(汚い):13行 import pandas as pd def load_sampledata(): data = pd.read_csv(r'pyca…

Python_特殊メソッド__str__

概要 datetime.date(2019,5,21)をインスタンス化した後に、print(instance)で文字列が返ってくるのが気になった。 コード class testclass: def __init__(self,val1,val2,val3): self.year = val1 self.month = val2 self.day = val3 def __str__(self): pri…

【備忘録】pythonを使ってftp接続し、最新フォルダを取得する

概要 ftp接続し、最新フォルダを取得する。 覚書 ftplibでftp接続しフォルダにアクセスする。 フォルダは自動生成され、フォルダ名称はint型の数値でインクリメントされたものになる。 ファイルとフォルダの判断は、.(ピリオド)の有無で行っている。 Code 最…

RandomForest

概要 ランダムフォレストとは、弱学習器の決定木たくさん使って、単体の決定木より予測精度を向上させましょうというもの 回帰でも分類でもどちらでも使用できる 弱学習器を重ねる方法は、XGBoostとかLGBMとかもこのアルゴリズムらしい。 昔に書いたもの qii…

ナイーブベイズ(単純ベイズ)

ナイーブベイズ(単純ベイズ) 概要 自然言語処理によく用いられるらしい 分類問題に使用 確率に基づいて予測する スパムの除去やカテゴリ分類に利用される メリット 自然言語処理によってそれなりに良い精度をだしてくれるらしい 名詞のみで予測できるので…

コーディングのお勉強 @classmethod

わからなかったこと Classをインスタンスにするまえに、methodを呼び出せることが理解できなかった。 下記のclassでtest.methodtest()としたかった。 class test: def __init__(self): print('初期化') def methodtest(self): print('method_test') return s…

Ridge回帰とLasso回帰について

読んでる本 まだ途中です。 見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑作者: 秋庭伸也,杉山阿聖,寺田学,加藤公一出版社/メーカー: 翔泳社発売日: 2019/04/17メディア: 単行本(ソフトカバー)この商品を含むブログを見る ただの線形回帰と…

テキストマイニング_単語N-gramモデル

最近、転職活動の一環の勉強として、「自然言語処理の基本と技術」という本を読んでいます。(データサイエンティストとして、自然言語処理も必要だと考えているため) 前回は、Yahooニュースの本文から形態素解析をjanomeで行った後、名詞をカウントしグラフ…

テキストマイニング(前回の続き2)

概要 前回までのあらすじ 入力したURL(yah○○ニュース)から本文を抽出 抽出した本文から名詞を抜き出し 抜き出した出力はこんなかんじ 今回やること グラフ化して、単語の出現頻度を確認する グラフ化はpandasのDataFrameから行う SourceCode # URLを指定し、…

テキストマイニング(前回の続き)

概要 前回までのあらすじ ここまでできました。 今回やること スクレイピングでYah○○ニュースからテキストデータを取得 取得したデータを形態素分解 SourceCode BeautifulSoupとurllibをimport 指定したURLからhtmlを取得 取得したhtmlから本文を抜き出し、…

テキストマイニング

テキストマイニングとは テキストマイニング(英: text mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報…

概要 Bokehによるエネルギーデータの可視化 pandasの使い方は下記を参照するとすごく幸せになれます。 データ分析で頻出のPandas基本操作 StatsFragments 初心者による「Python初心者がコピペで使える!時系列データの可視化!」でのBokeh分になります。 impor…

Qiitaの記事が伸びた理由を考えてみた。

概要 初心者による「Python初心者がコピペで使える!時系列データの可視化!」が自分史上かなり伸びたので、やったことないGoogleAnalyticsを導入してみました。 Qiitaの記事をGoogleAnalyticsに登録するのは意外と簡単で、ここを参考にしました。 ↓こんな感じ…

初心者による「Python初心者がコピペで使える!時系列データの可視化!」

Qiitaで書きました。 qiita.com 時系列データ分析の可視化 僕が普段扱っているデータ(エネルギーデータ)の可視化をPythonを使って行うためのメモです。 Githubにまとめもあげています。 エネルギーデータの分析にPythonを使うときの参考になればと思ってい…

統計検定2級_わからんメモ

わからないことメモ 2014年度の過去問を解いていく中で、頭に入っていない項目を列挙した。 χ2分布およびその検定 t分布およびその検定(統計量の求め方) クロス集計表(およびその自由度) 標準偏差の式 確率密度関数 偏差値の算出 母集団の比率の問題 F分布…

統計検定2級_第1種の過誤・第2種の過誤

過誤 帰無仮説が正しいのに、対立仮説を正しいとしてしまうことを第1種の過誤 対立仮説が正しいのに、帰無仮説を正しいとしてしまうことを第2種の過誤 問題集に、一様分布の話がでてきた。 有意水準1%で帰無仮説を棄却する 対立仮説の下で、過誤が起こる確率…

統計検定_シンプソンのパラドクス

シンプソンのパラドクス え?シンプソンズがなんだって? 「シンプソンのパラドクス」は、データの区切り方によって相関が逆になったりすることらしい。この「シンプソンのパラドクス」は、統計検定2級の問題集でも出てました。 mathtrain.jp 僕の場合、エネ…

標準化と変動係数の違い

標準化 標準化の目的は、平均と分散を考慮した上で、の数字の「大きさ」を得ることらしい。 mathwords.net 変動係数 変動係数は、異なるデータのばらつきを相対的に評価する数値らしい。 bellcurve.jp 異なるデータ同士を評価できるようにデータを変換してい…

統計検定2級_独立性の検定

独立性の検定 前回と同じ、クロス集計表をにおいて、分類されたデータ群に関連があるか検定すること。 適合度検定と同じくχ2分布を使って検定を行う。 bellcurve.jp 上記のURLから見ると、適合度検定とほぼ同じ?感じ? クロス集計表で2行あるほうが独立性の…

統計検定2級_適合度検定

適合度検定 適合度検定は、χ2分布に従う。らしい。 bellcurve.jp リンク先の例題だと、クロス集計表を使った適合度検定をしているけど、 クロス集計表の場合、自由度は(行数-1)×(列数-1)だよね? 中間の説明がないと、なぜ自由度がn-1なのか疑問だわ。。。 …

統計検定2級_ベルヌーイ試行

ベルヌーイ試行 結局のところ0/1で表せることができる試行 どの確率が欲しいかによって分布が異なる。 初めて成功するときに使う分布 幾何分布 bellcurve.jp ちょうどn回成功するときに使う分布 二項分布 bellcurve.jp 試行回数がすごく多くて、起こる確率が…

エネルギーデータを4年分析してわかったこと

概要 私は建築物の消費エネルギーのデータ分析(省エネ分析)を4年行ってきました。 大学・病院・事務所ビルなど 様々な建物のエネルギーデータの分析をさせていただきました。 4年分析してきてわかったことを書きます。 お客様はそれほど分析内容に興味がない…

Dark Skyを使用した天気予測をCSV化する

qiita.com 概要 建築物のエネルギーデータを予測するにあたって、空調機の消費電力量が与える影響は非常に大きい。 外乱のあるデータを予測するには単変量解析では限界がある。多変量にすべき? 翌日の外気温度使えば空調機の消費電力量の予測精度ってもっと…

Memo:[Django]バージョンによるurls.py内のincludeの仕様の違い

概要 Urlディスパッチャの記述でハマった。 問題 旧DjangoのTutorialでは、下記のようにしなければならなかった。 urlpatterns = [ url(r'^testapp/', include('testapp.urls', namespace='testapp')), ] 新しいDjangoで上記を写経すると下記のエラーがでる…

中心極限定理

中心極限定理 中心極限定理とは、簡単に言うと母集団からたくさんの標本平均サンプルをとってくると、その標本集団は正規分布に従うというもの これを実務に活かせないか考えてみた。 思いつかない。。。ある本には中心極限定理はすごく強力なツールだと書い…

標準化

標準化 標準化するにためには、下記の式を用いて、標準化得点(Z値)を求めて評価を行うらしい。 具体的には、異なる値(あるテストの数学の得点と国語の得点)を同じ土俵で評価するために、単位なくすために下記の式を用いる。 \begin{align*} z = \frac{X-…

不偏推定量

ブログを書き始めたころに、覚えたはずの不偏推定量。 今日統計検定2級の問題を解いていて、不偏推定量の意味が分からず、悶絶。 ブログに記録したことは覚えてたのに記憶に定着していなかった。。。 下記のURLのような意味なんだけど、結局のところ自分で書…

層化抽出法

層化抽出法とは 母集団をあらかじめいくつかの層(グループ)に分けておき、各層の中から必要な数の調査対象を無作為に抽出する方法 bellcurve.jp 統計検定2級の試験問題に出てきたんだけど、母集団をいくつかのグループに分ける必要がある。その分けるグル…