僕がデータ分析者として覚醒するまで

しがない会社員がデータ分析者として覚醒するまでのブログ

Qiitaの記事が伸びた理由を考えてみた。

概要

 初心者による「Python初心者がコピペで使える!時系列データの可視化!」が自分史上かなり伸びたので、やったことないGoogleAnalyticsを導入してみました。 Qiitaの記事をGoogleAnalyticsに登録するのは意外と簡単で、ここを参考にしました。

↓こんな感じの結果になりました。
qiita投稿_20180729_result2.JPG qiita投稿_20180729_result.JPG

GoogleAnalyticsの結果

  • 初心者による「Python初心者がコピペで使える!時系列データの可視化!」の投稿は7/26に投稿しました。
    27日に一気に伸びたので、糞記事過ぎて晒されたのかとちょっと思いました。今までが超低空飛行なので他の日のセッション数が0に見えます。
  • 時間帯別ユーザー数をみると、7時~10時の伸びが大きく、通勤時間帯に多く見ていただけたのかと思いました。
    qiita投稿_20180729.JPG

  • ユーザーの訪れているページの最も多いページViewのページはもちろん26日に投稿された記事です。

  • バイス別セッション数をみるとモバイルやタブレットが約45%程度いることから、 時間別のデータとの兼ね合いからやはり通勤時間に目を通して頂けたのかなと推察しています。 qiita投稿_20180729_2.JPG

ユーザーの行動フロー

どこからの流入

全体の結果

  • 26~27日での伸び率をみると、SocialとDirectがページViewに最も寄与している結果となりました。 qiita投稿_20180729_7.JPG

Social

  • Socialカテゴリからの流入で最も多いのは、はてブの457でした。はてブのテクノロジーカテゴリに表示されたのが大きかったようです。27日に最も大きくなり、28日に0になったところを見ると1日しかはてブの目につく場所には掲載されなかったようです。
  • 因果関係はわかりませんが、この1回掲載で大きく伸びたと思っています。
  • 時間毎のデータがあればもう少し詳しくできると思います。 qiita投稿_20180729_8.JPG

Direct

  • Directカテゴリは流入元がわからなかったのですが、おそらくQiitaのトレンドに載ったことが原因だと思っています。(表示方法ってあるんですかね?)
  • 27日にSocialと同様に伸びて以降もトレンドに残り続けているため、28日29日もじわじわView数を伸ばした結果となりました。 qiita投稿_20180729_9.JPG

考察

  • View数が4000に対して、はてブ50,Pocket89ということは、3%程度の人しか後々見たいと思っていない。
  • ユーザー行動フローから30人程度の人は、私にも少し興味があった。
  • 流入数を一気に増やすには、はてブに掲載されることが重要。
    掲載されると、いいねが付きやすくQiitaのトレンドに載り持続的に伸びる。
  • その後に伸び続けるかは記事の質による。初心者による「Python初心者がコピペで使える!時系列データの可視化!」は翌日にはほぼ収束していたため、比較的チープな記事といえる。

まとめ

  • もっと技術の研鑽を怠らないようにして、良い記事をかける技術を身に着けよう。
  • 技術の研鑽はもちろんのこと、良い記事となるように文章も書けるようになろう。

初心者による「Python初心者がコピペで使える!時系列データの可視化!」

Qiitaで書きました。

qiita.com

時系列データ分析の可視化

 僕が普段扱っているデータ(エネルギーデータ)の可視化をPythonを使って行うためのメモです。 Githubにまとめもあげています。 エネルギーデータの分析にPythonを使うときの参考になればと思っています。私も勉強中なのでこんなのがあればというものがあれば教えてください。m( ;)m

概要

  • エネルギーデータを使用(1h間隔のデータ)
  • 使用言語はPython
  • 可視化は、pandasのplot, matplotlib, seabornなど
  • githubではJupyterNotebookで実現
  • Pandas,Seabornの両方で行っているものもあります
  • Bokehも使ってインタラクティブなチャートも使いたい

電力量データ

月別データ

Pandas

SnapCrab_NoName_2018-7-26_16-49-7_No-00.jpg

Seaborn

  • Bar
    SnapCrab_NoName_2018-7-26_16-49-21_No-00.jpg

月別用途別データ

Seaborn

SnapCrab_NoName_2018-7-26_16-49-32_No-00.jpg

  • Pie
    SnapCrab_NoName_2018-7-26_16-55-24_No-00.jpg

相関データ

SnapCrab_NoName_2018-7-26_16-49-44_No-00.jpg

まとめ

 こんな形で随時作っていこうと思います。Qiitaの編集およびGithubの更新を行っていきます。  時系列データの分析に有用なやり方があれば教えていただけると幸いです。

統計検定2級_わからんメモ

わからないことメモ

2014年度の過去問を解いていく中で、頭に入っていない項目を列挙した。

  • χ2分布およびその検定
  • t分布およびその検定(統計量の求め方)
  • クロス集計表(およびその自由度)
  • 標準偏差の式
  • 確率密度関数
  • 偏差値の算出
  • 母集団の比率の問題
  • F分布
  • プールした分散
  • 独立性の検定
  • 2標本の検定

時間ばっかりかかって、こんなに抜けがあるなんて・・・ もっと集中して短期で覚えきって、繰り返さないと定着しないなぁ。

統計検定2級_第1種の過誤・第2種の過誤

過誤

  1. 帰無仮説が正しいのに、対立仮説を正しいとしてしまうことを第1種の過誤
  2. 対立仮説が正しいのに、帰無仮説を正しいとしてしまうことを第2種の過誤

問題集に、一様分布の話がでてきた。

答えは第2種の過誤が0.99の確率で起こる。 第1種の過誤と第2種の過誤がどっちがどっちか3秒で忘れるので、下のURL先のクロス表を頭に思い浮かべる練習をしている。

bellcurve.jp

統計検定_シンプソンのパラドクス

シンプソンのパラドクス

 え?シンプソンズがなんだって? f:id:snuow:20180621165513p:plain

  • 「シンプソンのパラドクス」は、データの区切り方によって相関が逆になったりすることらしい。この「シンプソンのパラドクス」は、統計検定2級の問題集でも出てました。 mathtrain.jp

  • 僕の場合、エネルギーデータを分析しているので、別々の物件のエネルギー消費量を比較するときに、年間で見るよりも、冷房期・暖房期をわけて確認する方が、明確なデータを示すことができる場合が多い。

※あまり触れても面白くないデータに関しては、年間データにしたり、リサンプルして細かいところを見えなくしたりもします。

標準化と変動係数の違い

標準化

  • 標準化の目的は、平均と分散を考慮した上で、の数字の「大きさ」を得ることらしい。

mathwords.net

変動係数

  • 変動係数は、異なるデータのばらつきを相対的に評価する数値らしい。

bellcurve.jp

  • 異なるデータ同士を評価できるようにデータを変換していることは両社とも共通
  • 標準化は数値の大きさを得るのに対し、変動係数はばらつきを評価する値を得られる

 手軽に、どっちがばらついているかを見るだけなら変動係数、 具体的な数値で評価するには標準化を行うという認識かな?

統計検定2級_独立性の検定

独立性の検定

 前回と同じ、クロス集計表をにおいて、分類されたデータ群に関連があるか検定すること。 適合度検定と同じくχ2分布を使って検定を行う。

bellcurve.jp

  • 上記のURLから見ると、適合度検定とほぼ同じ?感じ?
  • クロス集計表で2行あるほうが独立性の検定だそうです。
  • 要するに、適合度検定の拡大バージョンが独立性の検定で、 適合度検定は、1つのデータ群に対して行う検定、独立性の検定は2つ以上のデータ群に対して行う検定という認識かなぁ?
  • 行数が変わる(データ群)が増えると、自由度も増えるし、その程度の違いなのだろうか?

適合度検定:χ2分布、1つのデータ群
独立性の検定:χ2分布、2つ以上のデータ群