統計検定_シンプソンのパラドクス
シンプソンのパラドクス
え?シンプソンズがなんだって?
「シンプソンのパラドクス」は、データの区切り方によって相関が逆になったりすることらしい。この「シンプソンのパラドクス」は、統計検定2級の問題集でも出てました。 mathtrain.jp
僕の場合、エネルギーデータを分析しているので、別々の物件のエネルギー消費量を比較するときに、年間で見るよりも、冷房期・暖房期をわけて確認する方が、明確なデータを示すことができる場合が多い。
※あまり触れても面白くないデータに関しては、年間データにしたり、リサンプルして細かいところを見えなくしたりもします。
標準化と変動係数の違い
標準化
- 標準化の目的は、平均と分散を考慮した上で、の数字の「大きさ」を得ることらしい。
変動係数
- 変動係数は、異なるデータのばらつきを相対的に評価する数値らしい。
- 異なるデータ同士を評価できるようにデータを変換していることは両社とも共通
- 標準化は数値の大きさを得るのに対し、変動係数はばらつきを評価する値を得られる
手軽に、どっちがばらついているかを見るだけなら変動係数、 具体的な数値で評価するには標準化を行うという認識かな?
統計検定2級_独立性の検定
独立性の検定
前回と同じ、クロス集計表をにおいて、分類されたデータ群に関連があるか検定すること。 適合度検定と同じくχ2分布を使って検定を行う。
- 上記のURLから見ると、適合度検定とほぼ同じ?感じ?
- クロス集計表で2行あるほうが独立性の検定だそうです。
- 要するに、適合度検定の拡大バージョンが独立性の検定で、 適合度検定は、1つのデータ群に対して行う検定、独立性の検定は2つ以上のデータ群に対して行う検定という認識かなぁ?
- 行数が変わる(データ群)が増えると、自由度も増えるし、その程度の違いなのだろうか?
適合度検定:χ2分布、1つのデータ群
独立性の検定:χ2分布、2つ以上のデータ群
統計検定2級_適合度検定
適合度検定
適合度検定は、χ2分布に従う。らしい。
リンク先の例題だと、クロス集計表を使った適合度検定をしているけど、 クロス集計表の場合、自由度は(行数-1)×(列数-1)だよね? 中間の説明がないと、なぜ自由度がn-1なのか疑問だわ。。。
χ2統計量は、理論値と実測値の差分を2乗したものを理論値で割ったものを合算したらでるらしい。 理論値を期待値で表現してる文章もどこかでみたけど、結局のところ理論値=期待値になるって理解したつもり。
実務だと、ものすごく大きいクロス集計表に対して有意を示すのに使えるのだろうか。
統計検定2級_ベルヌーイ試行
ベルヌーイ試行
- 結局のところ0/1で表せることができる試行
- どの確率が欲しいかによって分布が異なる。
初めて成功するときに使う分布
- 幾何分布
ちょうどn回成功するときに使う分布
- 二項分布
試行回数がすごく多くて、起こる確率がすごく少ないやつの分布
*ポアソン分布
たぶんこの覚え方であってるはず。 明日もう1回復習しよう
エネルギーデータを4年分析してわかったこと
概要
私は建築物の消費エネルギーのデータ分析(省エネ分析)を4年行ってきました。
大学・病院・事務所ビルなど
様々な建物のエネルギーデータの分析をさせていただきました。
4年分析してきてわかったことを書きます。
- お客様はそれほど分析内容に興味がない(結果には興味がある)
- お客様はデータがあればデータ分析は簡単にできると思っている(簡単ではない)
- データ分析は楽しい(楽しい!!)
1. お客様はそれほど分析内容に興味がない
建物のオーナーサイドは、ほぼ分析内容に興味はありません。(90%ぐらいのオーナーは興味を示しませんでした。)
当然といえば当然ですが、お金に換算できるものには興味を示されます。オーナーサイドとしては当然かと思います。
ただ、ご依頼のあった報告書(両面100ページ程度)を全くご覧にならずに、別途ただ働き作成させていただいたA3用紙1枚のコスト削減量しか記載していないグラフのみで打ち合わせをされたときは絶句しました。逆に建物の管理を委託されている方々は、分析内容に比較的興味を持たれているようでした。
当然といえば当然ですが、委託された側からすると余計な業務(データ提供など)が増えるので、 最初はものすごーくめんどくさそうにされることも多々あります。
2. お客様はデータがあればデータ分析は簡単にできると思っている
- 過去1年分のデータあるし、データ分析なんて簡単だよね?(簡単ではない)
建築業界のエネルギーデータをご覧になったことはあるでしょうか?
現場とデータ分析の部署が分かれていることが多く、現場サイドでデータのカラム名や最終的なデータの精度を決めてることが多いのです。
時系列データなのでindexはタイムスタンプにはなっており、基本的にindexは問題ありません。(1sec~1yearまで様々)
問題は、
1. カラム名が重複している。
2. 重複しているのに全く違うデータが入っている。
3. 指示したカラム名が存在しない。。。etc
言い始めたらきりがない、これはひどい。
「データが正しい状態で保存されている≠データが存在している」と理解している人が社外だけでなく社内ですら少ない。
この業界だけですか?ほかの業界はもっと違うんですかね?
3. データ分析は楽しい
データの前処理は泥臭くて、課題解決できなけりゃ文句を言われて、社内外に敵が多いデータ分析の楽しい要素
- 課題解決のプロセスは、オープンワールド謎解きゲームをしてる感じで楽しい!
- 解決に至るプロセスが複数ある!(マルチエンディングだけど、すべてバッドエンドの場合もあるぞ!)
- ダミーの手掛かりがあったり、なかったり!(ダミーを選択しないようにしよう!)
- 仲間と協力することで解決がスムーズにいく場合が多いぞ!(ソロプレイはリアルオンラインゲームでは不利だ!)
- クリアの証は、ニーズのあるところにもっていかないとだめだぞ!(依頼者がクリアの証を欲しがってるとは限らないぞ!)
- データ分析は、料理のようでたのしい!
- 下ごしらえが大事(データの前処理、精度の担保)
- 工程が大事(セオリーがあるなら、先にセオリーを)
- 盛り付けも大事(いい結果を出せても可視化してわかりにくければ×)
- コンビニ弁当が好きな人に高級料理を出してもダメ(ニーズにあったものを提供しないと理解してもらえない)
おわりに
つらいこともあるけど楽しいこともあるデータ分析。
今後もデータ分析していきたいなと考えている今日この頃。
ビッグデータに疎い建築業界の僕にこの先生き残る道は残されているのか!
ライフはまだ残ってる。ここを耐えれば、この荒波に勝てるんだから!
次回!@snuow死す!デュエルスタンバイ!