僕がデータ分析者として覚醒するまで

しがない会社員がデータ分析者として覚醒するまでのブログ

RandomForest

概要

  • ランダムフォレストとは、弱学習器の決定木たくさん使って、単体の決定木より予測精度を向上させましょうというもの
  • 回帰でも分類でもどちらでも使用できる
  • 弱学習器を重ねる方法は、XGBoostとかLGBMとかもこのアルゴリズムらしい。

昔に書いたもの

qiita.com

  • とある学会で、エネルギーデータを予測するのにとりあえずRandomForestがいいよと聞いてやってみた結果
  • 実際、説明変数を大量に突っ込めばよい結果が生まれるわけではないのだけれど、学会で自信満々に発表されてるのをみてちょっと驚いた。

とはいえ・・・

  • 僕自身もまだふんわりとしかわかっていない
  • ツールとして使えるのはもちろんのこと本質がわかっていないとなぜこのアルゴリズムを選定したのかという明確な回答ができないから勉強あるのみ

賢くなった点

  • 不純度をジニ係数で表すという記述が本には書いてあった。
    • 僕の中ではジニ係数は「所得分配の不平等さを測る指標」という認識が強かった(公務員試験とかにでるよ!)

書いてて思ったけど、まだふんわりしているからもう少し掘り下げて明日も書こう。