僕がデータ分析者として覚醒するまで

しがない会社員がデータ分析者として覚醒するまでのブログ

2019-01-01から1年間の記事一覧

Python_特殊メソッド__str__

概要 datetime.date(2019,5,21)をインスタンス化した後に、print(instance)で文字列が返ってくるのが気になった。 コード class testclass: def __init__(self,val1,val2,val3): self.year = val1 self.month = val2 self.day = val3 def __str__(self): pri…

【備忘録】pythonを使ってftp接続し、最新フォルダを取得する

概要 ftp接続し、最新フォルダを取得する。 覚書 ftplibでftp接続しフォルダにアクセスする。 フォルダは自動生成され、フォルダ名称はint型の数値でインクリメントされたものになる。 ファイルとフォルダの判断は、.(ピリオド)の有無で行っている。 Code 最…

RandomForest

概要 ランダムフォレストとは、弱学習器の決定木たくさん使って、単体の決定木より予測精度を向上させましょうというもの 回帰でも分類でもどちらでも使用できる 弱学習器を重ねる方法は、XGBoostとかLGBMとかもこのアルゴリズムらしい。 昔に書いたもの qii…

ナイーブベイズ(単純ベイズ)

ナイーブベイズ(単純ベイズ) 概要 自然言語処理によく用いられるらしい 分類問題に使用 確率に基づいて予測する スパムの除去やカテゴリ分類に利用される メリット 自然言語処理によってそれなりに良い精度をだしてくれるらしい 名詞のみで予測できるので…

コーディングのお勉強 @classmethod

わからなかったこと Classをインスタンスにするまえに、methodを呼び出せることが理解できなかった。 下記のclassでtest.methodtest()としたかった。 class test: def __init__(self): print('初期化') def methodtest(self): print('method_test') return s…

Ridge回帰とLasso回帰について

読んでる本 まだ途中です。 見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑作者: 秋庭伸也,杉山阿聖,寺田学,加藤公一出版社/メーカー: 翔泳社発売日: 2019/04/17メディア: 単行本(ソフトカバー)この商品を含むブログを見る ただの線形回帰と…

テキストマイニング_単語N-gramモデル

最近、転職活動の一環の勉強として、「自然言語処理の基本と技術」という本を読んでいます。(データサイエンティストとして、自然言語処理も必要だと考えているため) 前回は、Yahooニュースの本文から形態素解析をjanomeで行った後、名詞をカウントしグラフ…

テキストマイニング(前回の続き2)

概要 前回までのあらすじ 入力したURL(yah○○ニュース)から本文を抽出 抽出した本文から名詞を抜き出し 抜き出した出力はこんなかんじ 今回やること グラフ化して、単語の出現頻度を確認する グラフ化はpandasのDataFrameから行う SourceCode # URLを指定し、…

テキストマイニング(前回の続き)

概要 前回までのあらすじ ここまでできました。 今回やること スクレイピングでYah○○ニュースからテキストデータを取得 取得したデータを形態素分解 SourceCode BeautifulSoupとurllibをimport 指定したURLからhtmlを取得 取得したhtmlから本文を抜き出し、…

テキストマイニング

テキストマイニングとは テキストマイニング(英: text mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報…

概要 Bokehによるエネルギーデータの可視化 pandasの使い方は下記を参照するとすごく幸せになれます。 データ分析で頻出のPandas基本操作 StatsFragments 初心者による「Python初心者がコピペで使える!時系列データの可視化!」でのBokeh分になります。 impor…