僕がデータ分析者として覚醒するまで

しがない会社員がデータ分析者として覚醒するまでのブログ

2019-04-01から1ヶ月間の記事一覧

テキストマイニング_単語N-gramモデル

最近、転職活動の一環の勉強として、「自然言語処理の基本と技術」という本を読んでいます。(データサイエンティストとして、自然言語処理も必要だと考えているため) 前回は、Yahooニュースの本文から形態素解析をjanomeで行った後、名詞をカウントしグラフ…

テキストマイニング(前回の続き2)

概要 前回までのあらすじ 入力したURL(yah○○ニュース)から本文を抽出 抽出した本文から名詞を抜き出し 抜き出した出力はこんなかんじ 今回やること グラフ化して、単語の出現頻度を確認する グラフ化はpandasのDataFrameから行う SourceCode # URLを指定し、…

テキストマイニング(前回の続き)

概要 前回までのあらすじ ここまでできました。 今回やること スクレイピングでYah○○ニュースからテキストデータを取得 取得したデータを形態素分解 SourceCode BeautifulSoupとurllibをimport 指定したURLからhtmlを取得 取得したhtmlから本文を抜き出し、…

テキストマイニング

テキストマイニングとは テキストマイニング(英: text mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報…

概要 Bokehによるエネルギーデータの可視化 pandasの使い方は下記を参照するとすごく幸せになれます。 データ分析で頻出のPandas基本操作 StatsFragments 初心者による「Python初心者がコピペで使える!時系列データの可視化!」でのBokeh分になります。 impor…