僕がデータ分析者として覚醒するまで

しがない会社員がデータ分析者として覚醒するまでのブログ

テキストマイニング

Python 勉強テキストマイニング

テキストマイニングとは

テキストマイニング（英: text mining）は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。(出典：Wikipedia)

Pythonで実装する

概要

実装環境は、GoogleColaboratory
janomeで形態素分解を行う。

Install

まずは、pipでjanomeをインストール

pip install janome

SourceCode

以下のような形でソースを書くと形態素に分解してくれます。

t = Tokenizer()
tokens = t.tokenize(u'こんにちは。私は日本人です。')
for token in tokens:
  print(str(token))

こんにちは 感動詞,*,*,*,*,*,こんにちは,コンニチハ,コンニチワ
。 記号,句点,*,*,*,*,。,。,。
私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
日本人   名詞,一般,*,*,*,*,日本人,ニッポンジン,ニッポンジン
です  助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。

Next

次は、Webページをスクレイピングして、そのデータを形態素分析にかけたいと思う。