僕がデータ分析者として覚醒するまで

しがない会社員がデータ分析者として覚醒するまでのブログ

テキストマイニング

テキストマイニングとは

テキストマイニング(英: text mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。(出典:Wikipedia)

Pythonで実装する

概要

  • 実装環境は、GoogleColaboratory
  • janome形態素分解を行う。

Install

  • まずは、pipでjanomeをインストール
pip install janome

SourceCode

  • 以下のような形でソースを書くと形態素に分解してくれます。
t = Tokenizer()
tokens = t.tokenize(u'こんにちは。私は日本人です。')
for token in tokens:
  print(str(token))
こんにちは 感動詞,*,*,*,*,*,こんにちは,コンニチハ,コンニチワ
。 記号,句点,*,*,*,*,。,。,。
私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
日本人   名詞,一般,*,*,*,*,日本人,ニッポンジン,ニッポンジン
です  助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。

Next