テキストマイニング
テキストマイニングとは
テキストマイニング(英: text mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。(出典:Wikipedia)
Pythonで実装する
概要
Install
- まずは、pipでjanomeをインストール
pip install janome
SourceCode
- 以下のような形でソースを書くと形態素に分解してくれます。
t = Tokenizer() tokens = t.tokenize(u'こんにちは。私は日本人です。') for token in tokens: print(str(token))
こんにちは 感動詞,*,*,*,*,*,こんにちは,コンニチハ,コンニチワ 。 記号,句点,*,*,*,*,。,。,。 私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 日本人 名詞,一般,*,*,*,*,日本人,ニッポンジン,ニッポンジン です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス 。 記号,句点,*,*,*,*,。,。,。