テキストマイニング(前回の続き)
概要
前回までのあらすじ
- ここまでできました。
今回やること
SourceCode
- BeautifulSoupとurllibをimport
- 指定したURLからhtmlを取得
- 取得したhtmlから本文を抜き出し、形態素分析にかける
# BeautifulSoupとurllibをimport from bs4 import BeautifulSoup import urllib #urlを指定して、dataにhtmlを格納 url = u'https://headlines.yahoo.co.jp/hl?a=20190417-00000073-impress-sci' response = urllib.request.urlopen(url) data = response.read().decode('utf-8') # dataから特定のタグ内のテキストをmainに格納 soup = BeautifulSoup(data) main = soup.find('p',class_="ynDetailText yjDirectSLinkTarget") #---ここからは同じ t = Tokenizer() tokens = t.tokenize(main.text) for token in tokens: print(str(token))
- 出力はこんな感じ