僕がデータ分析者として覚醒するまで

しがない会社員がデータ分析者として覚醒するまでのブログ

テキストマイニング(前回の続き)

概要

前回までのあらすじ

  • ここまでできました。 f:id:snuow:20190417135111p:plain

今回やること

SourceCode

  • BeautifulSoupとurllibをimport
  • 指定したURLからhtmlを取得
  • 取得したhtmlから本文を抜き出し、形態素分析にかける
# BeautifulSoupとurllibをimport
from bs4 import BeautifulSoup
import urllib

#urlを指定して、dataにhtmlを格納
url = u'https://headlines.yahoo.co.jp/hl?a=20190417-00000073-impress-sci'
response = urllib.request.urlopen(url)
data = response.read().decode('utf-8')

# dataから特定のタグ内のテキストをmainに格納
soup = BeautifulSoup(data)
main = soup.find('p',class_="ynDetailText yjDirectSLinkTarget")

#---ここからは同じ
t = Tokenizer()
tokens = t.tokenize(main.text)
for token in tokens:
  print(str(token))
  • 出力はこんな感じ f:id:snuow:20190417135943p:plain