せっせと新聞記事を集めていますが、目標の1/3も集められていませんし、そもそもデータのクレンジングも進んでいないのですが、好きだ楽しいと言っていてもやっぱり人間どこか飽きるところはあるようです。
なので、テキストマイニングツールの練習も兼ねて、朝日新聞の一面名物コラム「天声人語」の記事データを使って遊んでみようかと思います。期間は2019年大晦日から今年2020年5月末日まで。前の大晦日は、武漢肺炎について朝日新聞ではじめて報道された日と思われ(間違っていたらすいません)、そこから静静とコロナ禍報道が増えていくわけです。というような状況は〈森羅万象を書く〉とされた名物コラムにどんな影響を与えたのか。ただ、この期間とは別の期間のデータや別の新聞のコラム記事を集めて比較しないといけないので、「天声人語」単体ではあまり面白いことは言えないかもしれませんね。
ただ、頻出語を見てみると、1位は「人」という名詞が最頻出していました。その後は「政治」「言葉」というふうに続きます。5位にはじめて「感染」というワードが登場します。切り口によってはいろいろと楽しめるんじゃないかと感じています。