ブログのタイトルを「Marmalade and Statistical Analysis of Text」、
日本語で言うなら「コロナとマーマレード」、
うそ、
「マーマレードと計量テキスト分析」としました。長いけど、ま、いいや。
朝日新聞の〈名物コラム〉、「天声人語」。
新型コロナウィルス感染症が、朝日新聞ではじめて報道されたのは(おそらく)2019年12月31日。その日の天声人語から、2020年5月31日の緊急事態宣言解除までの日のコラム148本を集め、デフォルト設定そのまま単純にKHcoderで〈分析〉してみました。当の本人もよく解っていないので、ご意見無用に願います。
図は、「共起ネットワーク」のアウトプット。「共起ネットワーク」は、
出現パターンの似通った語、すなわち共起の程度が強い語を線で結んだネットワーク(樋口2020)
である。線でつながっていることがそのまま語と語の共起を示す。
中央左には「コロナ」と「感染」が□で囲まれてますが、それは「コロナ」「感染」と関連が強い語のネットワークを示しているわけですね。ちなみに、やや右下には「中止」「大会」「開催」「延期」とかのネットワークが見えます。コロナ禍で五輪その他のスポーツ大会が延期ないしは中止になったことを書いたコラムがあったからでしょう。「コロナ」「感染」というキーワードで、まわりの世界はこの数ヶ月ずいぶんそれらの言葉によって動いてきた(動かされてきた)ことが伺えます。
ちなみに、「コロナ」「感染」という特定語をはずした分析結果がこちら。「人」という語が多く見られます。上の図にもありますが、「目」というのが頻出しるような?
「コロナ」「感染」というキーワード付与とはまた別の「天声人語」の世界が浮かび上がります。
とまあ、トーシロにはいまのところこのくらいしか〈感想〉は言えませんが、計量テキスト分析というのざっと表面をなぞっただけでも面白いと感じました。