卒論 卒論活動

【卒論】データクレンジング試行

昨日から、卒論の素材データ(っていうんですかね、基礎データ)をデータクレンジング(データクリーニング)しはじめました。ラベリングしたり形式整えていたり。酒をお供に、昨夜までで50件ほどやりました。

素材データは新聞記事テキストです。1件=1記事。ざっと5,000件が対象になりますがそれをひとつひとつ丁寧にクレンジングしていく・・・なんてことをやっていたら今秋の卒論指導(第2回)には到底間に合いません(その前にココロが折れる)。ですが、少なくともある新聞媒体については、仮説検証の必要もあって、それなりに結果を出したいところなのです。その対象データがざっと1,100件ていど。
思い切って、記事CD-ROMでも購入しちゃおうかなと思ったりしましたが、まあ結構なお値段ですので、このコロナ禍の御時世には二の足を踏んでおります(もう少し周辺調査したい)。

大学のデータベースが外部利用できるはずなのですが、それに必要なICTアカウントが切れているのでそれもままならず。もっといえば、そのデータベースがほんとうに〈使えるモノ〉なのかも不確かなのですね。来週以降で事務局が開室したら訊いてみたいと思います。

けっきょくどうしたかというと、そもそもテキストマイニングの試行もしておきたいので、niftyの新聞記事検索サービスを使って記事を読んでいます。こちらも当然有料ではありますが、ン10万支払うよりはマシです。

それにしても、というか、生データを見ると、やはりいろいろと発見がありますね。正直面白いです。いまは特定の言葉に着目しているのですが、その言葉の〈変遷〉を辿っていくと「へえ」という、ネタのてんこ盛りではあります。

さて、今日5/31も頑張ります。今日で5月も終わりですね。

 

 

-卒論, 卒論活動
-, ,