Brave New Normal! 慶應通信の卒論とか、テキストマイニングとか。

【卒論】データクレンジング試行

アバター
WRITER
 
この記事を書いている人 - WRITER -
アバター
nikolaschla(ニコラシカ)こと、穂崎萬大(ほざき・かずひろ)。ソーシャルプランナ。補綴家。2017年慶應通信法学部甲類71秋期学士入学→乙類へ転類。ガンプラ/サイゼリヤ/ブロンプトン/天声人語/ポメラ。明治100年静岡市生まれ。

昨日から、卒論の素材データ(っていうんですかね、基礎データ)をデータクレンジング(データクリーニング)しはじめました。ラベリングしたり形式整えていたり。酒をお供に、昨夜までで50件ほどやりました。

素材データは新聞記事テキストです。1件=1記事。ざっと5,000件が対象になりますがそれをひとつひとつ丁寧にクレンジングしていく・・・なんてことをやっていたら今秋の卒論指導(第2回)には到底間に合いません(その前にココロが折れる)。ですが、少なくともある新聞媒体については、仮説検証の必要もあって、それなりに結果を出したいところなのです。その対象データがざっと1,100件ていど。
思い切って、記事CD-ROMでも購入しちゃおうかなと思ったりしましたが、まあ結構なお値段ですので、このコロナ禍の御時世には二の足を踏んでおります(もう少し周辺調査したい)。

大学のデータベースが外部利用できるはずなのですが、それに必要なICTアカウントが切れているのでそれもままならず。もっといえば、そのデータベースがほんとうに〈使えるモノ〉なのかも不確かなのですね。来週以降で事務局が開室したら訊いてみたいと思います。

けっきょくどうしたかというと、そもそもテキストマイニングの試行もしておきたいので、niftyの新聞記事検索サービスを使って記事を読んでいます。こちらも当然有料ではありますが、ン10万支払うよりはマシです。

それにしても、というか、生データを見ると、やはりいろいろと発見がありますね。正直面白いです。いまは特定の言葉に着目しているのですが、その言葉の〈変遷〉を辿っていくと「へえ」という、ネタのてんこ盛りではあります。

さて、今日5/31も頑張ります。今日で5月も終わりですね。

 

 

この記事を書いている人 - WRITER -
アバター
nikolaschla(ニコラシカ)こと、穂崎萬大(ほざき・かずひろ)。ソーシャルプランナ。補綴家。2017年慶應通信法学部甲類71秋期学士入学→乙類へ転類。ガンプラ/サイゼリヤ/ブロンプトン/天声人語/ポメラ。明治100年静岡市生まれ。

- Comments -

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

Copyright© franciscocity field , 2020 All Rights Reserved.