日本経済学会新型コロナウイルス感染症ワーキンググループは30日、「新型コロナウイルス感染症に関する研究」サイトの文献リストを更新しました。10月13日の当初公開版は62本の文献を収録しましたが、今回は15本の文献を追加しました(WGで11月26日までに収集したものです)。会員の新たな研究成果が発表され、査読雑誌への掲載も決まってきました。

 同時に、文献リストのデータをサイトで公開しています。新型コロナウイルス感染症関係では、患者の発生届が医療機関からFAXで保健所に送られて手入力で集計されている事情は以前に話題になりましたが、保健所設置自治体と都道府県が集計したデータは、簡単には全国集計できないように、思い思いの形式で公表されています。簡単に集計できないとは、書式がばらばらなことに加えて、「機械で読めない」ということであって、図形データで書き込まれていたり、表の構造が複雑すぎたり、書式がよく変わる、という問題です。
 機械で読むことを念頭にWebに置かれたデータは、LOD(Linked Open Data)と呼ばれますが、LODを理解している関係者が多ければ、データの集計がもっと容易になり、実態がもっとよく把握できたでしょう。
 データ分析も専門領域とする学会としては、新型コロナウイルス感染症に関わる際に、LOD無視の潮流からは距離を置くためにデータを公開しました。サイト作成の舞台裏を少しお話しすると、まず文献収集班のメンバーが集めた情報を、共有のGoogleスプレッドシートに入力し、公開のタイミングで誤記入や体裁の不統一を直します。ここからWG内部で利用する項目を除いたものが、公開したデータです。なお、シートでは、このデータをソートして、HTMLのタグをつけるところまで作業して、サイト運営班に渡します。
 サイト開設の際にデータ公開の構想はあったのですが、項目の一部が流動的だったので、公開は見送りました。その後の見直し作業で項目がほぼ固定されたので、今回版で公開できました。項目は、著作物のメタデータ語彙であるDCMI、PRISM等に沿っていますが、WGでの使いやすさを優先させて変更した部分があるので、公式にはこれらの語彙とは関係ないことにしています。
 さて、「公開したのでご利用ください」と通常は言いたくなるのですが、このデータに関しては公開することに意義があるという理由で公開するので、どういう利用方法があるのかは、正直なところ私の頭では見当がつきません。TSV形式での公開は三つ星LODですが、それ以上の星を目指さないのも手間をかけるに値する利用価値が思いつかないからです。何か役に立つ使い方があったらいいのですが。

(参考)
5つ星オープンデータ

Semantic Web - W3C

(関係する過去記事)
「日本経済学会『新型コロナウイルス感染症に関する研究』サイトを開設しました」