民間のデータサイエンティストが見た「驚きの内幕」
厚労省のコロナ分析
新型コロナウイルス最新情報

民間のデータサイエンティストが見た「驚きの内幕」
厚労省のコロナ分析

新型コロナウイルスの感染拡大を受けて4月7日に発令された緊急事態宣言が5月25日、約1カ月半ぶりに全域で解除された。発令の際に呼びかけられたのが「接触の8割減」。今回の解除基準には含まれていないが、自粛による人々の行動の変化と新規感染者の減少の関係性を把握し、第2波に備えるためにも、接触の分析は重要だ。

8割の根拠は、厚生労働省クラスター対策班のメンバーで北海道大学の西浦博教授の計算に基づくもの。通信業者の位置情報などを活用して、一人当たりの接触頻度を調べることで、感染拡大の状況を推定できるという。「新規感染者数」は感染してから陽性の診断を受けるまでおよそ2週間の時間差があるが、「接触」はリアルタイムに監視することができる数少ない指標でもある。

この接触の評価に4月から関わっているのが民間のデータ分析会社ALBERT(アルベルト)の社員の有志だ。チームを率いるのは32歳のデータサイエンティスト、中村一翔。これまで官庁との大型プロジェクトをしたことがなかったベンチャー企業がなぜ、国の新型コロナ対策の要ともなる重要な任務に関わることになったのか。そして、今回のプロジェクトから見えてきた日本のデータ戦略の課題とは──。2回に分けて紹介する(2回目は『コロナ後も「絶対にデータ分析はやめてはいけない!」初動の悔い、第2波の教訓に』を参照)。

3月下旬、アルベルトの代表取締役社長の松本壮志は、厚労省の専門家会議の報告を見ていた。刻一刻と増える感染者数。「間違い無く裏側でデータ分析が走らないといけない」と松本は考えた。欧米では新型コロナ対策で国が民間のデータ分析会社と手を組んだ、との報道もあった。アルベルトにも手伝いができるのではないかと思い、データソリューション本部プロジェクト推進部副部長の中村と話をしたのが始まりだった。

2005年に設立されたアルベルトは、東証マザーズ上場のビッグデータ分析会社。約200人のデータサイエンティストを抱え、産業を超えた異業種の企業間のデータ統合と分析コンサルティングが強みだ。トヨタや東京海上日動、KDDIと資本提携し、接触の計算に使われる通信事業者の位置情報を扱った実績がある。

松本は厚労省に連絡し、4月3日に面会を取り付けた。面会当日、アルベルトからは松本と中村ら計3人が同席し、その足で厚労省内のクラスター対策班(以下、クラスター班)の部屋に向かうことになった。

「足を踏み入れて、驚きました。ホワイトボードにポケットWIFIのIDとパスワードが書いてある。個々人がポケットWIFIでネットワークに繋ぎ、ローカル端末のノートパソコンで分析していて、使うツールも統一されていませんでした」(中村)

接触の評価に使うのは数十ギガにも及ぶビッグデータ。全国をカバーし、1時間に1度の頻度で更新される。データの種類や数が増えればローカル端末で管理するのは限界があるのは明らかだった。

クラスター対策班ができたのは2月25日。班員として大学の研究室のメンバーや、厚労省の他部署からの応援部隊など、さまざまな人が集められた。全国の保健所を訪れてヒアリングし、その結果をエクセルシートに手打ちで入力するなど膨大な業務を担い、アクセス環境の整備や分析に使う共通のソフトウェアの導入もまだまだだった。

「我々は普段の業務で、複数人で体制を組んで効果的に分析を回しています。分析環境の構築・運用や、数理モデルや機械学習を用いた分析、班内全体の業務効率化や人的リソースの調達・管理まで含めて、支援できるところは大いにあるという印象でした。翌々日から具体的な支援の形を厚労省と詰めていきました」

1週間後の4月10日。アルベルトの社員7人が臨時国家公務員の「厚労省参与」の立場で正式にクラスター班に加わった。7人は20代から40代の機械学習や数理統計やシステム技術に詳しいデータサイエンティスト。社内で過去に通信事業者の位置情報、人口動態情報を扱うプロジェクトに携わっていた経験があり、今回の業務に賛同したメンバーだ。

社員が臨時国家公務員になるにあたり、人事ルールも話し合った。週の半分は厚労省で勤務、残りはアルベルトの本社と自宅のフレキシブルな勤務とし、イレギュラーな勤務時間になっても必ず週に1日は休めるようにし、残業の上限も決めた。参与としての報酬は受け取らない方針だ。

クラスター班としてまず取り掛かったのが、セキュリティ面の強化だった。班員だけがアクセスできるクラウド環境を構築。データ量が増えた時にも対応できる分析環境を整えた。

7人が携わる重要なタスクのひとつが、緊急事態宣言下の「接触の減少」の効果検証だ。クラスター班には、疫学数理モデルの西浦教授や空間統計学の中谷友樹東北大学教授といった専門家がおり、協調して接触の定義を決めている。

「西浦先生や中谷先生に疫学的な観点で検証妥当性などアドバイスをもらいながら、混成チームで分析をしています。我々はデータサイエンティストとして、分析計画を立て、実装や可視化・レポーティングを主に担っています」

中村にとって一番印象に残っているのが5月1日の専門家会議で出された補足資料づくりだ。直前に西浦教授と相談して出すことを決めた。

「専門家会議で出す資料は通常、要約されたものです。しかし、みんなが強い関心を持っているテーマですし、分析結果のプロセスや詳細を開示した方がいいと考えました。クラスター班として現時点でどういうところが見えていて、逆に何が見えていないのか、今後何を改善していきたいのか。みんなに正しく理解してもらうためにも公開に踏み切りました」

短期間で作成した資料は56ページに及ぶ。世界中の技術者が集うギットハブで公開され、誰でも読むことができるが、中村は「ごく一部の熱心な人見るかもしれないな、という気持ちで書いた」。しかし、反響は予想以上だった。

SNS上では、開示を感謝する言葉が寄せられたほか、多くの議論が交わされた。「様々な視点から有意義な指摘もあって、それが我々としては嬉しかったですね。開示して良かったと思いました」

例えば、キヤノングローバル戦略研究所からの指摘。クラスター班とは別の定義で接触度を評価し、レポートを公開している。専門的な内容だが、両者の違いを中村の話からかいつまんで説明したい。

5月1日の資料では、接触の削減効果をおもにNTTドコモの「モバイル空間統計」を使って評価した。1時間単位で500m×500mの範囲(500mメッシュ)で年代別の人口を推計したデータで、緊急事態宣言前と現在で人口の減少を比較し、接触の頻度の増減を分析している。

ここでは500mメッシュの人口に比例する形で接触が起きるという定義になっている。専門用語では頻度依存と呼ばれる、「一人当たりの接触人数は密度に依存せず一定である」という仮定だ。例えば、ある人が渋谷に行って接触する人数は、「渋谷に行った際の接触は連れていく友達2人と、一緒にお店に入った1人の従業員と会話をして、合計3人と接触した」と考えるようなケースである。

しかし、接触の定義次第で、例えばスクランブル交差点でただ通り過ぎただけの人も接触とみなすのであれば、人口密度に比例することになる。人口が半分になれば、さらに各人が接触する人数も半分になり、トータルの接触は滞留人口減少率の二乗に比例して減ることになる。

「我々はまずは頻度依存の仮定の元で分析を進めました。多くの疫学研究から頻度依存の仮定の方が現実的であると考えたからです。指摘いただいたのは密度依存性を考慮していないという点。どちらが正しいのかというと、おそらく両者の中間ぐらいが正しい評価になるのではないかと現時点では予想しています。指摘をもらった方ともウェブ会議で意見交換をし、妥当な評価をできるように模索しています」

資料にも課題として記載されており、当時から認識はされていたが、それを考慮するために必要なデータがなかった。すでにソフトバンク系のAgoop社とも提携し、500mメッシュよりも狭い範囲での詳細な情報や人の移動がわかる動線データの他、社会調査アンケートの活用も検討している。

今後はさらに分析対象を広げたい考えだ。「接触の分析を突き詰めていくと、どういう状況だと感染に繋がるかが間接的に見えてきます。自粛を解除するにあたって、強い自粛が必要なところとそれ以外を切り分けられれば、経済的損失を可能な限り抑えることもできるはずです。他にもクラスターの早期発見や人の行動のシミュレーションなどいろいろな可能性を模索しています」

アルベルトにとって官公庁との大規模な分析プロジェクトは初めてだが、同社の技術と「非常に親和性が高い」と中村は感じている。

「さまざまな業態の事業者が保有するデータを組み合わせて推定する取り組みで、データサイエンスの高い専門性を持つ人材が一定数必要です。これだけの技術者からなるチームを迅速に組成し、適切な手順で効果的にデータを分析できる企業はほかにないでしょう。おそらく我々しかできないと思っています」

社内からは「自分もチャンスがあればぜひこのプロジェクトに加わりたい」と声をかけてくれる人もいた。注目度の高さを改めて感じている。

引用元 : Forbes 民間のデータサイエンティストが見た「驚きの内幕」
お申し込みはこちら