概要
歴史的史料のデジタル化、データから価値ある知見を生み出す方法論を研究しています。
データに潜在している価値を取り出す
今日、天候や地震活動の自然観測データ、人や車の移動データ、商取引、医療などの社会活動データを含む、さまざまなデータが自然および人工の情報源から集められ、膨大な量のデジタルデータとして蓄積されています。
デジタルデータはまた、散逸の危険性がある歴史的な文書および記録をデジタルアーカイブすることによっても生成されます。そこではデジタル化そのものが貴重な財産を生み出し、物理的な距離に関係なくそれらをアクセス可能にすることによって、それらの価値を高めています。さらに、Webページ、ソーシャルネットワーク、学術論文など、初めからデジタルで生まれたデータもあります。
データ分析とモデリング技術、特に機械学習の発展により、データから、より意味があり解釈可能な情報を抽出することが可能になり、さらにネットワーク技術の発展によってさまざまな情報源からの情報を組み合わせることが可能になっています。データ科学は、数字の並びにすぎない生データから価値ある洞察や知識を抽出することについての広大な分野です。データ科学はまた、高性能プロセッサー、ストレージ、ネットワーク、大規模データ分析、深層学習を含む数値計算アルゴリズムなど、高性能計算技術の進歩とも深く関わっています。
データ科学研究部門は、旧学術情報研究部門を改め2018年末に設立されました。データ科学に関する研究に加え、データ科学研究コミュニティのための基盤を設計、構築するために、中心的な役割を果たしていきます。また、附属図書館と密接に協力し、デジタルアーカイブプロジェクトと学術データベースの運用サービスを遂行します。
研究テーマ
データ統合と機械学習による人の流れの予測
携帯機器の位置情報から得られる人の位置と、デジタル化された都市交通網データなどを統合、分析し、新世代の人工知能技術(深層学習、強化学習、アンサンブル学習など)と結び付けて、複数の交通手段を使用して刻々と移動していく人の流れを予測する研究をしています。予測情報は、交通システムの制御、緊急事態発生時の管理、災害発生時の支援、伝染病の拡大予防対策、医療資源配置の最適化などに役立てることができます。このような予測を実現するための、モデリングとシミュレーションの手法に力を入れています。
大規模グラフニューラルネットワーク
デジタル空間と現実世界の「モノ・コト・ヒト」のつながりは、グラフ理論では、ノードとエッジによって構成される大規模な動的グラフ構造として表現できます。この大規模グラフ構造とノード、エッジの役割・性質を、ニューラルネットワークを用いて深層学習し、解析するための手法「グラフニューラルネットワーク(GNN)」を研究しています。GNNの応用研究では、電子商取引、ニュース記事の推薦問題、モビリティにおける交通予測、金融領域における不正検知に取り組んでいます。また、データ科学・機械学習と材料開発・研究の融合分野であるマテリアルズインフォマティクスへの応用にも取り組んでいます。シミュレーションによる計算データや実験機器からの実データの効率的・効果的な収集方法、それらのデータを活用したGNNによる物性値予測の研究を行っています。
データ活用社会創成プラットフォームmdx
研究環境を用途に合わせてオンデマンドで短時間に構築・拡張・融合できる、データ収集・集積・解析のためのプラットフォームを提供しています。
データ利活用やその社会実装には、複数の分野、複数のセクターでの協働が不可欠です。大学に限らず、企業や研究機関などが保有するデータに対し、課題解決のための個々の分野の専門的知見、プログラミング、アルゴリズム、機械学習などの情報科学・データ科学の知見などが、これまで以上に広範に、密に合わさることが必要になっています。mdxはそのための大きな一歩となるよう作られたプラットフォームです。大学や国立研究機関、産業界、自治体などが組織の垣根を越え、迅速に、密に、効率よく連携できるようにすることをミッションとしています。
mdxは、仮想化技術を用いてプロジェクトごとに分離された、プライベート環境(仮想プラットフォーム)を提供します。プライベート環境はプロジェクトごとに柔軟に環境構築・設定が可能で、プロジェクトそれぞれに必要なソフトウェアスタックを導入できます。そしてSINETを活かしてリアルタイムに収集・集積したデータを、mdxで解析することを可能にします。このようなプラットフォームがさまざまな分野のデータ保持者、解析者、利用者のコミュニティーを形成し、新たな価値創造につながっていきます。
2024年現在、mdxは国内の9大学・2研究機関によって共同で運営され、東京大学情報基盤センターが統括・事務局を担当しています。