東京大学情報基盤センター

学術情報研究部門

ホーム > 学術情報研究部門 > 概要

概要

巨大な情報のなかからほしい情報を探し、人が気付かなかった知見を見つけ出す方法を、
統計的機械学習を使うアプローチで研究しています。

データに潜在している価値を取り出す

人の思考や編み出した知恵は、長い間「文書」という形でまとめられ、図書館はその蓄積と提供の場となってきました。東京大学でも、研究活動の成果や、教育・研究に欠かせない大量の文献や資料が図書館に収集され、学内外に提供されるとともに、それらの情報の電子化が進められています。一方、ウェブ上には人や機械が投じる膨大な情報が日々追加され、新たな情報の蓄積場が形成されています。こうして拡大していくデータへの統合的なナビゲーションや活用を可能とするために、2009年から学術情報研究部門の活動が始まりました。

急激に集積が進んでいる巨大な情報のなかから、いかにして必要な情報を簡単に探せるようにするか。また、不定形の情報の集まりに潜在している知見をいかにして見つけだすか。学術情報研究部門は統計学に基づいた機械学習の手法を用い、人のニーズに寄り添う深い情報検索や、情報をより活用していくためのデータマイニングを研究しています。

機械学習を用いたデータの分析は、大量のデータが出現したことで価値が高くなりました。そのため、応用に合った統計モデルをどのようにつくるかという理論面の研究と並行して、大量のデータを処理するための、並列計算の技術を使いこなしたり巨大データベースを構築する技術を蓄積することも、欠かせません。

研究テーマ

人の思考に寄り添う検索

「図書館情報ナビゲーター」は、図書館の従来からの分類体系に、Wikipediaのカテゴリーを統合。ウェブ上の情報を活用して利用者に気づきのきっかけとなるキーワードを提示し、図書館の蔵書文献へとナビゲートします。学内だけでなく他大学の図書館や国会図書館にも導入されました。

人のニーズに合った「深い」分析

検索エンジンのかゆいところに手の届かない点を、ウェブ上のデータをより深く分析することで補うことができます。同姓同名の人物のデータを同一人物ごとにまとめる「Nayose(名寄せ)」、文章中の専門用語を重要度の高い順に表示する「厳選Web」を開発しました。

データ駆動インテリジェンス

統計的機械学習の手法によって大量のデータからトピックを抽出し、自動分類する研究をしています。人手がかからないだけでなく、人が気付かなかった新しい分類方法を見つけられるのがポイントです。

人のプライバシーに配慮したデータマイニング

他社に自社の顧客情報を明かすことなく、複数企業の顧客情報を統合してデータマイニングを行う技術を研究しています。研究が進めば、個人のプライバシーを護りつつ、病院の診療情報を連携させて伝染病の感染経路を追跡することも可能になります。