教員紹介

一覧へ戻る

笠原 雅弘

(かさはら まさひろ/准教授/生命科学研究系)

メディカル情報生命専攻/大規模バイオ情報解析分野/大規模バイオ情報解析

略歴

2002年3月東京大学理学部情報科学科卒業
2004年3月東京大学大学院情報理工学系研究科コンピュータ科学修士課程修了
2004年4月東京大学大学院新領域創成科学研究科情報生命科学専攻 特任助教
2009年3月博士(科学)(東京大学)
2009年6月より現職

教育活動

大学院:情報生命科学基礎I、情報生命科学演習
理学部:生物情報科学基礎論I、生物情報科学情報科学実験、生物データベース論

研究活動

近年の技術改良によりDNA配列シークエンサーの出力スループットは急速に上昇し、費用あたりの塩基出力量はここ5年間で約4桁以上となっている。このような観測技術の急速な進歩に伴って、DNA配列シークエンサーの出力を中心とした大容量の観測データを解析し、生物学的な知見に結びつけるための様々な情報処理技術の研究が急務となっている。

(1)ゲノムアセンブリアルゴリズムの研究
DNAシークエンサーが一続きで読める塩基の長さは30~1000塩基程度である。これに対して染色体は遙かに長い。そこで、ゲノム配列の解読を行う際にはゲノム配列をランダムに裁断し、裁断されたDNA分子について片っ端からその両端の配列を決定していく「全ゲノムショットガン法」がゲノム解読のために用いられている。
全ゲノムショットガン法により得られたDNA配列はゲノム中のランダムな位置から読まれているため、ばらばらの断片配列をつなぎ合わせて元のゲノム配列を復元するためにはコンピューターによる処理が必要となる。このプロセスを「ゲノムアセンブリ」と呼び、ゲノムアセンブリを高速・高精度に行うためのアルゴリズムを研究している。
ゲノムアセンブリアルゴリズムの研究自体は数十年の歴史がある研究分野であるが、ここ数年のDNA配列シークエンサーの劇的な進歩により問題の本質は大きく変わってしまった。特に扱うデータ量の増加は目覚ましく、大きなデータ構造を保持するために1TBのメモリを搭載したマシンを活用したり、計算に1ヶ月以上掛かったりするなど、計算機科学的なアプローチ無しではとても取り扱うことができない問題となっている。現在は、様々な種類のDNAシークエンサーから出力されたデータを統合し、クラスター型計算機上での並列計算を駆使して高速・高精度にゲノムアセンブリを行うアルゴリズムの研究を行っている。

(2)ゲノム情報処理向けの並列計算・パイプライン計算プラットホームの研究
最近のDNAシークエンサーはその圧倒的な出力スループットを活かして、ゲノム配列の決定以外にも様々な応用範囲を持っている。たとえば、mRNAを逆転写しショットガンシークエンスすることでゲノム中の発現領域やその発現量を推定したり、mRNA の 5'-端を集めてシークエンスする方法を用いた遺伝子発現量の測定、一塩基多型や構造多型・コピー数多型など様々な多型の観測、免疫沈降法と組み合わせたタンパク質とゲノムの相互作用の観測、Hi-C法を用いた染色体三次元構造の観測など、観測対象を DNA に変換することで細胞やゲノムの様々な状態を観測することができる。
しかし、データ量の急激な増大に対して解析手段の進歩は全く追いついていない。データ量の増大に対応するためにはアルゴリズムの改良による高速化が第一に目指すべき目標ではあるが、計算を並列化することでスピードアップを図ることも非常に重要である。
並列計算の研究には非常に長い歴史があり、並列計算のパラダイムには様々なものが提案されているが、従来型の数値計算をメインとする並列計算と比べると近年の分子生物学・情報生命科学における問題はかなり異質であり、既存手法の組み合わせではそのニーズに対応しきれていないのが現状である。特に異なる点は、データサイズが大きく計算時間における入出力の割合が非常に大きい点、様々な言語のプログラムを組み合わせる必要がある点、計算時間よりプログラムの開発時間が長いことが多く、計算効率より開発効率が重要である点などである。
このような問題に対処するために、情報生命科学向けの並列プログラミングフレームワークやパイプライン計算のプラットホームを研究している。

(3)RNA sequencing の解析アルゴリズムの研究
新型DNA配列シークエンサーの登場に伴い、様々な種のゲノム配列が解読されてきている。新規に解読したゲノムに対して遺伝子セットをアノテートするために、ホモロジーやコドンの偏りを用いた予測技術が従来用いられてきたが、mRNAの配列をショットガンシークエンシングすることにより、発現している遺伝子とその発現量を観測する方法が提案されている。(RNA sequencing、あるいはRNA-seq と呼ばれている。)
RNA sequencing を用いた解析では、遺伝子領域・構造の同定や発現量比の正確な推定、多型の同定やサンプル間の比較、手法など、様々な解析アルゴリズムが必要であり、(2)の並列計算プラットホームと組み合わせた展開を目指している。

文献

1)Kasahara M, et al, Nature, 447(7145):714-9, 2007
2)Kasahara M and Morishita S, Large-Scale Genome Sequence Processing, Imperial College Press, London, 2006
3) 笠原雅弘「ゲノムアセンブラと新型シークエンサーを使用したゲノムシークエンシングの未来」実験医学増刊「生命研究への応用と開発が進むバイオデータベースとソフトウェア最前線」26(7):1021-1032, 2008

その他

分子生物学会、ACM各会員。

将来計画

合成生物学的なアプローチと組み合わせると今後面白い展開がありそうです。

教員からのメッセージ

自分が面白いと思ったことについて、世界で一番詳しくなることが大事です。