革新的な細胞画像解析パイプラインの開発 ― 顕微鏡のキャリブレーション ―
- 記者発表
東京大学
発表のポイント
◆細胞画像解析の精度を向上させる技術を開発しました。
◆単峰性確率分布モデルを細胞の形態学的データへ割り当てることにより、より詳細な細胞の形態解析ができることを実証しました。
◆細胞レベルの画像解析研究や画像診断技術の向上に貢献すると考えられます。
発表概要
東京大学大学院新領域創成科学研究科先端生命科学専攻、微生物科学イノベーション連携研究機構(CRIIM)の大矢禎一教授の研究グループは、単峰性確率分布モデルを細胞の形態学的データへ割り当てる画期的な細胞画像解析パイプラインを開発して、実験誤差の見積もりが正確になり、より詳細な形態解析ができることを実証しました。
本研究成果は、顕微鏡を使った画像解析研究や画像診断技術の向上に貢献すると期待できます。
今回研究グループは、数百ある形態的特徴のそれぞれに9種類の単峰性(注1)の確率分布モデル(注2)を割り当てることにより、わずかな形態的変化を正確に検出するためのUNIMO(UNImodal MOrphological data、注3)パイプラインの開発に成功しました。UNIMOでは、まず出力される形態的特徴のそれぞれに対してデータタイプを定義します。同時に詳しい実験ログがある繰り返し実験データセットを用意します。これらを使うことで、出芽酵母の形態的特徴のほとんどが単峰性の確率分布を示すことを初めて示しました。提案したパイプラインを使って出芽酵母の非必須遺伝子破壊株(注4)の形態的変化を再解析し、従来のアプローチと比較して圧倒的に多い変異体が検出できることを確認しました。さらに、他の統計学的手法と組み合わせて使用することで、細胞機能ネットワークに関するグローバルな知見が得られるようになりました。
本研究は、2022年3月31日付けで科学雑誌『BMC Biology』にオンライン公開されました。
本研究は日本学術振興会(JSPS)科学研究費助成事業基盤研究(B)「ハプロ不全性のメカニズムに関する研究(研究代表者:大矢禎一、19H03205)」と戦略的イノベーション創造プログラム(SIP)「スマー トバイオ産業・農業基盤技術」(管理法人:生研支援センター)による支援を受けて行われました。
発表内容
背景
細胞の形態学的データはゲノムやトランスクリプトームのデータに比べてノイズが大きいとされています。細胞の顕微鏡画像はデジタル画像に変換後、細胞形態に関する豊富な情報を提供しますが、同じ細胞を同じ顕微鏡で観察しても、出力データにはどうしてもある程度のばらつきが生じてしまいます。異なる顕微鏡で同じ細胞を観察すると、細胞の見え方が微妙に違ってしまい出力データが変わってきます。つまり、形態学的データの真の値を求めることが困難なのです。その結果、形態異常度の検出の感度が低く、詳細な形態解析が困難になっていました。真の値を推定するためには、まず実験誤差(注5)の分布を知ることが必要です。本研究では、実験誤差の分布が単峰性の確率分布に従うのであれば、適切な確率分布に当てはめることで理論的に真の値を推定することができることに着目しました。
研究手法と成果
本研究では、出芽酵母細胞のすべての可能な形態的特徴に単峰性の確率分布を割り当てることにより、微妙な形態的変化を正確に検出するための画期的な画像解析パイプライン、UNIMO(UNImodal MOrphological data)を開発しました。簡単な構造をした細胞でさえ、大きさ、密度、個数、長さ、角度、比率、分散、割合などの異なるタイプの形態的特徴があります(図1)。出力される数百の形態特徴に対してデータタイプを定義し、既存の33の確率分布の中で、9つの確率分布が出芽酵母の形態的特徴の実験誤差に最も良く当てはまることを、モデル選択法(注6)により明らかにしました(図2)。次に、確率的混合モデル(注7)を使用して、形態的特徴の実験誤差の分布が単峰性か多峰性を調べました。繰り返し実験データのばらつきは実験誤差の分布を表しています。そこでどの顕微鏡を使って顕微鏡写真を撮ったかなどの詳しい実験ログがある繰り返し実験データセットを利用して、出力データに影響を与える顕微鏡の違いなどの他の要因(交絡因子、注8)の影響を調べました(図3)。その結果、交絡因子の影響を除くと出芽酵母のほとんど(490/501)の形態的特徴の実験誤差が単峰性の分布に従うことがわかりました。
UNIMOの優位性を検証するために、非必須遺伝子破壊株の形態的変化を解析しました。まず、UNIMOを使うことによって圧倒的に多い数の形態的特徴が利用できるようになりました。従来のアプローチでは、501の形態的特徴のうち約半数しか利用できませんでしたが、UNIMOによってほとんどの形態的特徴が形態変化を調査するのに使えるようになりました。さらに、従来のアプローチに比べて1.5倍の遺伝子破壊株が形態異常を示しました。UNIMOで新たに形態異常を示した変異株の数は1,132になり、その中には代謝経路、オートファジー、タンパク質プロセッシングなどの遺伝子群が含まれていました。以上の結果から、従来の方法よりも形態異常株の検出感度が高くなっていることがわかりました。
UNIMOを使うことで、形態学的データの真の値が把握できるようになったので、生物学的に重要な知見が得られるようになりました。変異株の形態学的データの中には、遺伝子機能が欠損した時の特徴的な表現型情報が含まれているため、形態類似度を使って遺伝子機能の類似性を調べることができます。正準変量(注9)を利用して形態類似度を計算し、130の遺伝子機能に属する2,915の非必須遺伝子を遺伝子機能に基づいてマッピングしました(図4)。この中にはイオン恒常性、リボソームの構成成分、エネルギー代謝など、さまざまな重要な細胞機能を持つ44のコア遺伝子機能グループが含まれており、これらは分散型ネットワーク(注10)のハブとして機能していました。樹状図を作成すると、コア遺伝子グループがクラスターを形成していなかったことから、関連性の低い遺伝子グループでさえ、相互の接続を通じて重要かつ多様な役割を果たすことがわかりました。 以上のようにUNIMOを使用した解析により、形態表現型に基づいた多数の非必須遺伝子間の機能的関係性の概要が示され、細胞ネットワークに関するグローバルな知見が明らかになり、考えられる遺伝子機能への新しい洞察が可能になりました。既にアーカイブされている画像データにUNIMOが適用できたことから、このパイプラインの汎用性も示されました。
今後の期待
定量的な形態学的分析では信頼できる真の値を推定することが究極の目的ですが、今回の研究では単峰性の確率分布を割り当てることでそれを実現しました。異なる顕微鏡で形態解析すると出力データが変わってきてしまい、画像解析研究や画像診断の時の大きな問題になっています。今後はそれらの分野にもUNIMOを適用することで信頼性が高いユニバーサルな出力が期待できます。
発表雑誌
雑誌名:「BMC Biology」(オンライン版:3月31日付)
論文タイトル:Assignment of unimodal probability distribution models for quantitative morphological phenotyping
著者:Farzan Ghanegolmohammadi, Shinsuke Ohnuki, Yoshikazu Ohya*
DOI番号:https://doi.org/10.1186/s12915-022-01283-6
アブストラクトURL:https://bmcbiol.biomedcentral.com/articles/10.1186/s12915-022-01283-6
発表者
Farzan Ghanegolmohammadi(東京大学大学院新領域創成科学研究科先端生命科学専攻 特任研究員:研究当時)
大貫 慎輔(東京大学大学院新領域創成科学研究科先端生命科学専攻 特任助教)
大矢 禎一(東京大学大学院新領域創成科学研究科先端生命科学専攻 教授)
用語解説
(注1)単峰性
ヒストグラム(ある特定のデータを区間ごとに区切り、各区間の個数や数値のばらつきを棒グラフに似た形の図で表現するグラフ)でピークの山がひとつの場合。複数の山がある場合には多峰性と呼ばれる。
(注2)確率分布モデル
確率分布は、ある特定の数値がどれくらいの確率で生じるかを分布で表したものであり、確率分布モデルはそのモデル。正規分布をはじめ、ポアソン分布、二項分布、ベータ分布、ガンマー分布などがある。
(注3)UNIMO
今回の研究で開発された画像解析のための新しいパイプライン。形態的特徴のそれぞれに対して最も当てはまる確率分布を特定するとともに、詳しい実験ログがある繰り返し実験データセットを利用して交絡因子の影響を可能な限り考慮する。これにより、ほとんどの形態的特徴の誤差の分布が単峰性になり、精密な形態学的解析が可能になった。
(注4)非必須遺伝子破壊株
真核生物のモデル細胞である出芽酵母(Saccharomyces cerevisiae)には遺伝子破壊すると致死になる1,111の必須遺伝子と遺伝子破壊しても致死にならない4,718の非必須遺伝子が存在している。非必須遺伝子破壊株とはその非必須遺伝子を破壊(欠損)した変異株で、生存することが出来るために様々な実験に用いられる。
(注5)実験誤差
実験結果を求めるとき、本当に知りたいのは真の値であるが、実際にはそれに近い値しか得られないことが多い。 両者の差を実験誤差という。実験誤差が生まれる主要な要因としては、観察機器の系統的な誤差と繰り返し実験したために生じるランダム誤差がある。
(注6)モデル選択法
どのモデルを選択した場合に一番当てはまりが良いかを調べる方法でよりよい予測モデルを作るためには必須のステップとなる。繰り返し実験結果がある場合には、それを用いて、どの確率分布モデルに従うかを赤池情報量規準(AIC)によって調査することが可能である。
(注7)確率的混合モデル
事前定義された確率分布が単峰性を示すか、多峰性を示すかを調べる方法。ベイズ情報量基準(BIC)とランダム化の反復データを利用して、最も可能性の高い成分数を求めることができる。
(注8)交絡因子
主要な因子以外で、出力結果に影響を与える因子。今回の場合では、繰り返し実験したために生じるランダム誤差以外の、出力データに影響を与える顕微鏡の違いなどの他の要因を指す。
(注9)正準変量
正準相関分析(Canonical Correlation Analysis:CCA)で使われる多変量変数セットの要約値。今回の場合では、形態的特徴の要約値を指し、遺伝子機能との関係を調査するために用いられる。
(注10)分散型ネットワーク
ネットワークの種類のひとつ。集中中央型ではなく、接続されたネットワークが分散していて複数のハブから成っているもの。