最新研究情報


2017/05/01

グラフィカルモデルの機械学習と、ゲノム情報処理への応用

数理科学領域 鈴木讓研究室

各遺伝子がどの機能に関する情報を保有しているのかという問題は、バイオインフォマティックスの主要なテーマのひとつです。本研究室では、遺伝子がタンパク質を合成する量(発現量)とSNP(一塩基多型)とよばれる血液型や体質に関する情報の間の因果関係(それぞれ数千個)を、統計的な情報に基づいて見出す研究を行っています。

本研究は、2遺伝子の発現量の間、2SNPの間、遺伝子とSNPの間の相互情報量を推定し、それらの因果関係を森で表現します。各SNPは、3種類の値(++、--、+-)をとりますが、遺伝子発現量の値は3桁の有効数字をもちます。離散変数どうしであれば、 データの推定は容易ですが、一方の変数が連続であれば、特に正規分布など特定の分布を仮定していない状況では、推定が格段に難しくなります。

本研究のブレークスルーは、離散や連続を区別しない相互情報量の推定にあります。そのアルゴリズムを、現在BNSLというRパッケージで公開しています。また、一般的な統計学とは異なるバイオ統計という分野がありますが、いわゆるビッグデータを扱うので、機械学習的なアプローチが不可欠であるように思われました。

また、ゲノム解析の研究では、マイクロアレイと呼ばれる方法で発現データを獲得していました。2016年に出版した論文は、マイクロアレイから得られたデータに関するものです。しかし、現在は、高速に大量のデータが得られるRNAシーケンスという方法を用いることが主流になってきています(費用が安くなってきています)。その場合には、異なる確率モデルにしたがうことがわかっています。また、既存の方法では、正規化のような前処理が必要ですが、そうしたことがなくてもできるような方法を検討しています。

また、研究室の活動は、下記のリンクからご覧になれます。


鈴木讓研究室 ホームページ