Microsoft 、タンパク質予測 AI 「 BioEmu 1.1 」をオープンソース化

投稿者:

Microsoft Research は、タンパク質の構造や動きを高精度で予測する AI モデル「 BioEmu 1.1 」をオープンソースとして公開しました。従来の分子動力学シミュレーションでは膨大な時間がかかっていたタンパク質の解析を、革新的な速度で実現するツールです。

BioEmu 1.1 の最も目を引くのは、その圧倒的な処理速度です。従来の手法では数千から数万の GPU 時間を要するタンパク質の動的解析を、たった 1 台の GPU で 1 時間あたり数千の構造を生成できます。従来比で 1万 から 10万倍という計算効率は、研究のスピードを劇的に変える可能性があります。

精度の面でも申し分ありません。タンパク質の安定性を示す自由エネルギーの予測誤差は 1 kcal/mol 未満で、実験データとの相関係数は 0.6 以上を記録しています。ドメイン運動や局所的な折りたたみ解除、薬剤結合部位など、これまで「見えない」とされていた構造変化も高い精度で捉えることができます。

このモデルの背景には、3つの大規模データセットがあります。 AlphaFold データベースの約 16 万件の構造データ、200 ミリ秒分を超える分子動力学シミュレーション、そして 50 万件以上のタンパク質安定性実験データを統合してトレーニングされました。独自の「性質予測ファインチューニング」手法により、構造データがなくても実験観測に近い予測が可能になっています。

特に期待されるのが創薬分野での活用です。「クリプティック結合ポケット」と呼ばれる、普段は見えない一時的な薬剤結合部位を特定できるため、新たな薬剤ターゲットの発見につながる可能性があります。酵素工学やタンパク質設計、疾患研究の分野でも大幅な進展が見込まれています。

BioEmu 1.1 は MIT ライセンスで公開され、ソースコード、トレーニングデータ、モデルの重みが GitHub や Hugging Face で自由に利用できます。世界中の研究者がこの技術を使って、さらなる改良や新たな応用を模索することができます。

もちろん課題もあります。現在は単一のタンパク質鎖に限定されており、温度や pH 変化、複数のタンパク質間の相互作用などには対応していません。ただし、研究チームはこれらの制限を克服するための改良を進めており、将来的にはより複雑な生物学的システムへの対応も期待されます。

Microsoft CEO の Satya Nadella 氏は「 BioEmu はタンパク質の動きを理解し、薬剤発見を加速する」とコメントしています。