Google、次世代視覚言語モデル「PaliGemma 2」を発表 – 高度な画像理解と多様な応用

投稿者:

Googleが新しいビジョン言語モデル「PaliGemma 2」をリリースしました。これは、前バージョンのPaliGemma 1を大幅に改良した次世代のオープンソースAIモデルであり、画像理解と言語処理を高度に組み合わせています。

PaliGemma 2は、3種類のモデルサイズ(3B、10B、28Bパラメータ)と3つの画像解像度(224px、448px、896px)を提供し、用途に応じて柔軟に選択できるスケーラビリティを実現しています。また、単なる物体認識を超えて、画像内の行動、感情、文脈を詳細に理解する高度な画像理解能力を持っています。

これにより、例えば、医療画像分析や分子認識タスクなどの専門的な分野でも高い性能を発揮します。例えば、胸部X線画像の詳細な分析と医療レポート生成や、画像内の物体のカウント、画像の文脈理解の向上など、幅広い実用的な応用が期待されています。また、既存のPaliGemma 1を組み込んで使用していたユーザーは、大幅なコード変更なしで容易にアップグレードでき、性能向上を享受できるようになります。

PaliGemma 2は、画像の理解と言語の統合的な処理能力をさらに進化させることで、応用範囲を大きく広げる可能性を秘めています。オープンソースで提供されているため開発者や研究者は自分のソフトに自由に組み込むことができ、今後もさまざまな分野でその活用が進むと予想されます。