Metaは先日、画像セグメンテーションAIの最新版である「Segment Anything Model 3 (SAM 3)」と、単一の2D画像から3Dモデルを再構築する「SAM 3D」を発表しました。これらの技術は、テキスト指示による物体認識や3Dモデル化の能力を大きく向上させ、コンピュータビジョン分野における新たな可能性を拓くものとして注目されています。
SAM 3 の大きな進歩は、自然言語による高度なセグメンテーション能力です。従来のモデルがクリックやボックスといった視覚的な指示に依存していたのに対し、SAM 3 は「赤い野球帽」のような具体的なテキストプロンプトで画像や動画内の物体を正確に識別し、切り出すことができます。この「オープンボキャブラリーセグメンテーション」により、事前に定義されたラベルに縛られず、より複雑で詳細な指示に対応可能となりました。Metaによると、このモデルは独自に構築したベンチマークデータセットにおいて、人間のパフォーマンスの 75~80% を達成し、既存システムの 2倍の性能向上を示しているとのことです。
同時に発表された SAM 3D は、1枚の2D画像から対象物の3D形状やテクスチャを数秒で復元する技術です。多数の画像を必要とする従来のフォトグラメトリとは異なり、SAM 3D は画像に写っていない部分も推論によって補完し、高品質な立体化を実現します。人体に特化した「SAM 3D Body」と、物体やシーン向けの「SAM 3D Objects」の2つのモデルで構成され、いずれも最先端の性能を達成しています。生成された3Dデータは ply 形式でエクスポートでき、AR/VR やロボティクス分野への応用が期待されます。
これらの新技術は、誰でも手軽に試せる「Segment Anything Playground」で公開されています。ユーザーは自身の画像をアップロードし、テキストで指示するだけで、高度な画像セグメンテーションや3Dモデル生成を体験できます。また、Facebook Marketplace の新機能「View in Room」にも活用されており、購入前に家具の3Dモデルを自宅空間にARで配置するといった実用化も始まっています。
モデルやデータセットはオープンソースとして公開されており、今後の研究開発コミュニティの発展にも貢献することが期待されます。SAM 3 と SAM 3D の登場は、クリエイティブな表現から産業応用まで、多岐にわたる分野に影響を与える一歩と言えるでしょう。
