Appleがデータキュレーション技術の効果検証のためオープンソースAIモデル「DCLM」を発表

投稿者:

Appleの研究部門が、7B(70億)パラメータを持つ新しい小型オープンソースAIモデル「DCLM」を発表しました。このモデルは、同社のデータキュレーション技術の効果を検証するために開発されました。

データキュレーションとは、学習データを作成する際にノイズや低品質なデータを除去したり、データの重複を排除したり、データに付加情報を付与するなどの「前処理作業」を指します。Appleは今回、こうした前処理が体系的に行われることで、そのデータを用いたAIモデルの性能が向上することを、DCLMを通じて検証したといえます。

DCLMはMistral-7Bを上回る性能を持ち、MetaやGoogleの同規模モデルと同程度の性能を示しています。モデルの重み、トレーニングコード、トレーニングデータセット(DCLM-Baseline)がすべて完全なオープンソースで公開されており、誰でも自由に利用・改変が可能です。この点で、DCLMは今年最も重要なAIリリースの一つと言えるでしょう。

Appleはデータキュレーション技術そのものは公開していませんが、モデルの重みやデータセットをオープンソースで公開したことは、研究者や開発者にとって非常に有益です。公開されたモデルを基に、研究者や企業は独自の小型AIを簡単に作成でき、AI企業に利用料を支払うことなく利用できるようになります。

DCLMには、7B(70億)パラメータ版と1.4B(14億)パラメータ版の2つのバージョンがあります。一度に処理できるコンテキストウィンドウは2,000トークンと小さいのですが、高効率であり、研究用やアプリへの組み込みに適しています。

Appleは、訓練データの透明性を重視し、最近問題となっているデータライセンスや承認に関する懸念にも対応しています。高品質なデータセット設計を目指し、様々な実験を通じて効率的なモデルを開発したとしています。