米ワシントンD.C.に本拠を置く非営利のAI研究機関 EleutherAI は、AI モデルの学習用として世界最大級となる 8TB の公開データセット「 Common Pile v0.1 」を発表しました。このデータセットは、著作権フリーまたはオープンライセンスのテキストのみで構成されており、AI 開発における著作権問題を解決する画期的な取り組みとして注目されています。
Common Pile v0.1 の規模は圧倒的で、8TB のテキストデータは数兆トークンに相当します。30 種類のデータソースから収集されており、主な内訳はプログラムコード(約 4.8TB )、法律・政府文書(約 1.2TB )、Wikipedia 等の百科事典(約 528GB )、学術論文(約 370GB )、パブリックドメイン書籍(約 244GB )などとなっています。
このデータセットが重要な理由は、AI 業界で深刻化している著作権問題を回避することができるためです。これまで多くの AI 企業は、著作権のある Web データを無断で収集し学習に利用してきましたが、これが法的・倫理的な問題となり、訴訟や批判が相次いでいます。実際に、マイク・ハッカビー元知事やサラ・シルバーマンなどの著名人が AI 企業を相手取って訴訟を起こすケースも発生しています。
Common Pile v0.1 では、収録データが Open Knowledge Foundation の「 Open Definition 2.1 」に準拠し、信頼できるメタデータや手動でのキュレーションを通じて、オープンライセンスであることを厳格に確認しています。さらに、言語判定・品質評価・個人情報除去・毒性フィルタリングなどの前処理も実施されており、高品質なデータセットとなっています。
実際の性能も証明されています。Common Pile v0.1 を用いて訓練された 7B パラメータの大規模言語モデル「 Comma v0.1-1T 」と「 Comma v0.1-2T 」は、Meta の Llama 1 ・ 2 など、同等規模の非公開データを用いたモデルと比べても遜色ない性能を示しました。特にコーディングや知識系タスクで高いスコアを記録し、著作権フリーのデータでも十分に高性能な AI を構築できることを実証しています。
この取り組みには、トロント大学、Hugging Face 、Allen Institute for AI 、コーネル大学、MIT、カーネギーメロン大学など、多くの著名な研究機関や企業が協力しています。約 2 年の開発期間を経て完成したこのデータセットは、AI 研究の透明性と倫理性を向上させる重要な成果となります。
EleutherAI は 2020 年に公開した「 The Pile 」の後継として Common Pile v0.1 を開発しました。The Pile には著作権付きのデータが含まれており、法的問題が浮上していたため、今回は完全に合法的なデータのみを使用することで、こうしたリスクを排除しています。
このデータセットは arXiv 、Hugging Face 、GitHub を通じて無料で公開されており、世界中の研究者や企業が自由にアクセスできます。データセットの前処理コードや構築方法も公開されているため、研究の再現性と透明性も確保されています。
EleutherAI は Common Pile v0.1 を第一歩と位置づけており、今後さらに大規模かつ多様なオープンデータセットの構築を目指しています。この取り組みが AI 業界全体に与える影響は大きく、小規模なスタートアップや大学の研究者なども著作権問題を回避しながら高品質な AI 開発を進めることができるようになります。