少し前のニュースですが、AI研究の最先端を行くOpenAIが、フランスとスペインの大手メディアと提携し、ニュースコンテンツをChatGPTのトレーニングデータとして提供することが報じられました。すでにOpenAIは、Getty Images、Associated Press、Axel Springerなどとも同様の契約を結んでおり、世界各地でトレーニングデータの確保に年間数百万ドルから2000万ドル(数億円〜約30億円)規模の投資を行っているとみられます。
この動きはトレーニングデータの出所を明確にすることや著作権に対する配慮が求められていることに対応したもので、こうした動き自体は歓迎されるものではあります。ただ一方で、大手企業によるデータの囲い込みが進むと、AI業界の競争や今後の技術研究の障壁になるのではないかと懸念する声もあります。今後、スタートアップや研究者が同様のデータにアクセスするには同規模の投資が不可欠という流れが確立してしまうと、イノベーションが阻害されてしまいかねません。
著作権法の「フェアユース」の範囲など、法的な課題は残るものの、大企業とスタートアップ・研究者の両方にとって、バランスの取れたデータ利用の仕組み作りが急務です。公的な助成金や、より大胆なベンチャー投資などを通じ、ある種のデータへのアクセスを民主化(公開化)していくことも求められるでしょう。今後のAIの健全な発展のためにも、資本力のある企業による独占ではなく、オープンなエコシステム構築を模索してほしいものです。