米Reutersが報じたところによると、AIが急速に注目されている中、AIモデルを学習させるための「トレーニングデータ」の需要が急増しています。GoogleやMeta(旧Facebook)、Microsoft傘下のOpenAIといった大手IT企業は、水面下で膨大な量のデータを買い集めています。この新たな市場には、素材提供会社が提供するストック写真から古いSNSの投稿まで、あらゆるものが含まれます。
著作権をめぐる訴訟や、ウェブスクレイピング(Webサイトから自動でデータを収集する)による無料データ収集への倫理的懸念から、大手IT企業は代替データソースの確保を迫られています。画像や動画、チャットログ、ニュース記事など、様々なコンテンツに高額な対価が支払われているのです。
AIトレーニングデータ市場はあまり契約が表面に出てこないため不透明であり、かつ急速に膨らんでいる市場のため、その規模を推定することは難しいとされています。ただ、Business Research Insightsなどの調査会社は、現在の市場規模は約25億ドル(約3,800億円)と見積もっており、10年以内に300億ドル(約4.6兆円)近くまで成長する可能性があると予測しています。
大手IT企業は訴訟やプラットフォーム規制の圧力を受け、有料の代替データソースの確保を進めています。プライバシーと同意をめぐる問題が残る中、固有のデータを持つ企業にとっては、今まで埋もれていたデータが新たな収益源となりそうです。