AIブームが巻き起こす「トレーニングデータ」争奪戦

米Reutersが報じたところによると、AIが急速に注目されている中、AIモデルを学習させるための「トレーニングデータ」の需要が急増しています。GoogleやMeta（旧Facebook）、Microsoft傘下のOpenAIといった大手IT企業は、水面下で膨大な量のデータを買い集めています。この新たな市場には、素材提供会社が提供するストック写真から古いSNSの投稿まで、あらゆるものが含まれます。

著作権をめぐる訴訟や、ウェブスクレイピング（Webサイトから自動でデータを収集する）による無料データ収集への倫理的懸念から、大手IT企業は代替データソースの確保を迫られています。画像や動画、チャットログ、ニュース記事など、様々なコンテンツに高額な対価が支払われているのです。

AIトレーニングデータ市場はあまり契約が表面に出てこないため不透明であり、かつ急速に膨らんでいる市場のため、その規模を推定することは難しいとされています。ただ、Business Research Insightsなどの調査会社は、現在の市場規模は約25億ドル（約3,800億円）と見積もっており、10年以内に300億ドル（約4.6兆円）近くまで成長する可能性があると予測しています。

大手IT企業は訴訟やプラットフォーム規制の圧力を受け、有料の代替データソースの確保を進めています。プライバシーと同意をめぐる問題が残る中、固有のデータを持つ企業にとっては、今まで埋もれていたデータが新たな収益源となりそうです。