Wikipedia を運営する Wikimedia Foundation は、AI 開発者による自動スクレイピングの増加に対応するため、Google 傘下のデータサイエンスプラットフォーム「 Kaggle 」と提携し、機械学習向けに最適化された Wikipedia の記事データセットを提供開始しました。2025 年 4 月 15 日に公開されたこのデータセットは、ベータ版として英語とフランス語の記事を対象としています。
この取り組みの背景には、近年の AI 開発のために Wikipedia の記事を大量に自動スクレイピングする「 AI ボット」の急増があります。2024 年 1 月以降、Wikipedia の帯域消費量は 50 %も増加し、非営利団体である Wikimedia Foundation にとって運営コストの面で深刻な課題となっていました。
提供されるデータセットは、記事の要約、短い説明文、インフォボックス形式の主要データ、画像リンク、明確に区切られた記事セクションなどを含み、機械学習ワークフローに最適化された JSON 形式で提供されます。一方で、参考文献や音声・動画などの非テキスト要素は含まれていません。データセットのサイズは約 30 GB 未満で、Creative Commons Attribution-ShareAlike 4.0 や GNU Free Documentation License などのオープンライセンスの下で利用可能です。
この取り組みは、Wikipedia 側と AI 開発者双方にメリットをもたらします。Wikipedia にとっては、サーバーへの過剰な負荷を軽減しつつ、コンテンツの利用方法を一定程度ガイドできます。AI 開発者側は、クリーンで一貫性のあるデータを簡単に取得でき、スクレイピングによるエラーや法的リスクを減らせます。特に小規模な開発者や個人研究者にとっては、大手企業と同じデータにアクセスできる機会が与えられることとなります。
Wikipedia は「オープンな知識の共有」を理念としており、単純なボットブロックではなく、開発者にとってより使いやすい公式データセットを提供することで、「非効率なスクレイピング」から「公式データ利用」への移行を促す戦略を選択しました。
この公式データセットは現在ベータ版として公開されており、Kaggle 上でコミュニティからのフィードバックも受け付けています。今後、利用者の声を反映しながら内容や形式の改善が進められる予定です。