【後で読みたい!】OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている

OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている

https://gigazine.net/news/20251105-common-crawl-web-scraping/

via GIGAZINE https://gigazine.net/

November 5, 2025 at 09:06PM