【後で読みたい!】OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている
OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている
https://gigazine.net/news/20251105-common-crawl-web-scraping/
via GIGAZINE https://gigazine.net/
November 5, 2025 at 09:06PM