あなたは素の Web をみたことがあるか - Web を一様サンプリングする

Web をみるとき、多くは検索エンジンなり何なりがフィルタリング・ランキングした結果を経由している。

2026 年現在、一般的な単語で Web 検索した結果はろくでもない。思わず検索会社に矛先を向けたくなるが、最先端の技術で抽出された結果がこの状態なら、素の Web はもっと酷いのかもしれない。同時に、検索結果に上がってこないだけで、細々と Web サイトを更新している個人がたくさんいてもおかしくない、とも思う。

私たちは素の Web をみたことがない。

Web を一様サンプリングする

素の Web とはいかなるものか。一つの試みとして、 Common Crawl の URL データから一様にランダムサンプリングするプログラムを作った。もちろん真の Web の一様サンプリングからはほど遠いが、ランクづけされる前の、クローラーがみている Web の世界が体感できる。

サーバーは気まぐれに止まるので、動かなかったら時間をおいて再試行してみてほしい。

データについて

サンプリング元は Common Crawl が一か月でクロールした URL のリストから、 HTTP レスポンスが 200 かつ MIME が text/html のサイトを抽出したデータである。 URL 数は 2 G/month くらい、未圧縮時のデータサイズは 0.2 TB/month くらい。しょぼいルーターとそれに差した SD カード上で動かすため、ブロック分割して圧縮したりしている。

Common Crawl のデータは一か月ごとに公開されているが、一か月で URL リストを一周するわけではないらしい。ランダム性を持たせつつ継続的なクロールが行われている。クローラーの統計データをみると、現在は三か月で一周に相当するくらいの頻度ではないかと思う。 URL によってクロール頻度の重みづけはあるようで、一か月分のデータから重複を除いてサンプリングするだけではバイアスが出る。気が向いたら対処予定。

他のクローラーとの違いとして、 Common Crawl は nofollow 属性のついたリンク先をクロールしない。 Internet Archive (User-Agent: ia_archiver) を robots.txt で弾いている場合にもクロールしていない気がするが、公式の情報は見つけられなかった。この二つはユーザー投稿型サイトでの影響が大きい。

© Yasuhiro Fujii <y-fujii at mimosa-pudica.net>, under CC-BY.