ネットサービス

CDNを使うとGoogleの検索インデックスへの登録にどんな影響があるのか?



CDNは、ユーザーに近い場所に設置されたエッジサーバーにコンテンツをキャッシュすることで高速な配信を可能にする技術です。ウェブサイトの表示を高速化するためにさまざまなサイトにCDNが導入されていますが、そうしたCDNが検索用のクローラーボットにどういった影響を与えるのかについてGoogleが記事を公開しています。

Crawling December: CDNs and crawling  |  Google Search Central Blog  |  Google for Developers
https://developers.google.com/search/blog/2024/12/crawling-december-cdns


どれほどサーバーに投資を行っていて高速な応答が可能だったとしても、物理的に遠く離れたユーザーからのアクセスに応答するには通信自体の時間がかかってしまいます。こうした「物理的な距離を縮めて高速応答を可能にする」という内容を含め、GoogleはCDNを使用するメリットを以下の3点にまとめました。

1:キャッシュによる高速応答と負荷軽減
CDNではエッジサーバーに画像や動画、HTML、CSS、JavaScriptなどのリソースをキャッシュします。ユーザーは自分の位置から一番近いエッジサーバーにアクセスするため、通信にかかる時間が短縮できるほか、エッジサーバーにキャッシュされているリソースが配信されることで元のサーバーにアクセスが集中せず、負荷を軽減することが可能です。

2:大量アクセスからの保護
サイトにアクセスしようとする通信が全てCDNサービスを経由するため、ウェブサイトやサービスに大量のアクセスを送りつけてサーバーをダウンさせるDDoS攻撃が行われた場合でもCDNが不正なアクセスの兆候を検知してブロックすることで攻撃を軽減することができます。

3:信頼性
サイトによっては、元のサーバーがダウンしてしまった場合でもCDNに残っているキャッシュを使用してコンテンツの配信を続けることが可能です。

こうしたメリットを踏まえ、Googleは「CDNは心強い味方」と述べ、特にサイトの規模が大きい場合や大きなトラフィックが見込まれる場合にはCDNの導入を推奨しています。


Googleは通常、サーバーに大きな負荷をかけないよう1つのドメインについて一度にクロールするページの量を制限していますが、CDNを導入したサイトではクロールの頻度を高めているとのこと。CDNが導入されているかどうかについてはサイトのIPアドレスから判断しているそうです。

「一度にクロールするページ量の制限」はドメインごとのため、画像などの静的リソースの配信に「cdn.example.com」のような固有のドメインを使用する事で通常よりも多くのコンテンツをクロールさせることが可能とのこと。Googleのクローラーは全てのドメインがCDN経由の場合だけでなく、一部のドメインのみがCDNを経由する場合でも問題無く対応していますが、ページの読み込み速度に影響を与えないよう、複数のドメインを使用する場合には全てのドメインをCDNサービス経由で配信することが推奨されています。

一方、CDNを使用することで発生するトラブルとして「クローラーの大量アクセスを不正なアクセスだと誤って認識し、クローラーをブロックしてしまうこと」があるとのこと。この時のブロックのされ方によってクロール結果に与える影響は異なります。


◆ハードブロック
クローラーに対し何らかのエラーを含むレスポンスを返す場合の事をGoogleは「ハードブロック」と分類しています。

1:503または429というステータスコードレスポンス
503と429はともにサーバーが一時的に利用できないことを示すステータスコードです。こうした状態をGoogleのクローラーに伝えた場合、影響が出るまでしばらく猶予があり、CDNの問題に対応できる可能性があるとのこと。Googleはこれらのステータスコードを伝えるレスポンスを推奨しています。

2:タイムアウト
CDNが接続をタイムアウトさせた場合、当該URLがGoogleの検索インデックスから削除されます。また、サイトの負荷状況の判断にも影響を与え、クロール頻度が低下する可能性があるとのこと。

3:200ステータスコードでエラーページを返してしまう
エラーページを返答するステータスコードが、問題なく通信に成功した際の「OK」を示す200であった場合、クローラーはエラーメッセージを分析します。クローラーが「このページはエラーページだ」と認識できた場合は検索インデックスからURLが削除されるだけですみますが、通常のページだと認識された場合には同じメッセージを出すページ全てが「重複URL」として扱われます。重複URLの再クロールには長い時間がかかるため、復旧が長引く可能性があるとのこと。

◆ソフトブロック
CDNサービスによっては、サイトにアクセスする前に人間によるアクセスである事を確認するCAPTCHAなどのチャレンジを行う場合があります。こうした検証によってブロックされている状態をGoogleは「ソフトブロック」と分類しています。Googleのクローラーは人間を装うことはないため、結局コンテンツをクロールできないものの、503ステータスコードを返して一時的なものである事を示すことで検索インデックスから削除されずにすむとのこと。


Googleはクローラーが正しくサイトを閲覧できているかを確認するためのツールとして「URL検査ツール」を提供しています。クロールでトラブルが発生した際にはURL検査ツールでクローラーが正しい内容を表示できている事を確かめた方が良いとのこと。


もし空のページやエラーページ、ボットチャレンジページなどが表示されている場合にはCDNに相談することが推奨されています。

この記事のタイトルとURLをコピーする

・関連記事
Googleの検索結果により多くのページをより素早く反映させるための「クロールバジェット」を管理する方法 - GIGAZINE

「SEOがGoogle検索を破壊してゴミに変えた」と大手ニュースサイトが主張しGoogleやSEO業界から猛反論を受ける - GIGAZINE

900万円払ってウェブサイト改善のため「SEO代理店」を利用したらサイトがぐちゃぐちゃになった上に何の成果も得られなかったという体験談 - GIGAZINE

Google検索のSEOスパム汚染は印象ではなく本当に悪化していることが研究で明らかに - GIGAZINE

生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している - GIGAZINE

in ネットサービス, Posted by log1d_ts

You can read the machine translated English article How does using a CDN affect Google's….