SEOに関する実験やデータ分析などを公開します

SEOの疑問を実験で解明しブログ配信【SEOラボ】

クローラーとは?仕組みやクローラビリティを向上させる方法など徹底解説!

クローラーとは、インターネット上にあるWebサイトの文章や画像などの情報を取得して、自動的に検索データベース化する巡回プログラムのことです。
このプログラムは、 「ボット(Bot)」「スパイダー」「ロボット」などとも呼ばれます。
とくに、Googleの検索エンジンの場合「Googlebot」と呼ばれるクローラーがあります。
このクローラーに検索されやすくする(クローリングを最適化する)ことで、ユーザーにWebサイトの情報をきちんと届けることができます。

一方、クローラビリティが悪ければ、Webサイトの情報が認識されづらいです。
この場合、インデックスされなかったり、不完全な情報がインデックスされます。
結果、検索ユーザーにWebサイトの情報がきちんと届かなかったり、検索順位や検索流入の向上に繋がりません。

こうした良くない状況を回避する為に、クローラーの仕組みを理解して、クローリングされやすいコンテンツにしましょう。

この点踏まえて今回は、クローラーの意味やクローラビリティを向上させる方法など中心に、初心者にもわかりやすくポイントをまとめて解説したいと思います。

クローラーとは?仕組みやクローラビリティを向上させる方法など徹底解説!

クローラーとは?

クローラーとは、インターネット上にあるWebサイトの文章や画像などの情報を取得して、自動的に検索データベース化する巡回プログラムのことです。
このプログラムは、 「ボット(Bot)」「スパイダー」「ロボット」などとも呼ばれます。

例えば、ドメインを取得して作成したWebサイトをサーバーにアップロードしたとします。
この場合、インターネット上にWebサイトが公開されたことになります。
このWebサイトの文章や画像などの情報を取得するために、専用のプログラムが巡回(クローリング)します。
このプログラムが、クローラーというわけです。

クローラーの機能は検索エンジンの仕組みの一部

クローラーの機能は、検索エンジンの仕組みの一部です。

例えば、GoogleやYahoo、Bing(Microsoft) などの検索エンジンは、ほとんどがロボット型検索エンジンです。
このロボット型検索エンジンは、主に3つの仕組みで構成されてます。

  1. インターネット上で収集したWebサイトのページ情報をデータベースに登録
  2. データベースに登録されたページのランク付け
  3. ランク付けされたページを検索結果に表示

これらの仕組みの中で、「①インターネット上で収集したWebサイトのページ情報をデータベースに登録」の役割を担うのがクローラーです。
クローラーは、既にデータベース化されているWebサイトからリンクをたどって自動的に移動(クローリング)します。移動先ではページの解析(パーシング)を行って、そのページの情報を処理します。処理したページ情報を検索アルゴリズムが扱いやすいデータに変換してデータベースに登録します。

このフローを繰り返し担うのがクローラーです。

このように、検索エンジンの仕組みの一部として、クローラーの機能があるとうわけです。

クローラーの種類

クローラーの種類が、いくつかあります。

例えば、Googleの検索エンジンならWeb検索用の「Googlebot」と呼ばれるクローラーがあります。
クローラーは検索エンジンごとに存在します。

  • Googlebot(Google)
  • Bingbot(マイクロソフト社の検索エンジンBing)
  • Yahoo Slurp(日本以外のYahoo!)
  • Baiduspider(百度)
  • Yetibot(Naver)
  • ManifoldCF(Apache)
  • AppleBot(Apple)

これらのクローラー以外にも、Googleであれば、画像検索用のGooglebot-Image、モバイル検索用のGooglebot-Mobileなど多数のクローラーが存在します。

クローラーが取得するファイルの種類

クローラーが取得するファイルの種類がいくつかあります。
例えば、Googleのクローラーであれば、HTMLや画像/動画、JavaScript、CSS、PDFなどのファイル形式がクローリングの対象です。

  • HTML
  • 画像
  • 動画 – サポートされている動画形式のいずれか。
  • JavaScript
  • CSS
  • PDF
  • その他の XML – XML をベースとした RSS、KML などの形式を含まない XML ファイル。
  • JSON
  • シンジケーション – RSS フィードまたは Atom フィード
  • 音声
  • 地理データ – KML または他の地理データ。
  • その他のファイル形式 – ここに記載されていないその他のファイル形式。
  • 不明(失敗) – リクエストが失敗した場合、ファイル形式は不明となります。

※引用元:クロールの統計情報レポート – Search Console ヘルプ「クロールされるファイル形式」

また、その他の検索エンジンのクローラーも基本的に、Googleと同様のファイル形式をクローリングできると思われます。

クローラビリティを向上させる方法

クローラビリティを向上させる方法がいくつかあります。

クローラビリティとは、Googlebotと呼ばれるクローラーがリンクを辿ってWebページを検出するときの、Webページの見つけやすさ/認識のしやすさ(クロールのしやすさ)のことです。
もう少し言うと、クローラー(Googlebotと呼ばれるプログラム)が、インターネット上のリンクを辿ってWebページを見つけ、そのWebページの情報を読み取ります。
このWebページの情報を読み取るまでの過程のことを「クロール」または「クローリング」と言い、このクロール/クローリングのしやすさのことが「クローラビリティ」となります。

上位表示させるための基本的対策をご紹介しています。

関連記事

【SEOとは?】SEO対策の基本知識や上位表示方法など解説

検索順位に悩んでいませんか?狙ったキーワードで上位表示させるためには基本的な対策に加え、検索意図に合致したコンテンツが必要となります。これらは…

続きを見る

XMLサイトマップを設置する

XMLマップファイルを作成して、 そのファイルの存在をGoogleに伝えながら、 クローラビリティを改善しよう!

クローラビリティを向上させるには、XMLサイトマップを設置します。
例えば、まず、「sitemap.xml Editor」を使って作成したXMLサイトマップ(sitemap.xml)を、サーバーにアップロード(設置)します。
そして、「xxxx.jp/sitemap.xml」のようなXMLサイトマップの存在を示すURLにアクセスできるので、そのURLをサーチコンソールのサイトマップから送信します。
そうすれば、sitemap.xmlファイル内に記載したURLを、優先的にクロールすることをGoogleに伝えることができます。
結果、サイト内のページごとにクローラーを呼び込むことができるので、クローラビリティの促進に繋がるというわけです。

こうして、XMLサイトマップを設置することが、クローラビリティを向上させるためのポイントです。

ちなみに、WordPressで構築したブログであれば、「Google XML Sitemaps」のプラグインを導入しましょう。
sitemap.xmlの作成から更新URLの送信まで自動化できるので便利です。(最初のサーチコンソールのサイトマップ送信だけは、手動。)

一方、XMLサイトマップを設置しないと、クローラビリティの改善につながりません。
もう少し言うと、内部リンクや被リンクが無いページは基本的にクローラーが巡回しづらいので、クローラビリティが低いページです。
そういったページのクロールが補助できるXMLサイトマップが無ければ、クローラビリティの改善に繋がらないということです。
結果的に、インデックスが促進されないので、その分SEO効果も見込めないでしょう。

質の高いページを作成する

検索クエリと関連性を高めて、 根本的にクロールされやすい良質なページに仕上げながら、 クローラビリティを改善しよう!

クローラビリティを向上させるには、質の高いページを作成します。
例えば、SEOキーワード(上位表示したいキーワード)で検索して表示される競合上位のサイトのタイトル名やコンテンツ内容の傾向を採用して、自身のWebページを作成します。
その際に、タイトル名にSEOキーワードを入れます。
そうすれば、ユーザーの求める情報(検索意図)が盛り込まれるので、質の高いページに仕上がります。
さらに、ユーザーが求める情報の量(網羅性/包括性)や手に入れやすさ(簡便性)、信憑性、独自性を加味すれば、より質の高いページに仕上がります。
質の高いページとなれば、基本的にクローラーが巡回しやすくなるので、クローラビリティが良くなるというわけです。

サイトに非常に有用な情報が掲載されている場合は、想定を上回ってクロールされてしまう可能性があります。
※引用元:クロールの統計情報レポート(ウェブサイト) – Search Console ヘルプ

こうして、質の高いページを作成することが、クローラビリティを向上させるためのポイントです。

また、質の高いページを提供すれば、参照されやすくなって被リンクが集まる(人気度が高まる)ので、クローラーが巡回しやすくなります。
さらに、有用な情報を持つ質の高いページに対して、基本的にクローラーが巡回しやすくなります。
これらは、インデックス内のURL(有用な情報)の鮮度を保つというGoogle検索の根本的な仕組みとなります。

  • 人気度: インターネット上で人気の高い URL ほど、Google のインデックスで情報の新しさが保たれるよう頻繁にクロールされる傾向があります。
  • 鮮度: Google のシステムでは、インデックス内の URL の鮮度が落ちないようにしています。

※引用元:Google ウェブマスター向け公式ブログ [JA]: Googlebot のクロール バジェットとは?

付け加えると、「有用な情報の追記/新規追加、不要な情報の削除(更新)」や「テキスト中心のコンテンツ作成」「適切なHTMLタグや構造化データによるマークアップ」を考慮してページ作成することでも、質を高めることができるので、クローラビリティの向上に繋がります。

一方、質の低いページがあれば、その分クローラビリティが低下します。
もう少し言うと、スパムや薄っぺらいコンテンツなどのウェブマスター向けガイドラインに違反となる質の低いページがあれば、都度それらのページでクロールを浪費するので、価値あるページへのクロールが妨げられます。
そうなれば、価値あるページのクローラビリティが低下するので、その分SEO効果が見込めなくなります。

シンプルなURLにする

できるだけ使う文字列を減らして、 シンプルなURLに仕上げながら、 クローラビリティを改善しよう!

クローラビリティを向上させるには、シンプルなURLにします。
例えば、「SEOとは?」というタイトル名なら、「search-engine-optimization」という文字列を使いたくなりますが、略称の「seo」という短い文字列を用いたURLにします。
そうすれば、全体的な文字列が短くなって、簡潔なURLにすることができるので、クローラビリティが良くなります。

こうして、シンプルなURLにすることが、クローラビリティを向上させるためのポイントです。

また、当ブログ「SEOラボ」のように、「投稿ID」を文字列に使った短いURL(URL例:seolaboratory.jp/91744/)にしたり、カテゴリ名の短さやカテゴライズの必要性を考慮します。
そうすれば、全体的な文字列を減らしてシンプルなURLできるので、クローラビリティの改善に繋がるでしょう。

一方、複雑なURLだと、クローラビリティが悪くなります。

特に複数のパラメータを含む URL など、過度に複雑な URL は、サイト上の同じまたは同様のコンテンツを表す多数の URL を不必要に作成し、クロールの際に問題が生じることがあります。その結果、Googlebot で必要以上に帯域幅を消費したり、サイトのすべてのコンテンツをインデックスに登録できないことがあります。
※引用元:シンプルな URL 構造を維持する – Search Console ヘルプ

このように、とくに自動化によって生成される複雑なURLに対してクロールが浪費されます。
そうなれば、価値あるURL含んだその他のページURLに対して、クローラーの巡回が行き届かないので、クロールに支障をきたす(クローラビリティが悪くなる)可能性があります。
結果的に、コンテンツ内容がしっかり読み取られない(クロールされない)ので、インデックスされずにSEO効果が見込めないということになります。

重複ページを無くす

一方のURLに正規化して、 ページのコンテンツ内容を統合しながら、 クローラビリティを改善しよう!

クローラビリティを向上させるには、重複ページ(重複コンテンツ)を無くします。
例えば、「www.seolaboratory.jp」と「seolaboratory.jp」のwww有り無しのURLにそれぞれアクセスでき、かつ同じコンテンツ内容が表示されるとします。
この場合、重複ページです。
なので、「www.seolaboratory.jp」から「seolaboratory.jp」のURLへ301リダイレクトを実装してwwwあり・なしを統一します。
そうすれば、「seolaboratory.jp」のURLが正規URLとしてGoogleに認識されるようになるので、重複ページの回避に繋がります。
結果、「www.seolaboratory.jp」のURLに対するクロールの浪費が減るので、その分クローラビリティが良くなるというわけです。

こうして、重複ページを無くすことが、クローラビリティを向上させるためのポイントです。

また、「canonicalタグ」「rel=”canonical” HTTP ヘッダー」「サイトマップ」を活用して、正規URLをGoogleに伝えることでも、重複ページの回避につなげることができます。
さらに、AMPページに「canonicalタグ」、個別のスマホ向けページに「alternateタグ」をマークアップしてURL正規化することも、重複ページを回避するための重要な対策です。
付け加えると、既に運用済みのサイトであれば、被リンク数を考慮してURLを正規化するようにしましょう。

一方、重複ページがあれば、クローラビリティが悪くなります。
もう少し言うと、「同じページにアクセスできる複数のURL(同じコンテンツを表示できるパラメータURLなど)」や「PC向けページとスマホ向けページが別々のURL」は重複ページとなります。
こうした重複ページのすべてがクロールされるので、その他の価値あるページ(新しく更新されたページ)に対するクロールに時間がかかったり、クロールが行き届かなくなるというわけです。

結果的に、クローラビリティが悪くなって、価値あるページなどがインデックスされないので、その分SEO効果が見込めなくなります。

内部リンクを最適化する

クロールの必要性が高いページに内部リンクを設置して、 クローラーが巡回できる経路を増やしながら、 クローラビリティを改善しよう!

クローラビリティを向上させるには、内部リンクを最適化することです。
例えば、トップページのコンテンツから下層ページ(カテゴリ一覧ページや記事ページなど)に向けてリンク(内部リンク)を設置します。
また、専用のナビゲーションページ(HTMLサイトマップ)を作って、そのページへのリンクをサブコンテンツに設置します。
そうすれば、それらの内部リンクを辿ってクローラーがサイト内の各ページを巡回します。
結果、クロールの範囲が広がって、クローラビリティが良くなるというわけです。

こうして、内部リンクを最適化することが、クローラビリティを向上させるためのポイントです。

ちなみに、トップページは「人気度」や「情報の鮮度(更新性)」が特に高いページです。
トップページ以外にも被リンクが多かったり、更新頻度の高いページがあります。
こうしたページは、基本的にクローラーが巡回しやすくなります。

一方、内部リンクを最適化しなければ、クローラビリティが上がりません。
もう少し言うと、内部リンクを設置しなければ、クローラーが巡回できる経路が増えないので、その分クローラビリティが上がらないということです。
かといって、やみくもに増やした内部リンクから質の低いページをクロールさせても、クロールの経路は増えますが、クロールの必要性は上がりません。
つまり、質の低い内部リンクを増やせば、無駄なクロールが浪費されて価値あるページにクロールが行き届かない可能性が高まります。
結果的に、価値あるページのインデックスが促せないので、その分SEO効果を失うことにつながるでしょう。

被リンクを増やす

ユーザーから共感される情報の宣伝を習慣化して、 参照機会の増加による被リンク獲得を促進しながら、 クローラビリティを改善しよう!

クローラビリティを向上させるには、被リンクを増やします。
例えば、TwitterやFacebookなどのアクティブユーザーが多いSNSで、自身のWebサイト内の質の高いページURLや為になる関連情報を定期的に宣伝します。
そうすれば、共有が促進されて、外部サイトでの参照が増えやすくなります。
結果的に、被リンクが増えて、外部サイトからクローラーが巡回しやすくなるので、クローラビリティが良くなるというわけです。

こうして、被リンクを増やすことが、クローラビリティを向上させるためのポイントです。

また、被リンクが増えて、人気度の高いWebページとなれば、根本的にそのページに対するクロールの必要性が高まります(クローラビリティが向上します)。

人気度: インターネット上で人気の高い URL ほど、Google のインデックスで情報の新しさが保たれるよう頻繁にクロールされる傾向があります。
※引用元:Google ウェブマスター向け公式ブログ [JA]: Googlebot のクロール バジェットとは?

一方、被リンクが増えなければ、クローラビリティが上がりません。
もう少し言うと、被リンクが少ないと、クローラーの巡回経路が減るので、クロール頻度が上がりません。
そうなれば、Webページに対するクローラビリティが上がらず、インデックスが促進されないので、その分SEO効果が見込めないでしょう。

ちなみに、「専用サービスにおける広告内のリンク」「有料リンク」「コメント内のリンク」「Googleウェブマスター向けガイドライン(品質に関するガイドライン)に準拠していないリンク」を増やしても、そういったリンクは基本的にクロールされなので、クローラビリティの向上につながりません。

ファイルのサイズを減らす

ファイルのサイズを軽減して、 クロールの浪費を減らしながら、 クローラビリティを改善しよう!

クローラビリティを向上させるには、ファイルのサイズを減らします。
例えば、画像やCSS、Javascriptといったファイルを圧縮したり、不要なソースコードを削除します。
そうすれば、ファイルサイズが減るので、クロールのリソースが減ります。
結果的に、クロール速度が早まったり、余ったクロールのリソースを他のコンテンツに配分できるようになるので、クローラビリティが良くなるというわけです。

こうして、ファイルのサイズを減らすことが、クローラビリティを向上させるためのポイントです。

また、キャッシュの活用、AMP化することでも、ファイルのサイズが軽減できます。
こうしてファイルのサイズが軽減できれば、クローラビリティの改善のみならず、サイトの表示速度の向上にもつながります。
表示速度が上がってサイトが迅速に表示され続けると、クロールの上限が上がるので、この点においてもクローラビリティの向上が見込めます。

一方、ファイルのサイズが増えれば、クローラビリティが悪くなります。
とくに、サイズの大きい画像ファイルが膨大にあれば、サーバーの容量が圧迫されやすいです。
そうなれば、サイトの表示速度が遅くなったり、サーバーエラー(5xx)によってサイトに接続できない可能性が高まります。
そういった状況のサイトに対して、Googleはクロール頻度を下げます。

サイトの応答が遅くなった場合やサーバーエラーが返される場合、クロール速度の上限が下がり、Googlebot によるクロールが減ります。
※引用元:Google ウェブマスター向け公式ブログ [JA]: Googlebot のクロール バジェットとは?

結果的に、クロールが行き届かなって、クローラビリティが悪くなるので、Webページのコンテンツ内容が認識されずくなります。(コンテンツ内容が中途半端に認識される)
つまり、インデックスが促進されないので、その分SEO効果が見込めないでしょう。

サーバーを最適化する

サーバーのパフォーマンス管理して、 正常なクロールを維持しながら、 クローラビリティを改善しよう!

クローラビリティを向上させるには、サーバーを最適化します。
例えば、ディスク(ストレージ)やメモリの容量を増やしたり、CPUの性能を高めてサーバースペックを上げます。
そうすれば、負荷が減って、サーバーの応答速度が上がりやすくなります。
結果的に、Webページに対して正常にクローラーが巡回しやすくなるので、クローラビリティが良くなるというわけです。

こうして、サーバーを最適化することが、クローラビリティを向上させるためのポイントです。

また、PHPのバージョン改善、サーバー分散(ロードバランサーなど)、CDNの活用、データベースの改善などもサーバーの最適化に繋がります。

一方、サーバーを最適化しないと、クローラビリティが悪くなります。
例えば、サイトを運営してると、ページや画像などのファイルが増え続けます。
そうなれば、サーバーの容量に対するファイルサイズが過多になるので、サーバーの応答速度が遅くなります。(サーバーが重くなる)
最悪は、サーバーエラー(5xx)でサイトに接続出来ない状況となります。
結果的に、Webページなどのファイルを正常にクロールすることが出来なかったり、クロール頻度が下がるので、クローラビリティが悪くなるというわけです。

サイトの応答が遅くなった場合やサーバーエラーが返される場合、クロール速度の上限が下がり、Googlebot によるクロールが減ります。
※引用元:Google ウェブマスター向け公式ブログ [JA]: Googlebot のクロール バジェットとは?

このように、クローラビリティが悪くなればインデックスが促進されないので、その分SEO効果が見込めないでしょう。

ソフト404エラーを無くす

存在しないURLに対して、 クローラーを巡回させないように設定しながら、 クローラビリティを改善しよう!

クローラビリティを向上させるには、ソフト404エラーを無くします。
例えば、htaccessファイルに、「ErrorDocument 404 /404.html」のコードを記述して、そのファイルをサーバーにアップロードします。
そうすれば、存在しないURLにアクセスしたときに、404.html(404エラーページ)を表示して、HTTPステータスコードで404を返す(GoogleにNot Found「未検出」「見つかりません」と伝える)ことができるので、ソフト404エラーが無くなります。
結果的に、404エラーページにクローラーが巡回しなくなって、クロールのリソースが軽減できるので、クローラビリティが良くなるというわけです。

こうして、ソフト404エラーを無くすことが、クローラビリティを向上させるためのポイントです。

また、HTTPステータスコードで410を返したり、404ページにnoindexを入れることでも、クローラーの巡回を回避することができます。

ちなみに、404.html(404エラーページ)は別途作成しておきましょう。
WordPressであれば404.phpを作成してアップロードするだけで、HTTPステータスコード404まで返すことができます。(htaccessファイルの設定なし)

一方、ソフト404エラーがあれば、クローラビリティが悪くなります。
もう少し言うと、ソフト404エラーによって、ブラウザでの見た目(デザイン)は404エラーページが表示されていても、HTTPステータスコードで200が返されます。
そうなれば、正常なページとしてクローラーに処理されるので、クロールの浪費に繋がります。
結果的に、クローラビリティが悪くなってインデックスが促進されないので、その分SEO効果が見込めないでしょう。

こうした状況を回避するためにも、まずは、404エラーページのHTTPステータスコードを確認しましょう。
これは、Google Chromeブラウザの「設定」で「その他のツール」⇒「デベロッパーツール」⇒「Network」のタブを選択して、「Status」から確認できます。

Google Chromeブラウザのデベロッパーツールで、404エラーページのHTTPステータスコードを確認する

上記の404エラーページは、404が返ってるので問題ありません。
ですが、このように404エラーページのHTTPステータスコードを確認して、200が返ってくるようであれば、ソフト404エラーとなります。
こうした場合に、先述したクローラーを巡回させないための対策(404エラーページに対して、HTTPステータスコードで404もしくは410を返したり、noindexする)が必要となります。

ファイルのクロールを拒否する

重要性の低いページ(ファイル)のクロールを拒否して、 クロールの浪費を減らしながら、 クローラビリティを改善しよう!

クローラビリティを向上させるには、ファイルのクロールを拒否します。
例えば、重要性の低いPDFファイルに対して、Googlebot含めた全てのクローラーを巡回させないための(クロール拒否の)コードを、robots.txtファイルに記述します。

こうした記述によって、特定ファイルのクロールを拒否(ブロック)することができるので、クロールの浪費を減らすことができます。
結果的に、クロール速度が速まったり、他の重要なコンテンツにクロールが再配分できるので、クローラビリティが良くなるということです。

こうして、ファイルのクロールを拒否することが、クローラビリティを向上させるためのポイントです。

また、PDF以外にも、ワード(.doc/.docx)や.パワーポイント(ppt/.pptx)などのファイル、決済ページ(フォーム関連)やユーザー専用のページ(会員ページ)、管理ページなども重要性が低いので、クロール拒否を検討しましょう。

一方、robots.txtでサイト全体に対するGooglebotのクロールを拒否すれば、クローラビリティが悪くなります。

このように、robots.txtで、誤ってサイトのルートディレクトリをDisallowで指定すれば、サイト内のすべてのWebページにクローラーが巡回しません。
そうなれば、サイト自体のインデックスが促進されないので、大きくSEO効果を失います。

付け加えると、クロール拒否されてる(ブロックされてる)ページを確認するには、サーチコンソールのインデックスガバレッジレポートやURL検査ツールを活用します。

こうしたクロールの制御は、robots.txt以外に、.htaccessファイルでも行うことができます。

ちなみに、クロール拒否を行うと、noindexが無視されます。
例えば、低品質ページにnoindexを指定して、そのページにクロール拒否も指定してるとします。
この場合、低品質ページ自体がクロールされないことになるので、そのページに記述したmetaタグのnoindexや、そのページに向けてhtaccessファイルに記述したX-Robots-Tag HTTP ヘッダーのnoindexは認識されません。
そうなれば、低品質ページが検索結果に表示されたままとなり(インデックス削除されずに)、クロールを拒否しただけとなります。
なので、noindexを認識させたければ、クロール拒否との併用は避けましょう。
そして、noindexとクロール拒否を状況に応じてうまく使い分ければ、クロールの浪費を減らしてクローラビリティの改善につなげることができるので、その分SEO効果も期待できるでしょう。

まとめると基本的には、重要性の低いページ(ファイル)は、noindexの設定、もしくはページ自体の削除を行いましょう。
とくに、ページ自体を削除すれば、ページに対するクロールの浪費が無くなり、かつサイト自体の品質を上げることにもつながるので、一石二鳥でクローラビリティが良くなります。
また、noindexを設定しなくても、インデックスされないファイル形式であれば、クロール拒否を検討する価値があります。
ですが、インデックスされないファイル形式であるCSSやJavascriptに対しては、クロール許可してほしいと、Googleの人が言及してます。
こうしたことも考慮して、クロール拒否を行い、かつ他の方法も踏まえながらクローラビリティを改善することがSEO対策を進めるためのポイントと言えます。

不要なアクセスをブロックする

不要なアクセスを除外して、 正常なクローリングを保ちしながら、 クローラビリティを改善しよう!

クローラビリティを向上させるには、不要なアクセスをブロックします。
例えば、とくに目立ったアップデートがないのに、突如アクセス数が急増してサーバーが重くなることがあります。
この場合、Googleアナリティクスのリファラーやアクセスログからアクセス元を特定し、そのアクセス元のドメインやIPアドレスを拒否するコードをhtaccessファイルに記述します。

このように記述したファイルをアップロードすれば、deny fromで書き始めた特定のドメインやIPアドレスからのアクセスがブロックできます。
つまり、不要なアクセスがブロックできるので、サーバーの負荷が軽減できます。
結果的に、Webページを正常にクロールすることができるので、クローラビリティが良くなるというわけです。

こうして、不要なアクセスをブロックするとが、クローラビリティを向上させるためのポイントです。

また、Googlebotからのアクセスが多いことでサーバーに負荷が生じてる場合は、基本的にGooglebotのクロール頻度を調整するようにしましょう。

ちなみに、こういった特定のクローラーからアクセスを拒否(クロール拒否)する場合は、htaccessファイルもしくは、robots.txtが活用できます。
ですが、誤ってGooglebotからのアクセスを拒否しないようにくれぐれも注意が必要です。

一方、不要なアクセスをブロックしないと、クローラビリティが悪くなります。
例えば、リファラースパムによるリクエスト(アクセス)が多すぎることで、サーバーの処理速度が遅延もしくは、サーバーダウン(サーバーエラー)してるとします。
そういった状態にも関わらず、そのアクセスをブロックしなければ、クロール頻度が下がるので、クローラビリティが悪くなるというわけです。
そうなれば、インデックスが促進されないので、その分SEO効果が見込めないでしょう。

付け加えると、こういったアクセス拒否を行うことで、クローラビリティの改善につながる反面、有用なアクセスを失う可能性もあります。
つまり、リスクも伴うので、専門の技術者を交えて慎重に不要なアクセスをブロックすることを検討しましょう。

URL検査ツールを活用する

クローラビリティを向上させるには、URL検査ツール(旧:Fetch as Google)を活用します。
例えば、サーチコンソールにログイン後、メニューの「URL検査」からクロールを促したい自身のサイトのページURLを検索窓に入力して、「インデックス登録をリクエスト」します。

サーチコンソールのURL検査ツールでインデックス登録をリクエストする

そうすれば、入力したページURLの情報をGoogleに伝えることができます。
結果、そのページへ一時的かつ強制的にクローラー(Googlebot)の巡回を促せるので、クローラビリティが良くなるとうわけです。
これは、新規ページやリライトしたページのURLに対してよく実施します。

こうして、URL検査ツールを活用することが、クローラビリティを向上させるためのポイントです。

一方、URL検索ツールを活用しなければ、一時的にクローラビリティを良くすることができません。
もう少し言うと、リライトした良質なWebページ(ブログ記事)を公開しても、そのページURLをURL検査ツールからリクエストしなければ、最新のコンテンツ内容がより迅速にクロールされません。
そうなれば、最新のコンテンツ内容がクロールされるまでの間は、古いコンテンツがインデックスされた状態が続くので、その分SEO効果が期待できないわけです。

ちなみに、先述したように、URL検査ツールによるインデックス登録のリクエストは、特定のページURLに対して一時的にクロールを促進するだけです。
つまり、極端に言えば、1回クロールされて終わりです。
なので、根本的にクローラビリティの低いページなら、Webページの情報がクローラーにしっかり読み取られない可能性があります。
そうなれば、インデックスが促進されないので、SEO効果が見込めません。
これを回避するためには、質の高いコンテンツ増やしてサイト自体の質を高めたり、関連する高品質ページへの内部リンクを増やすなどして、根本的にクローラビリティを良くすることが重要です。

クローラーの動きを確認する方法

クローラーの動きを確認するには、サーチコンソールを活用します。

例えば、サーチコンソールにログイン後、メニューから[設定]をクリックして、クロールの統計情報で[レポートを開く]をクリックします。

クローラーの動きをサーチコンソールのクロール統計情報レポートで確認する方法①

そうすれば、「クロールリクエストの合計数」「合計ダウンロードサイズ(バイト)」「平均応答時間(ミリ秒)」などの項目における90日間のホストのステータスが表示されます。さらにその下部では「レスポンス別」「目的別」「ファイル形式別」「Googlebotタイプ別」にクロールリクエストの詳細が表示されます。

クローラーの動きをサーチコンソールのクロール統計情報レポートで確認する方法②

このようにクロールの統計情報が表示されるので、クローラーの動きが確認できるというわけです。

まとめ:クローラーの仕組みを理解して、クローリングされやすいコンテンツにしよう

クローラーの仕組みを理解して、クローリングされやすいコンテンツにしましょう。

一方、クローラーの仕組みがわからなければ、クローラビリティを改善する必要性もわかりません。
そうなれば、クローラーに検索されづらいサイトのままです。
結果、インデックスされなかったり、不完全なコンテンツ内容がインデックスされるサイトを運営し続けることになるというわけです。
これでは、検索順位が上がらなかったり、検索流入が増えづらいので、サイトのアクセス数が思うように伸びません。
アクセス数が増えなければ、見込み顧客の集客が滞るのでサイトからの売り上げ向上が思うように見込めないでしょう。

こうした悪い状況を回避する為に、クローラーの仕組みを理解して、クローリングされやすいコンテンツにしましょう。

検索順位が上がらない…と思っていませんか?

検索順位が上がらない…と思っていませんか?

思い通りの検索ワードで上位表示させるには、基本となる外部・内部の対策はもちろん、昨今の大きな変動・競合の強さも大きく影響するため、どういったキーワードで対策するのか?という点も重要となります。

ここを正しく理解しておかなければ上位表示させることは難しく、サイトを効果的に運用し、資産化することができません。

そこで、こちらでは上位表示に必要なSEOが正しく施されているかどうかを無料で調査し、問題点や改善点などのアドバイスを致します。

\ 効果的な改善方法を明確にしませんか? / サイト調査を依頼する
SEO対策無料ご提案はこちら