SEO対策に関する実験やデータ分析などを公開します

SEOラボ

重複コンテンツによる問題と対策方法

2018/02/02 2018/02/02

重複コンテンツによって生じる問題を把握し、適切な対策について知識を深めながら、サイトのパフォーマンスを管理することが大切です。

今回は、重複コンテンツの対策方法、重複コンテンツの基準、rel=”canonical”で重複コンテンツを解消する方法など中心に解説したいと思います。

重複コンテンツによる問題と対策方法

重複コンテンツとは

重複コンテンツとは、タイトルやテキスト文章等のコンテンツが、他ページと重複してることです。

公式サイトでは、以下のように定義されてます。

重複するコンテンツとは、ドメイン内または複数ドメインにまたがって存在する、他のコンテンツと完全に同じであるか非常によく似たコンテンツのブロックを指します。

※引用元:重複するコンテンツ – Search Console ヘルプ

重複コンテンツは、別名「コピーコンテンツ」とも呼ばれます。

多くのwebページを作成すれば、似てるページが存在し、タイトルやテキスト文章が定型化する場合が有ります。
定型化してくると、同じようなコンテンツが増えやすく、重複コンテンツが増えやすくなります。

できるだけ、他ページと違うタイトル、テキスト文章内容を記述し、重複しないコンテンツを仕上げることが大切です。

重複コンテンツの対策方法

重複コンテンツ対して、基本的に以下のような対策方法があります。

  • 301リダイレクトを使用する
    サイトの構造を変更した場合は、.htaccess ファイルで 301 リダイレクト(「RedirectPermanent」)を使用して、ユーザー、Googlebot、他のスパイダーを適切にリダイレクトする。
  • 内部リンクの一貫性を保つ
    リンクURLの文字列を統一し、サイト内の他ページへのリンク(内部リンク)の一貫性を保つようにする。
    「http://example.com/seo」や「http://example.com/seo/」など、複数のリンクを使わず、1つのURLに絞ってリンクする。
  • トップレベルドメインを使用する
    国別のコンテンツを扱う場合は可能な限り、トップレベル ドメインを使用してGoogle で文書の最も適切なバージョンが表示されるようにする。
    ディレクトリ(http://example.com/de)やサブドメイン(http://de.example.com)よりも、トップレベルドメイン(http://example.de)がより認識されやすい。
  • インデックスの作成を希望するサイトを Google に伝える
    Search Console を使用して、使用するドメインを Google に伝える。
  • 定型文の繰り返しをできるだけ少なくする
    たとえば、著作権に関する説明をすべてのページの下部に表示する代わりに、短い要約文を組み込んで詳細情報のページにリンクするようにする。
  • 空のページを公開しないようにする
    テストページや空ページなどがインデックスに登録されないように noindex メタタグを使用する。
  • ブログやフォーラムなどのシステムを理解する
    同じコンテンツが複数のフォーマットで生成されやいワードプレスなどを使ったブログやフォーラムなどのシステムを理解し、コンテンツを管理する。
  • 類似するコンテンツをできるだけ少なくする
    各ページに内容を追加するか、もしくは各ページの内容を1ページに統一して、類似するコンテンツをできるだけ少なくする。
    また、記事の寄稿などにより、提供先のサイトで公開された類似コンテンツがインデックスに登録されないよう、noindex メタタグで検索エンジンをブロックするように依頼する

これらの基本的な対策と合わせて、「rel=”canonical”」「URL パラメータ処理ツール」なども必要に応じて活用しながら、重複コンテンツの対策を進めましょう。

※参考:重複するコンテンツ – Search Console ヘルプ

重複コンテンツの基準

重複コンテンツは、「複数の異なるURLから同じコンテンツにアクセスできるようになってるか否か?」が判断の基準となります。

実際に重複コンテンツが検出された場合、以下のような基準で処理されることが定義されてます。

重複するコンテンツを検出した場合、Google のアルゴリズムが重複 URL を 1 つのクラスタにグループ化し、検索結果においてそのクラスタを代表する URL として最適と判断した URL を選定します(たとえば、コンテンツの量が最も多い URL を選択するなど)。

※引用元:重複する URL の影響について – Search Console ヘルプ

rel=”canonical”で重複コンテンツを解消

rel=”canonical”で重複コンテンツを解消するには、以下のような方法が公式に定義されてます。

重複したすべてのページを rel=”canonical” リンク要素でマークします。rel=”canonical” 属性を指定した <link> 要素を、重複ページの <head> セクションに追加して、正規ページを指すようにします。この例では次のようになります。

<link rel=”canonical” href=”https://example.com/dresses/green-dresses” />

※引用元:重複した URL を統合する – Search Console ヘルプ

重複コンテンツがGoogleペナルティになるケース

重複コンテンツがGoogleペナルティになるのは、基本的にGoogleガイドラインに違反するような、以下のようなケースです。

無断複製されたコンテンツの例としては、次のようなものが挙げられます。

  • 他のサイトのコンテンツをコピーし、独自のコンテンツや付加価値を加えることなく転載しているサイト
  • 他のサイトのコンテンツをコピーし、(語句を類義語に置き換えたり自動化された手法を使用したりして)若干の修正を加えた上で転載しているサイト
  • 何らかの独自の体系付けやユーザーへの利便性を提供することなく他のサイトからのコンテンツ フィードをそのまま掲載しているサイト
  • ユーザーに実質的な付加価値を提供することなく、他のサイトの動画、画像、その他のメディアなどのコンテンツを埋め込んだだけのサイト

※引用元:無断複製されたコンテンツ – Search Console ヘルプ

無断複製されたコンテンツは、悪意のある重複コンテンツに該当します。

このようなケースは、ユーザーの利便性を明らかに損ねる行為のため、品質ガイドラインに抵触し、Googleペナルティとなります。

その他に重複コンテンツとして扱われるのは、以下のようなケースです。

多くの場合、偽装を意図したものではありません。悪意のない重複するコンテンツの例には、以下のものがあります。

  • 通常ページと携帯デバイス用の簡易ページの両方を生成するディスカッション フォーラム
  • 複数の異なる URL で表示またはリンクされる商品ページ
  • ウェブページの印刷用バージョン

※引用元:重複するコンテンツ – Search Console ヘルプ

これらの偶発的な重複コンテンツは、品質ガイドラインに明らかに抵触するわけではありませんが、ユーザーの利便性の低下を招く可能性があるため、最悪サイトの評価が下がり、Googleペナルティとなります。

公式で、以下のように言及します。

ごくまれなケースとして、Google でのランキングの操作やユーザーへの偽装を意図した重複コンテンツが表示される可能性が認識された場合も、Google では関係するサイトのインデックス登録とランキングに対して適切な調整を行います。その場合、該当するサイトはランキングが低下するか、Google インデックスから完全に削除されて検索結果に表示されなくなる可能性があります。

※引用元:重複するコンテンツ – Search Console ヘルプ

その他のケースとして、以前問題となったWELQが運営するような度が過ぎたコピーコンテンツ掲載サイトは、重複コンテンツによりペナルティを受けやすくなります。

このような質の低いコンテンツを生み出すサイトに対して、Googleは2017年2月3日に公式にアナウンス「低品質なサイトへの対策」をしており、より厳重な制裁が下るようすでにアルゴリズムが調整されてます。

重複コンテンツによるペナルティを回避するために、現在は、オリジナリティーがより重要視されてます。

よく見られる重複コンテンツ2パターン

よく見られる重複コンテンツに関して、Gary Illyes氏含めTwitter上で以下のようディスカッションが行われました。

そして、Web上には、以下のようよく見られる2つの重複コンテンツ形式が存在するようです。

(A) Someone who takes a piece content from one site and slightly changes it and posts it on their own site.

(B) They take all the content from one page and puts it on their own page but the boiler plate content in the header, footer, etc is different.

翻訳すると、以下のようになります。
Aパターン:あるサイトからコンテンツを取り出し、わずかに変更して自分のサイトに投稿する人。
Bパターン:1つのページからすべてのコンテンツを取り、それを自分のページに置きますが、ヘッダー、フッターなどのボイラープレートの内容は異なります。

重複コンテンツのチェック(判定)方法

重複コンテンツをチェックし、自分のwebサイトが問題ないか判定、確認する必要があります。

重複コンテンツのチェック方法は以下です。

サーチコンソールの[HTMLの改善]を活用する

サーチコンソールの[HTMLの改善]から、重複するメタデータ(descriptions)、タイトルタグの重複を確認することができます。

サーチコンソールの[HTMLの改善]を活用する

ミラーサイト・類似ページ判定ツール「sujiko.jp」を使う

sujiko.jpでは、2つのページの類似度を判定することが可能です。また、サイト内、サイト外の類似ページを確認することができます。

ミラーサイト・類似ページ判定ツール「sujiko.jp」を使う

グーグル検索で重複コンテンツを調べるコマンドを使う

Google検索結果URLの末尾に「&filter=0」を追加し、再検索することで、重複コンテンツの確認に役立ちます。

グーグル検索で重複コンテンツを調べるコマンドを使う

※参考:グーグル検索で重複コンテンツを調べる隠しコマンドがあった

noindexで重複コンテンツを解消

noindexを使って、重複コンテンツを解消するには、以下のような方法となります。

ユーザーにとって利便性の低い、インデックス不要なページを content=”noindex” メタ要素でマークします。content=”noindex” 属性を指定した <meta> 要素を、重複ページの <head> セクションに追加して、検索結果にインデックスさせないように以下のように記述します。

重複コンテンツとSEOの関係

重複コンテンツは、ユーザーにとって利便性の低下を招く可能性があるため、最悪サイトの評価が落ちます。
つまり、重複コンテンツは、検索順位の下落やインデックス削除(検索エンジンにサイトが表示されなくなる)の恐れがあり、検索エンジン最適化(SEO)と関わりがとても深いと言えます。

公式サイトでは、以下のように定義されてます。

Google でのランキングの操作やユーザーへの偽装を意図した重複コンテンツが表示される可能性が認識された場合も、Google では関係するサイトのインデックス登録とランキングに対して適切な調整を行います。その場合、該当するサイトはランキングが低下するか、Google インデックスから完全に削除されて検索結果に表示されなくなる可能性があります。

※引用元:重複するコンテンツ – Search Console ヘルプ

コピーコンテンツとは

コピーコンテンツとは、他ページと同一もしくは類似してるコンテンツ(タイトルやテキスト文章等)のことで、「重複コンテンツ」と同じ意味として扱われます。

※参考:重複コンテンツとは

重複コンテンツの削除について

重複コンテンツを削除するには、主に以下のような3つの方法があります。

  • noindexを使う
    HTMLファイルのheadタグ内にcontent=”noindex”属性をmeta要素で指定し、インデックスさせない(検索結果に表示させない)ように促し、重複コンテンツを検索結果から削除する
    ※参考:noindexで重複コンテンツを解消
  • ページを削除する
    サーバー上に公開されてる類似もしくは同一の内容のWebページを削除し、重複コンテンツを削除する
  • URL削除ツールを使う
    サーバーから削除したり、noindexを入れても、検索結果に残ってWebページが表示されてる場合があります。
    このような場合、URL削除ツールを使って該当のURLを申請し、重複コンテンツを削除する

まとめ

重複コンテンツの問題があれば適切に対策し、ユーザーにとって利便性の高いユニークなページにしましょう。

Googleガイドラインに準拠し、評価されやすサイトにしながら、上位化を目指すことが重要です。

SEOラボのおすすめ記事がLINEに届く!「SEOラボを友だち追加する」

カテゴリから記事を探す