クローラーとその仕組み

クローラーとその仕組

更新日:

要約

  • クローラーがサイトを回遊・巡回しやすくさせるために「クローラビリティ」を上げる
  • クローリングとスクレイピングの違いを解説
  • サイト内の構造を理解しやすくすることで、クローラーにページを正しく認識をさせる方法を解説

はじめに

SEOやWeb担当者の方は、クローラー・クローリングといった言葉に聞き覚えがあるかたも多いでしょう。

最近担当になったばかりで、その意味や用途を知らない方向けに、クローラーの特色や仕組みを解説していきます。

クローラーとは

クローラーとは、検索エンジンなどがランキングを決定する要素を収集するために作られた、サイトを巡回するロボット(bot、またはスパイダーとも呼ばれる)のことです。
クローラーという名前は、「這いずり回る」という意味の「クロール」に由来しています。

クローラーは、検索エンジンごとに多くの種類が存在します。
GoogleはGooglebot、Yahoo!はYahoo Slurp、BingはBingbot、BaiduはBaiduspiderといった名前のクローラーを使用しており、各社サードパーティーツールでも、専用のクローラー名を用いてWEBを巡回させています。

検索エンジンの世界シェアはGoogleがトップですが、日本ではYahoo!を利用されている方も多いようです。
しかしながら、Yahoo!もGoogleの検索エンジンを導入していることから、クローラー対策と呼ばれるものは、ほとんどGooglebot向けの話になります。

クローリングとその仕組み

クローリングとは、クローラーが定期的にサイトを訪問し、情報を取得・収集する動きのことです。
Googleなど多くの検索エンジンは、各々の検索データベースに情報を蓄積していきます。
ユーザーによる検索が行われると、入力されたキーワードをもとに、データベースの中から検索結果を引っ張り出してくることが出来るのです。
クローラーは、主に世界中に存在するサイト内のHTMLに記述されているリンクを辿って巡回してきます。
つまり、クローリングは、待っているだけでも自動的に行われますが、より早くページをクロールしてもらうためには、Google Search ConsoleからURL申請をするとよいでしょう。

また、クローラビリティとは、クローラーがWEBサイトやページに対して容易にアクセスさせるための手段のことで、クローラビリティの向上はSEO対策を行う上で、必要不可欠な要素とされています。
似たようなものにスクレイピングという言葉がありますが、以上で2つの違いを解説していきます。 

クローリングとスクレイピングの違い

どちらもネット上に存在する情報を取得する手段で、混同して使用されることが多いのですが、その目的や違いを解説します。

まず、クローリングの目的は、WEBネットワークを巡回することにあります。

掲載されている情報を抜き出すだけではなく、サイト間の関連性や品質をチェックしながらインターネットを巡回して、大量にある類似した情報や質の異なるページから優れたページを判断して、検索順位に反映させるために利用されます。

一方、スクレイピングは、特定の情報や要素を抽出して、データを利用することが主な目的です。

そのため、一般的に必要な箇所のみをピンポイントで抽出することになります。

具体的な例としては、指定されたページに存在するグラフデータだけを抽出したり、タイトル・見出しといった特定の要素だけを抜き出す場合に利用されます。

使用目的や意図で使い分けられるため、どちらが優れているということはありませんが、昨今のWEBプログラマーやWEBエンジニアの間では、主にPythonを活用したスクレイピング技術が注目を浴びています。

クローラビリティ向上でSEO対策

「クローラビリティを上げる」という言葉を耳にしたことがあるかと思います。
クローラビリティとは、クローラーがウェブサイトやページを巡回しやすいよう設計することを指します。
つまり、クローラビリティを向上させることで、クローラーがうまくサイト内やページを回遊・巡回してくれるようになり、SEO対策にも効果を発揮する可能性が高まります。

インターネット上に公開されているサイトであれば、クローラーは、リンクを辿ったりSearch Consoleに送信されたURLを元に、出来るだけ情報を集めようとします。
しかしながら、認識していないサイトや質の低いページを巡回することはない、または巡回されても検索エンジンに登録されないので注意が必要です。

また、公開直後のサイトやページは、すぐに巡回されるとは限らないので、クローラーに対して信頼があり、認識しやすい環境を整えることで、はじめて検索結果に反映させることができます。

検索エンジンの順位を上げるには、サイト内のクローラビリティを高め、質の高い、信頼のあるコンテンツを公開することが重要になります。

適切な内部リンクの貼り方や、関連付けの具体的な考え方は、下記のページで解説しています。

さて、クローラビリティの具体的な上げ方は以下のとおりです。

Google Search ConsoleでURL検査ツールを活用する

URL検査ツール(旧:Fetch as Google)、Googleに自サイトへのクローリングを促す機能です。
ページの更新、新規ページ作成を行った際は、Google Search ConsoleのURL検査ツールから該当ページのURLを送信しましょう。

Google Search Consoleでサイトマップの設定を確認する

ここで紹介する「サイトマップ」とは、HTMLで作成されたサイトマップページとは異なり、Googleなどの検索エンジンに対してURL構造を提供するためのXMLファイルのことを指します。

適切なディレクトリを配置した上で、正しく記述されたsitemap.xmlが公開されていれば、Googleが提供しているツール「Google Search Console」でサイトマップ登録を行うことが可能です。
既に登録が完了されている方も、改めてsitemap.xmlが正しく読み込まれているかどうかを確認することをお勧めします。
サイトマップが正常に読み込まれた状態であれば、定期的にクローラーはURLに訪問するようになるでしょう。
しかし、URLや記述方法が間違っていると、Googleはサイトマップを正しく理解できず、意図した巡回が行われなくなる場合があります。

パンくずリスト設定

パンくずリストとは、ユーザーが見ているページがサイト全体から見て、どの階層にあるのかを示す標識のようなものです。

パンくずリストを設定・設置することで、クローラーはサイト内の構造を理解しやすくなり、ページを見つけやすくなります。
一般的にパンくずリストは、HTMLで記述された内部リンクのことを指すことが多いのですが、構造化マークアップでも表現が可能で、Googleから率先して導入するように促す言及もあり、その重要性は近年増してきています。

クローラーが理解できるコンテンツを提供する

クローリングが行われるためには、クローラーにページの存在を認識してもらう必要があります。
クローラーが理解できる表現方法は、私たち人間の見え方や捉え方とは全く異なるため、クローラーが読み取れるテキスト情報を用いることが必須となります。

画像にURLが記載されていたり、音声や動画で誘導を促したとしても、クローラーはページの存在や構造を理解できません。
ハイパーリンクや文章などを用いて、テキスト情報による適切な訴求方法でコンテンツを作成する必要があります。

リンク構造を適切に配置する

URLの長さはランキングの要素ではないと公表していますが、クローラーの負担を考えると、わかりやすくシンプルに越したことはありません。
また、URLの階層は構造が上位にあるディレクトリのほうが、包括的なコンテンツと見なされ、評価が高まる傾向があります。
URLを発見してもらいやすくするためには、階層が浅く、ディレクリ名も端的でコンテンツの中身がどんなものか理解させやすくした方がよいでしょう。

まとめ

検索エンジンにおけるクローラーとは何かについて主に解説しました。

適切な設計・訴求が行われていないと、クローラーに対してページの存在や意味が正しく訴求できず、検索ランキングが上がらない、また最悪の場合は検索結果に掲載されないといった事態に陥ります。

改めてウェブサイト全体のクローラビリティの改善箇所を洗い出してみてはいかがでしょうか。

よくある質問

📕Googleのクローラーとは?

📖通称、GoogleBotと呼ばれています。世界中で公開されているウェブサイトを巡回して、取得した情報をGoogleのサーバーに持ち帰ることでデータベースに蓄積する役割を担います。Google検索エンジンでユーザーが検索を行うと、該当キーワードに合致したページを適切に選択した上で検索結果に表示します。

📕クローラーを使用・作成することは違法?

📖ウェブ上の情報をスクレイピングすること自体は違法ではありません。データ分析やデータベースを作る場合は問題ないとされています。

📕クローラーとスクレイピングの違い

📖クローリングは、プログラムでサイトを巡回して情報などを取得することが目的があります。一方スクレイピングは、指定されたデータ内から不要なデータを削除や加工し、特定の情報のみを抽出することを指します。どちらも情報を集めるという点では共通していますが、スクレイピングは情報の手を加えるといった点で異なります。

当サイトの運営者。
主にSEO、SXOの考え方について、現場での経験から、どのようにGoogle検索エンジン対策を行えばよいかを具体的に解説できるよう努めています。再検索キーワード調査トピッククラスター構築ツール競合キーワード調査キーワード難易度調査ツール検索ボリューム調査ツールサジェストキーワード調査ツールの考案者であり開発者。詳しくはプロフィールをご覧ください。

記事が気に入ったらシェアをお願いします!

, , , , , , , ,