robots.txt | 柏崎剛SEO対策ドットコム

robots.txt

更新日:

robots.txtとは

robots.txtは、検索エンジンクローラー(ロボット)に対して、ウェブサイトのどのページをクロールするかを指示するテキストファイルです。

クローラーはインターネット上のページの情報を収集する機能を持っています。

robots.txtの設置場所と機能

robots.txtは、ウェブサイトのルートディレクトリに設置されます。

このファイルを使用することで、ウェブサイトの特定のページやコンテンツのクロールを拒否する設定が可能です。

以下はrobots.txtの使い方の基本的な例です。

すべてのボットのアクセスを許可する

User-agent: *
Disallow:

この設定では、User-agent: *がすべてのボットを指し、Disallow:が空であるため、すべてのページのクローリングが許可されています。

特定のボットのアクセスを禁止する

User-agent: BadBot
Disallow: /

ここではUser-agent: BadBotで特定のボット(この例では「BadBot」)を指定し、Disallow: /でサイト全体へのアクセスを禁止しています。

特定のディレクトリへのアクセスを禁止する

User-agent: *
Disallow: /private/

この設定では、すべてのボットが/private/ディレクトリへのアクセスが禁止されています。

特定のファイルへのアクセスを禁止する

User-agent: *
Disallow: /private/file.html

ここでは、すべてのボットが特定のファイル(この例では/private/file.html)へのアクセスが禁止されています。

複数のルールを組み合わせる

User-agent: *
Disallow: /private/
Disallow: /tmp/

User-agent: Googlebot
Disallow: /no-google/

この例では、すべてのボットが/private//tmp/ディレクトリへのアクセスを禁止されています。
また、Googleのクローラー「Googlebot」だけが/no-google/ディレクトリへのアクセスを禁止されています。

クロール制限の活用

robots.txtは、主にクロール制限を行う際に活用されます。

これにより、ウェブサイト運営者は検索エンジンのクローラーに対して、自サイトにとって重要なコンテンツを中心にクロールさせることができます。

robots.txtの注意点

robots.txtはあくまでボットに対する「お願い」であり、強制力はありません。
多くの正規の検索エンジンはこれに従いますが、悪意のあるボットは無視することがあります。
また、ファイルは公開されているため、誰でも閲覧することができます。
したがって、機密情報を含むディレクトリやファイルを列挙することは避けるべきです。

記事が気に入ったらシェアをお願いします!