維持・保守・運用
その他 分類

robots.txtファイルの紹介及び使い方

投稿者情報

  • 運営局 投稿
  • 投稿日

コンテンツ情報

本文内容

 

KePW0HG.png

 

robots.txtとは?

 

インターネット検索エンジン排除標準(Robots Exclusion Protocol)とは、セキュリティが必要な情報が検索エンジンに流出されないように、Webページを作成する方法を記述した国際的な技術標準です。

 

すべての検索ロボットがこの標準に準拠するわけではありませんが、一般的なWebサイトの開発者が簡単に適用することができ、利用が広がっています。

 

サーバー管理者がWebページHTMLの作成する時に一番上に検索ロボットを排除するという意味の「File:robots.txt '、' User-agent:* /」などを書いておけば、検索ロボットの検索対象から除外されます。

通常のウェブページでも上記のようにメタタグを入力して置きますと、検索を回避することができます。

 

 robots.txtの使い方

 

robots.txtの場所

 

robots.txtを適用するWebサイトの最上位ディレクトリに適用します。

 

ex)www.sample.com/robots.txt

 

robots.txt形式

 

User-agent:<=検索ロボットの名前
Disallow:<=アクセスを設定
Crawl-delay:次の訪問までのディレイ(秒)

 

すべての検索ボットブロック

 

User-agent:*
Disallow:/
「*」(ワイルドカード)は、すべてのロボットを意味し、「/」スラッシュはすべてのディレクトリを意味します。

 

Googleのボット(Googlebot)のみ許可、それ以外はすべてブロック

 

User-agent:Googlebot
Disallow:

User-agent:*
Disallow:/

 

Googleのボット(Googlebot)及びボット(Bingbot)のみ許可、他のボットはすべてブロック

 

User-agent:Googlebot
Disallow:

User-agent:Bingbot
Disallow:

User-agent:*
Disallow:/

 

すべてのボットを許可

 

User-agent:*
Disallow:

 

ホームページディレクトリの一部だけを検索エンジンに許可

 

 User-agent:* 
 Disallow:/ conection / 
 Disallow:/ my_conection / 

 

ホームページのディレクトリの一部分のみを検索エンジンブロック

 

User-agent:*
Disallow:/ my_page /

関連資料

NEWS/講座

新着投稿


  • 投稿がありません。

新着書込み


  • 書込みがありません。
アラート 0