弊社では、InfoNavigatorサービスを、Web検索の道具としてより一層便利なも
のとするために、
- 新鮮なホームページ情報を豊富に蓄積し、
世界最速レベルの検索エンジンにより
的確な情報をご提供する
機能が必須と考えております。
このため、WWW情報のWebクローラーを稼働させ、それによって収集した情報の検索サービスをご提供しております。
|
Webクローラーによる自動収集の主旨と
Webクローラーの機能・特徴についての説明をお読みいただき、
お客様のホームページ情報の自動収集に対するご理解をいただきたく、
よろしくお願い申し上げます。
自動収集の回避方法によるご指示のない限り、
Webクローラーによる収集の対象とさせていただきます。
自動収集情報の追加・変更・削除の依頼は受け付けておりませんので、その点は御了承下さい。
|
Webクローラーとは、Web上のホームページが提供している情報を、
HTML文書に記述されたリンクを辿りながら、自動的に収集するプログラムです。
- 弊社Webクローラーは、お客様のWWWサーバに定期的にアクセスし、
常に最新の情報を収集します。
- 弊社Webクローラーは、
A Standard for Robot Exclusionの
ポリシーを尊重します。
これに準拠する他のWebクローラーと同様にお客様自身で
自動収集の対象ファイルを制御することができます。
- 弊社Webクローラーは、弊社が独自に開発したプログラムで
1000万URL/日以上のWeb情報収集能力があります。
|
Webクローラーによって収集した各情報は、検索のためのデータとして利用させていただきます。
具体的には以下の通りです。
- 各情報からその情報を検索するためのキーワードを自動抽出し、
検索用インデクスに登録します。
尚、明にキーワードとして登録して欲しいものがあれば、
HTML文書の最初の方にある<HEAD>〜</HEAD>
の範囲内に、METAタグで、以下のように記述して下さい。
<META NAME="KEYWORDS" CONTENT="登録したいキーワード1,
登録したいキーワード2,登録したいキーワード3,・・・">
- 検索の結果として表示するため、各情報のタイトルを抽出します。
また、同じく検索結果の表示において、情報の紹介文として表示するため、
body部の先頭約300バイトを抽出します。
尚、先頭部分のかわりに、紹介文として表示して欲しいものがある場合は、
HTML文書の最初の方にある<HEAD>〜</HEAD>
の範囲内に、METAタグで、以下のように記述して下さい。
<META NAME="DESCRIPTION" CONTENT="掲載して欲しい紹介文">
- 収集したデータは、検索用インデクス登録後、
ただちに破棄します。
|
弊社Webクローラーは、A Standard for Robot Exclusionに準拠しています。
弊社Webクローラーによる自動収集の回避は、
お客様が、お客様の(web)ページの管理者に依頼して、
/robots.txtを作成してもらうか、または、お客様自身で、
収集されたくないページにMETAタグを記述するかの、いずれかの方法により回避することができます。
- お客様のWeb管理者が、robots.txtを作成して、収集を回避する方法
Web管理者の方に、
サーバのトップレベルであるドキュメントルートにrobots.txtというファイルを
作成してもらうことにより、
弊社Webクローラーによる自動収集を完全にあるいは部分的に回避することが可能です。
以下は、robots.txtの記述例です。
- 全てのWebクローラーが、/secret1/と/secret2/のディレクトリ配下のページ情報を収集することを禁止
- User-Agent: *
- Disallow: /secret1/
- Disallow: /secret2/
- InfoNavigatorWebクローラー(InfoNavirobot)に関してのみ、
/public/secret.htmlというファイルの情報を収集することを禁止
- User-Agent: InfoNavirobot
- Disallow: /public/secret.html
- 全てのWebクローラーが、情報収集することを完全シャットアウト
- User-Agent: *
- Disallow: /
- お客様自身が収集されたくないページにMETAタグを記述して、収集を回避する方法
お客様のページにHTMLのMETAタグを<HEAD>セクションに記述することによって、Webクローラーによる自動収集を回避できます。記述方法は、以下の例を参考に記述のほど願います。
- <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
-
NOINDEX : このページはインデックス対象としません。
NOFOLLOW : このページからリンクしているページをインデックスの対象としません。
- ex1)
-
そのぺージとそのページからリンクされているページ
の情報収集を禁止したい。
<META NAME="ROBOTS" CONTENT="NOINDEX,
NOFOLLOW">
- ex2)
- そのページからリンクされているページのみ、
情報収集を禁止したい。
<meta name="robots" content="index,nofollow">
- ex3)
- そのページのみ情報収集を禁止して、リンクされているページを情報収集させたい。
<meta name="robots" content="noindex, follow">
なお、Webクローラーよる自動収集の回避方法の詳細については、以下を参照して下さい。
http://www.robotstxt.org/wc/exclusion.html
|
以下の条件にあてはまる文書は、検索の対象となりませんのでご注意下さい。
- 検索対象ページのアドレス(URL)が80文字を超えているページに関しては、検索対象になりません。
- 検索対象ページにおいて、HTMLのタグの不整合が発生しているページに関しては、検索対象となる保証はありませんのでご了承ください。
- 検索対象ページがフレーム構成になっている場合、各フレームのHTML文書は検索対象になりますが、FRAMESETが定義されているページは検索対象になりません。
- テキスト形式、HTML形式以外の文書は検索対象になりません。
|