ブログ|on Note

何でも気になることを調べて記事にしたブログ

on Note

Webサイトを巡回するクローラ

インターネット上に公開されているWebサイトのページから情報を収集するクローラと呼ばれる(Googleでは「Google Botグーグル ボット」とも呼ばれる)プログラムがある。このクローラがWebサイトを巡回して、テキストや画像など、ページの情報を読み取っている

クローラは、Webサイトの隅々まで巡回するわけではない。また、そのサイトのページの、最初から最後までの全てを読み取るわけでもない。

クローラが巡回してくれるようなSEO

Webサイトの隅から隅まで巡回してくれるわけではないクローラに、より多くのページを読み取ってもらうようSEOが必要となる。

クローラは、リンクを辿ることでインターネット上に公開されたWebページを巡回する。その為、下記のような工夫を施す必要がある。

  • クローラの読み逃しがないように、サイト内のリンクを最適化し、クローラを案内する。
  • HTMLを正しく使った、クローラが認識しやすいページ作り。

こういった、クローラの巡回のしやすさをクローラビリティと呼ぶ。

Webページの情報を保存するインデックス

クローラが収集したWebページのデータは、検索エンジンのデータベースに保存される。このことを「インデックスされる」という。

インデックスでは、Webページの情報をそのままコピーして保存するのではなく、検索エンジンが今後扱いやすくなるよう編集して保存される。

検索エンジンは、インデックスした情報を元に検索結果を表示している為、Webページの情報がインデックスされているかが重要になってくる。つまり、インデックスされていなければ、そのWebページが検索結果に表示されることはない。

また、クローラが読み取った全てのWebページをインデックスするわけではない。よって、どれだけクローラに巡回されても、インデックスされなければ意味がない。

Webページの情報が間違って保存されると、検索エンジンが正しい情報を扱えず、検索結果においても正しく表示されない。Webページの情報が正しくインデックスされるよう、クローラに正しい情報を伝える為の、WebページでのSEOが必要になってくる。

閲覧者が満足するページを作るのがSEO

クローラは、インターネット上のWebページ全てを巡回するわけではないし、巡回した中から全てのページをインデックスするわけでもない。インデックスしたデータから、閲覧者が検索するキーワードに相応しいWebページを検索結果として表示する。この時検索エンジンは、閲覧者が満足するようなWebページを表示することに努めている。

検索エンジンはデパートなどのバイヤーに例えると分かりやすい。バイヤー(クローラ)は、世に(インターネット上に)存在する全ての商品(全てのWebページ)を仕入れる(インデックスする)わけではない。バイヤー(クローラ)が仕入れた(インデックスした)商品(Webページ)だけが店頭(検索結果)に並び顧客(閲覧者)の目に触れることになる。顧客(閲覧者)が商品を購入(Webページを閲覧)して、その店舗(検索エンジン)を利用して満足してもらうことを重要としている。Web制作者は、SEOを行い、クローラにインデックスしてもらえるWEbページ作りが必要となる。

メニュー