【クロスメディアキーワード】クローラーと情報アーキテクチャー

掲載日:2016年7月29日
このエントリーをはてなブックマークに追加

クロスメディアキーワード【第15回】

Webサイトの構築を行う際には、情報アーキテクチャーを考慮することで、利用者を意識した情報サービスの提供が実現できる。

クローラー

クローラーとは、サーチエンジンがインターネット上の情報を収集するプログラムである。定期的にインターネット上のHTML(HyperText Markup Language)文書からリンク情報(href属性値に指定されたURL)を辿り、あらゆる情報を収集する。スパイダーやWeb巡回プログラム、検索ロ ボット、ボットなどとも呼ばれる。

インターネット上の検索サイトでは、検索結果の順位を決める方法として検索アルゴリズムによるものが多 く、利用者の探している情報を的確に探し出せるかが重要となる。検索アルゴリズムは日々進化しており、サービス提供企業ごとに方法が異なり、いずれも非公 開とされている。

クローラーは、サーチエンジンの検索結果に利用される情報の収集の他、目的を持たせ特定の情報収集に利用される。目的や特定の情報とは、一般企業や団体などによる商品情報の収集や統計調査などがあげられる。

クローラーには幾つもの種類があり、PC向けWebサイトの情報収集に用いられるものや、モバイル端末向けWebサイトの情報収集に用いられるものがある。また、ブログ検索サービスのように、情報の性質や状態を考慮した検索サービスも提供されている。

ブログの内容は、更新の容易さや個人の嗜好が反映されやすいことから、企業などが用意するWebサイトとは性質の異なる情報が多く含まれている。ブログ検 索サービスによっては、更新情報を配信するためのRSSフィードやAtomフィードのある全てのブログを検索できるようにすることを目標としているものが ある。

セマンティック・ウェブ

広く普及しているインターネット上の情報を収集する方法は、一般的に使用される文章検索に関する方法を利用している。言い換えれば、自然言語による検索方法である。これは、人間の持つ言葉の多面性や曖昧さから、正確に目的とする情報を得ることが難しいとされている。

また、自然言語による検索のほか、W3Cのティム・バーナーズ=リー氏によって提唱されたセマンティック・ウェブに対する検索技術の研究が行われている。

セマンティック・ウェブでは、HTMLで記述された文書を使用せず、XML(Extensible Markup Language)により記述した文書に対し、RDF(Resource Description Framework)やOWLを記述したものを使用する。RDFは、インターネット上のリソースを示すために用いられ、OWLは、意味を持った情報を形式 化して記述することに用いられる。自然言語の検索による曖昧な検索方法に対し、正確な意味を持った情報に対する収集や分析が可能になると考えられている。

ウェブマイニング

ウェブマイニング(Web Mining)とは、Webサイトの構造やインターネット上の情報を利用し、統計学、パターン認識、人工知能等のデータ解析の技法により、膨大なデータを 網羅的に適用し、傾向やパターンなどの情報を取り出す技術である。セマンティック・ウェブの実現により、インターネット上の膨大な情報に対し、解析技術を 用いた情報抽出が可能になることが期待されている。

情報アーキテクチャー

情報アーキテクチャーとは、わかりやすさのデザインともいわれ、「利用者に情報をわかりやすく伝え、受け手が情報を探しやすくする」ための表現技術である。

情報アーキテクチャーを意識したWebサイトの構築する際は、デザイン性だけではなく、検索性や各コンテンツへのナビゲーションも考慮することが必要であ る。そのため、設計段階からこれらを意識し、構造化や最適化を行うべきである。こうした配慮によって、利用者にとって使い勝手の良いWebサイトの提供が 行える。

SEO対策

SEO(Search Engine Optimization:サーチエンジン最適化)対策と呼ばれる検索サイトでの上位表示をさせるための手法についても、その仕組みを理解し、情報アーキテクチャーを意識したWebサイト構築を行うことが望ましい。

インターネットにおける大手検索ポータルサイトのサーチエンジンでは、キーワードを上位に表示させるためには、利用されているクローラーに対象とされるようなサイト構造にしておく必要がある。

サーチエンジンは、Webサイトの構造から情報を収集し、情報の内容を判断して順位付けを行っている。そのため、サイト設計段階から、サイトの目的に応じた要素を分類し、構造化していくことが重要となる。

例題

次の文中の空欄[A][B]に入る最も適切な語句の組み合わせを下記の解答群から選べ。

クローラーは、「Web巡回プログラム」や「ロボット」と呼ばれるインターネット上の情報を検索するプログラムである。クローラー技術は、検索サービスに対してだけではなく、商品情報の収集や統計調査など、特定の目的のもと[A]で利用されている。

ブログ情報、商品情報などといった、求められる情報の性質に特化した検索サービスやモバイル端末向けの検索サービスも登場している。

今後、より的確な情報を得るために、自然言語による検索条件の指定に加え、セマンティック・ウェブやウェブマイニングなどを組み合わせた検索技術が求めら れる可能性がある。セマンティック・ウェブは、XMLにより記述された文書に[B]やOWLを用い、意味を記述したタグを付け加える。そのタグが文章の含 む意味を形式化することになる。将来、タグを付けていないインターネット上のコンテンツは、次第に検索結果の表示順位が低くなる可能性があり、SEOの観 点からも対応が迫られることも予想される。

[解答群]
①A:一般的分野 B:CSS
②A:専門的分野のみ B:RDF
③A:一般的分野 B:RDF
④A:専門的分野のみ B:CSS

[解答]
③A:一般的分野 B:RDF

※本ページの内容は掲載当時(2014年5月22日)のものです。