検索結果表示とメタデータの有効活用

ゼノン・リミテッド・パートナーズ 代表 神崎 正英 氏

検索を考えるときにどんな視点があるのか整理をした上で,最新技術を使った検索を紹介したい。
まずユーザが何かを知りたいという欲望があり,それをキーワードなどの形で検索エンジンに伝えるという段階がある。この検索結果の出方がユーザにとってわかりやすいかが,1つのテーマになっている。
さらにユーザが検索結果を見た結果,それで満足できたのか,あるいは自分の知りたいことと違う新しいものを見いだして違う方向に動いていくのか,いろいろな展開があり得る。どんな付加価値が得られるかが,検索を考えていく上でのカギとなってくる。

検索の精度と再現率

それぞれ要件を整理してみたい。まず,実際に検索しようと思ったときに,どういう方法があるか。例えば項目別や予め指定されたキーワードを使って検索していく,いろいろなデータの全文に対して検索するなどが考えられる。どんなアクセスポイント(検索手段)を用意するかで,ユーザにとって検索エンジンが専門的で難しいか,使いやすくみえるかが違ってくる。
検索結果が使えるものか使えないものか,いい結果が出たかどうかを考えるときに,一般的には精度と再現率の2つの指標で評価されている。
精度とは,例えば印刷物の情報を効果的に受け渡す方法が,世の中にこれだけの情報が存在しているとする。それに対して,あるキーワードで検索を行った結果がBだ。Bには,いわゆるゴミと呼ばれる情報も含まれており,すべてが適合するとは限らない。
存在すると思われる適合情報Aと,返ってきた検索結果Bの2つの集合があるとして,その両方の共通部分が一番望ましい検索になる。検索結果のうち実際に使えるもの(B対Cの割合)が何割あるかを,検索の精度と呼んでいる。検索精度を高めていこうと絞っていけば,当然精度は高くなるが,今度は検索できたはずのものがカバーできない可能性が出てくる。
適合すると思われる全ての情報のうち,検索できた割合(A対Cの割合)を,再現率と呼んでいる。
検索結果は精度が高く,再現率も高い,つまりAが全部検索結果として返ってくればベストだが,それは難しい。一般的には,精度を高めようと思うと再現率は低くなる。そこで実際は,どちらかを高めようという形で検索エンジンをチューニングしていく。

検索結果の見せ方

さらに重要なのは,ユーザに対するプレゼンテーション,つまり検索結果の見せ方である。結果一覧を片っ端からクリックしないと情報かわからないのでは,あまり使いやすいとは言えない。検索結果を見ただけで,どんなものであるか,使えるかどうかを判断できるような情報が必要である。そのために必要なのが検索の識別,同定のためのメタデータである。
一般的な検索エンジンでは,検索結果のタイトル,キーワードに該当している部分の抄録という形で文章が出てきたりする。図書館などの検索では,タイトルに著者や出版日といった情報が加わる。
だが,一般的なWebのデータでは,作者は載っていないし,いつ作られた情報かもわからない。タイトルすら付いていない,Untitledという検索結果が出てくることもある。そのページが役に立つのかどうかは,ページを開いてみないとわからない。
メタデータを提供することは,検索だけでなく,検索結果をわかりやすくすることに対しても非常に重要になる。たくさんの検索結果が出てきたときに,それをどうやって扱いやすく並べるか。1,000件,2,000件という検索結果が出た場合,それらを全部見せるのは現実的ではない。
一般的なWebの検索エンジンでは,検索結果に重みを付けて並べ替える。再現率を高めつつ,重みが高いものを最初に見せることで,ある程度精度の高いような検索結果に見せる。日付順とか,ページランクなどランキングの高いものを順番に並べていく。これは順番に並べることで検索結果をわかりやすくする方法だが,一覧表以外にも地図上の表示とか,擬似三次元の方法を使い,重要なもの,関連のあるものをまとめて表示する方法もある。
検索結果を見た後のユーザ行動だが,ユーザは自分の知りたいことが最初から明確であるとは限らない。非常に精度の高い検索をしたつもりでも,ユーザの最初に与えた検索式がずれていると,ユーザが知りたいことを正しく表現できていないことがある。だが,それが必ずしも不要な結果とは限らない。一見関係ないと思うものを見て,実は「これが本当は欲しかったことだ」とか,「こんなアイデアもあるのか」という,新発見を得る使い方もある。
検索結果から連想を働かせて新しいキーワードをユーザに提供するとか,その検索結果を何かと組み合わせて,例えば地図の上に表示することで,新しい知識を得ることだって可能だ。こんなことも,検索をどう行い,結果をどのようにプレゼンテーションするかを考える上でのポイントになるのではないか。

全文検索と属性検索

一般的に,全文検索は再現率が非常に高いが,精度は低くなる傾向にある。また,全文検索を行うためには大きなリソースが必要だが,データベースの自動化がしやすく,大規模なシステムを作ることができる。
一方,属性検索は,うまく使えば精度が高い検索が可能だが,再現率が低くなる傾向がある。また,属性をきちんと与えるための自動化が難しく,属性を整備したデータベースを作るにはコストがかかる。
全文検索と属性検索という方法と,検索に使うキーワードが統制されているか,それともフリーキーワードかでマッピングしたのが図2である。例えば図書館の検索は分類用語が予め決められている。対極にあるのが,Web検索である。対象は全文であり,しかもフリーキーワードなので,どんな言葉でも検索できる。
最近出てきているフォークソノミーというのは,ある意味では属性を与えて検索するが,キーワードは統制されていなく,自由な形で皆が勝手に付けている。
これらはそれぞれ図示されたあたりで止まっているわけではない。例えば図書館的な書誌情報の検索において,アマゾンが「なか見!検索」を始めたように,全文検索を組み合わせる形で進化しようとしている。Web検索の中でも,例えばブログに入っている分類やカテゴリー検索の効率性を上げるため,新たな方向に向かっている。これらが融合していくところに,新しい検索の姿が考えられるのではないか。

SPARQL

コンテンツ作者に意識させずに,検索を効率的に行えるメタデータを自動的に提供できないか。また,いろいろなメタデータの相互利用をどうするかが重要課題になってくる。
相互利用を可能にするモデルとして役割が期待されているのが,RDF(Resource Description Framework)である。RDFでメタデータを表現すると,共通のクエリ言語で検索を行うことができる。
いろいろなコンテンツが持っているメタデータをRDFの形にマッピングして相互利用する方法について,簡単に説明したい。今,W3Cで検討を進めているのが,RDFで付与されたメタデータを共通に検索するためのSPARQLという言語である。
いわゆるデータベースのSQLと同じで,SELECTとかWHEREという形のSQL文を使い,これでWeb上のコンテンツを検索できるようにしようという考え方である。WHEREのパターンがRDFのトリプルを使うという形で,これがSPARQLの特徴的なものである。
SPARQLという共通のクエリ言語ができると,1つのクエリによって,複数のWebサービスを一括検索できるようになる。標準化されて初めて可能になるが,この標準化問題がセマンティック・Web系の検索界では今年の大きなテーマになってくる。
写真の検索というと,普通は写真全体についてしか検索ができない。だが,「この写真には誰が写っている,何が写っている」というメタデータを付けたとする。中身はただのRDF/XML文書だ。この情報から,誰が写真のどの部分に写っているのか検索でき,一部分だけを切り出して表示させることが,素人でもできる。
写真だけではない。例えばコンサート情報を想定してみる。現在はそれぞれ全然違う形式なので,横断検索するのは面倒である。だが,RDFでインターフェースだけを共有化することにより,例えば特定の演奏家が含まれているものだけを取り出せる。
メタデータをうまく付けておくと,いろいろな人がばらばらに持っているデータでも,1つのインターフェースを使って共通に調べることができる。データを提供する側としては,対応するインターフェースをこれから整備していくことが,おもしろい可能性を開いていくきっかけになるのではないか。

PAGE2006 C2「検索技術が創造する新たなコンテンツ」より(文責編集)

会報「VEHICLE」2006年5月号 Vol.18 No.2通巻206号
(C)Japan Association of Graphic Arts Technology