検索技術が創造する新たなコンテンツ--パネルディスカッション

ゼノン・リミテッド・パートナーズ 代表 神崎 正英 氏
NTTレゾナント株式会社 ポータル事業本部 メディア事業部担当部長 小澤 英昭 氏
国立情報学研究所 情報学資源研究センター長/教授 高野 明彦 氏

単なるツールから,人々の行動を手助けする行動支援メディアへ変貌を遂げようとしている検索サービス.セマンティックWebの普及に尽力する,ゼノン・リミテッド・パートナーズの神崎氏をはじめ,人の創造力を刺激する連想検索など,検索関連の最先端技術を提供し続ける,国立情報学研究所の高野明彦・情報学資源研究センター長,「goo」をより進化させ,高度な日本語検索を追求するNTTレゾナントの小澤氏がWeb2.0時代の検索技術について議論した.
PAGE2006コンファレンス「検索技術が創造する新たなコンテンツ」(2006年2月2日開催)のパネルディスカッションを要約し,検索技術の最新動向の一端を紹介する.

検索に引っかける仕組みとスパム排除

神崎氏:非常に面白い形でgooが新しい検索に取り組んでいる.Web文書から住所を抽出して緯度経度を付与する話は,特派員ではなく,一般的なWebでやっているのか.

小澤氏:そうである.

神崎氏:検索を考えるとき,コンテンツ提供者は,どんな出し方をすると利用されるかという視点が必要になってくる.そこで,検索エンジンとしては,どんなコンテンツが使いやすいかを聞きたい.

小澤氏:現状では検索に引っかかりやすくしたがる人と,それを排除しようとする技術との戦いになっている.「こうやると良くなる」と具体的に言うと,そのままスパムになってしまう可能性がある.
ただ,住所,商品の値段や型番など,ある程度ファクトになるデータをきちんと表形式で分析しやすくしておけば,それだけでも非常にインデックス化しやすいだろう.一方,検索サービスの方からフォーマットを提供して,それに入れてもらう方法が,比較の仕組みを作る上では現実的ではないか.両方の組み合わせだと思っている.

神崎氏:表にするという話があったが,例えばHTMLのテーブルにするだけでもかなり違いがあるのか.

小澤氏:単純にbrタグでいろいろなものを羅列してくるところもあるが,そうすると,最初からはじいてしまう.きちんとテーブルタグになっているだけでも,だいぶ違う.

神崎氏:高野氏に聞きたい.連想検索とかデュアルとか,そういう技術をユーザのコンテンツにうまく適用して,スパムを排除しながら使えるキーワードを抽出することはできるのか.

高野氏:連想検索は今のところWebでやっていない.100万,200万の規模で実験的にやってみたが,連想のキーとなっているのは,かなりクリアな,人間が解釈可能な文脈を,その文書がきちんと持っているかどうかである.
普通のWeb文書はリンク集のようなものが多くて,部分は何か意味ある文脈を持っているが,全体となると支離滅裂になっているものが多い.そういうものを集めて,要約グラフを書いてみると,確かに支離滅裂なものが見つかったことはわかる.だが,ある意味の絞り込みとか,人間の頭で理解していく形までにならない点が限界である.

中途半端なメタデータの弊害

神崎氏:ブログの特派員の話で,キーワードを決めておくといいが,なかなかそうはいかない話があった.その部分で,高野氏の連想とか,ここがキーワードだとわかっていても全然統制されていない状態を活かしていく方向はどうなのか.

高野氏:連想は,基本的に一切統制しない.メタデータいらずと言っている.現在稼動中の書誌検索サービスでも,メタデータがないと使えないように見えるが,そうではない.タグを外すくらいのことはしているが,メタデータの構造はまるっきり無視して,フラットなテキストとして扱っている.
メタデータは,実は構造など忘れた方が面白いということが,我々の知見である.Webcat Plusは,普通,分類を付けるが,その項目は一切インデックスから外して,それ以外でやろうとしているくらいである.
私は,中途半端なメタデータを信用する弊害の方が多いのではないかと思っている.むしろ,人間が自由に書いたもののゆらぎを楽しむ.表記も,若干の異表記なら,周りの言葉できちんとつながるはずだ.連想のインタラクションを回すことで,その辺が回復できると考えている.

神崎氏:文書の中で,「私はこの単語を強調したい」という重みを付けることがよくある.そういうものも敢えて排除して完全に均一化しているということか.

高野氏:データベースの中に単語が何回表れたかで正規化することが,自動的に計量の中に入っている.
スパムをやるなら,同じ言葉を100回くらい書けば,少しは重くなる.しかし,その言葉が一般的な言葉であれば,100回くらいではびくともしない.

神崎氏:小澤氏に聞くが,重み付けというのはWeb文書の中ではそれなりに使われているのか.

小澤氏:重み付けというか,まずどんな言葉が重要かは,Webの文書は非常に量が多く,人が付けたものに頼るのは難しい.そこで,自動的にTFIDFという,ある文書に特徴的な単語を重くすることをしている.
さらに,gooではもう1つ,ブログのようなものなら誰が書いたのか,書いた人が重要な人なら,その重要性を加味していく.そこにキーワードが付いていても,他人と意見が合わないキーワードか,他人と同じキーワードを違う言葉で使っているかもしれない.意味があるかどうかわからないかもしれないが,人のレベルも利用しながら重みを変えていった方が,より現実的なサービスが作れるのではないか.研究ではないので,サービスとして良ければとしか考えていない.厳密性に関しては何とも言えない.

検索サービスの社会的役割

神崎氏:セマンティックWebというと,真面目にタグを付けなければいけないと思われがちだが,実はあまりそうではない.最終的に抽出した結果が,お互い共有するインターフェイスとして使えると便利だというくらいの話である.実際の検索サービスを設計している人からの意見として,非常に貴重な話だと思う. それでは会場から質問を受けたい.

質問:例えば,自分たちのコンテンツを役立てるために,メタタグを付ける.あるいは,人の役に立つ文書を書くということもあるのだろう.一方,企業の中でこういう仕掛けを使おうと思ったとき,高野氏のような仕掛けに対して反応はたくさん来る.しかし,それに値段を付けて買ってくれない.それは技術の性質が違うのか,プロモーションが失敗しているのか.

小澤氏:似たようなことはgooでも考えている.例えば,ブログのところに検索があるが,ここに類似文書検索がある.これは検索を行った文書に類似するような記事は何かと,この記事の内容を使って順次検索していく.連想検索ほどのものではないが,概念的には似たようなサービスを作っている.
多分,技術というのはアプローチの問題で,高野氏のように全文書間の関係を使うのと,単語を抽出して,その単語に対して固有表現とか特徴的なものに特別な重みを振る,どちらかというと知識ベース型でやっても,サービスは似てくるのではないか.あとは現実的にどんなサービスに使うのか,イメージしている人が作れるレベルなのか.作れなくて,誰かが作ったものを持ってこなければいけないのか.
その技術がなければ似たようなことができないわけでは必ずしもない.要は金額と,どこまでそれがなければできないかのトレードオフなのではないか.

高野氏:企業ユーザに売ろうとしたときは,企業の人はその企業独自の情報が,非常に価値があるものがあるという前提で話している.だが,普通はあまりない.少なくとも,検索が必要であるほどのスケールはない.
それが本当に役に立つとすると,外の情報と結びついて初めて役に立つ.しかし,外の情報と結びつく仕掛けをうまく見せられているところがない.そこを今後やっていきたい.
自分が抱えていて他に見せないデータベースを,世の中ではっきり見えているデータベース,あるいは有料のデータベースなどと組み合わせる.それらと関連付けながら使えないと,多分,経営者が思うほど価値のある情報になっていないし,どんな技術を入れても役に立たないというのが現状ではないか.

質問:高野先生に聞きたい.Webcat Plusも何回か拝見したが,どういう利用シーンにおいてなら,この技術がおもしろそうだと考えているのか.

高野氏:何でもいけるとは思っているが,コンテンツを持っている人が発信するのを楽しめるかどうかということがある.新聞などは非常にうまくいくが,新聞社はいろいろな理由で,ここには出すがあそこには出さないとかいうことがよくある.コピー問題にしても,丸ごとコピーされないようにするのは,今の技術ではそれほど難しいことではないと思う.そういう点を説得するという,社会的な活動が重要だと思う.
「ITは,役に立って売上につながればうれしいが,どうか」と,結構懐疑的な集団をうまく口説けたというのは,少し自信になっている.そうすると,他の会社も,「一緒に何かやれないか」と話をしてくる感じになっている.
本当に価値のあるものを守ってきた人たちに,何とか出てきてもらいたいと思う.持っているデータの価値が明らかに高くて,インターネット上にまだ出てきていないものを優先的に口説こうと思っている.それが私の立場での使命ではないかと思っている.

神崎氏:検索とは技術だけでなく,そういう社会的な面も含まれてくるようだ.今年は検索についていろいろ新しい発展がありそうな,面白い年になると思う.今日のセッションを何かの参考にしてもらえたら幸いである.

PAGE2006 C2「検索技術が創造する新たなコンテンツ」より(文責編集)

会報「VEHICLE」2006年5月号 Vol.18 No.2通巻206号
(C)Japan Association of Graphic Arts Technology