マルチメディア情報検索技術とその応用

本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会（JAGAT）サイトをご確認ください。

マルチメディア情報検索技術とその応用

株式会社富士通研究所ＩＴメディア研究所主席研究員　長田　茂美氏

マルチメディア情報検索技術とその応用

2002年7月のテキスト＆グラフィックス研究会ミーティングから，株式会社富士通研究所の長田茂美氏による同社のマルチメディア情報検索技術の解説を報告する。

インターネット、WWWにおいて、自分の欲しい情報を探したいとき、通常はキーワードを入力し、テキスト検索エンジンを使っているが、自分の欲しい情報かどうかは、返ってくるURLをいちいち開いて探すしかない。富士通では、画像を手がかりに探索を効率的におこなう、マルチメディア情報検索技術の研究を進め、検索システムを開発している。

システムの概略

ユーザが「バッグ」というキーワードで情報を探したいとき、「バッグ」と入力すると、Webロボットがインターネット上のWebページを探して回り、「バッグ」に関連した画像と、画像を説明するテキストをペアの形で収集してくる。さらに、収集した画像から特徴を抽出して、その画像の特徴が似たものが近くに集まるように、3次元空間上に配置する。

ユーザは多くの画像が配置された3次元空間上をウォークスルー、フライスルーしながら、自分が欲しいバッグを視覚的に探索し、最終的に自分が欲しいバッグにたどり着くというのが、大きな流れになっている。また、関連テキストから文書としての特徴を抽出し、テキストの特徴が似たものが近くになるように配置して、それで探すこともできる。

情報収集と分類配置の方法

情報収集には、キーワードを入力する方法と、起点となるURLを入力し、そこからリンクされているWebページの中から探していく方法とがある。収集したものからテキスト特徴と画像特徴を抽出し、3次元空間上に配置する。特徴というのは多次元の特徴ベクトルで表現されるが、N次元の空間を表示することはできないので、それをニューラルネットワークの1つの手法である自己組織化マップの手法を用いて、N次元特徴空間のトポロジーを保存した形で2次元の空間に落とす。そうすると、似ているものは、この空間上で近くに配置される。

画像の特徴は、どういう色がどれくらい画像上に存在しているかという色のヒストグラムと、画像中の対象物の形状やテクスチャ特徴をあらわすウェーブレット変換係数という2つの画像特徴を用いている。

画像の配置は、ニューラルネットワークの競合学習と言う方法で、特徴の似た画像が近くに集まるように配置する。そして配置した空間をウォークスルーしたり、特徴によってこれを再配置して、いろいろな観点から見たり、何らかのキーワードをさらに追加して、そのキーワードにフィットしたものが前面に出てくるという検索の支援機能により、最終的にこれだと思うものをクリックすると、目的の情報が得られるという仕組みになっている。

インタラクティブに3次元空間上をウォークスルーする仕掛けは、高速にズームができるように、多重解像度の画像を持っている。実際には3段階のサムネイル化した画像を持っていて、視点からの距離に応じてうまく切り替えてインタラクティブな3次元空間上のウォークスルーを高速にできるような手法を用いている。

技術的なポイントは、一つはWebロボットによる情報収集である。二点目は類似性に基づく情報の分類配置ということで、画像なりテキストの特徴に基づいて情報を3次元空間上に似たものが近くなるように分類配置する。そして3次元空間内をウォークスルーしたり、いろいろな観点から情報を再配置することによってインタラクティブに効率的に情報を探索することができる。

応用例と発展の可能性

仮想の電子博物館とか電子美術館に使う事が可能である。色、形状、年代といったさまざまな観点によって、仮想空間上にサムネイル画像を配置し、フライスルーしながら欲しい情報を閲覧することができる。

また、ビジネス文書検索も可能である。PowerPointの文書等をあるフォルダにしまっておき、フォルダをクリックした時点で全ファイルの特徴を抽出し、似たようなものが近くになるように空間上にサムネイル画像を配置する。空間上をウォークスルーしながら、いちいちファイルを開かなくてもスライドの画像を閲覧することが出来、また情報の再配置により、欲しい文書をインタラクティブに効率的に探すことができる。

人物検索システムも可能である。人事管理とか、ある人物を照会するために、顔画像とその人の何らかの情報をペアで保存しておき、自分が欲しい人材を探すとか、あるいは、何らかのプロジェクトを組むときにそのメンバーとして最適な人を探していくとか、そういった適用の仕方もある。

画像から映像へ

映像検索へ発展することも可能である。複数の映像があると、その中から自分が見たい映像の見たいシーンを探すというような状況は、これからかなり増えてくると思う。通常の映像では早送りしたり、何らかの頭出しを行う必要があり、意外と手間がかかる。このシステムでは、あるフォルダの中にいくつか映像ファイルがあって、その映像ファイルの各シーンを螺旋状に表示に表示している。すべてのシーンを眺めながら目的の映像を探すことができる。見たい映像が決まったら、例えばここをクリックすると、今選択した映像の中の細かいシーンの一覧が表示される。

eラーニングへの適用

Webベースのトレーニングが普及しつつある。たとえば英会話を勉強したいという場面を想定して、自分の学習目的に合った教材映像を探すということも可能である。英語の中の小分類の項目が表示されているとき日常会話を選択すると、日常会話の映像の各シーンが螺旋状に表示され、ユーザはこのシーンを見たいということで選択する。そうすると、フィルムのように映像の中のシーンを一定時間ごとに区切った画像が表示される。この3次元空間上をユーザが移動することにより、その映像の内容を大体概観することができる。

検索から発見（イメージマイニング）

データマイニングはいろいろ試みられているが、数値の集まりから何らかの知識を発見するものである。それに画像の視覚的な特徴も盛り込んだ形で知識を発見しようという試みをおこなっている。例えば地域別の売上や年齢別の売上、価格といった商品別の販売データがあり、その商品の画像がペアでデータベースとして格納されているというとき、この商品別販売データを多次元のベクトルで数値として表現し、多次元空間上に配置する。

仮に大阪に住む20代前半の女性によく売れているバッグというデータが集まったとし、その画像を配置してみると、ベージュ系のものが人気があるとか、手提げが若干長めのものが売れているなど、売れているバッグの外観上の特徴が認識できる。人間の画像認識能力を積極的に利用して知識を発見していこうというアプローチである。

製品化の状況

これらの検索機能はクロスメディア検索サービスMIRADOR-Searchという、コンテンツホルダ向けのサービス製品として、富士通から提供されている。

また、検索機能を利用したパソコン用の画像検索ソフトが製品化されている。最近、デジカメが非常に普及しているが、それを管理閲覧するソフト、整理するためのソフトが「みよう絵」という名前で、富士通大分ソフトウエアラボラトリから製品化されている。シェアウエアとして販売しており、20日間無料で試すことができる。

また、オンラインショッピングでの商品検索では、ニフティのShopping@niftyで商品画像を一覧検索するサービスを実際に提供している。

（テキスト＆グラフィックス研究会）

■出典：JAGATinfo 2002年9月号

2002/08/28 00:00:00

公益社団法人日本印刷技術協会