【速報】ビジネス活用がすすむ次世代ウェブサービス
掲載日: 2009年02月17日
セマンティック技術(意味解析)は、日々進歩しており具体的なサービス事例も次々に生まれている。クロスメディア研究会では2月16日(月)、「ビジネス活用がすすむ次世代ウェブサービス~Web2.0からEnterprise2.0へ セマンティック・サービスの現状と未来~」と題して、180分にわたりセマンティック技術動向、日本語の意味解析技術についてtechセミナーを開催した。
講師はメタデータ株式会社 野村直之氏、株式会社日立システムアンドサービス 湯本正典氏、ナレッジワークス株式会社 亀山悦治氏、日本ユニシス株式会社 小林茂氏。
はじめに野村氏によるセマンティックサービス全般のイントロダクション。
シャーリーン・リー著「グランズウェル~ソーシャルテクノロジーによる企業戦略~」を例に挙げ、創造者(ブログの更新・ビデオのアップロードなど、自らメディアになりうるタイプ)がアメリカ13%に対して日本は22%もいる状況でありながら、収集者(RSS・タグなどの上手な利用により、貪欲に情報をかき集めるタイプ)はアメリカ15%に対し日本では6%しかおらず、このレイヤーの違いがソーシャルブックマークがいまひとつ流行らない理由であるとした。
セマンティックというものが注目される背景として、「ネット全体で成功したソーシャルは企業でも本当にうまくいくのか?」について触れた。ネット全体では数千万規模のユーザが見込める市場でありながら、エンタープライズ用途となると多くても数千程度であり、圧倒的に母数が違うことなどを挙げた。
いずれにしても、実際に利用シーンとしては、メタデータ活用によるエンタープライズサーチが想定されるが、ここでのタギングにおいて、自動的かつ整合性のとれたセマンティック技術が必須となるとした。
ここからは、湯本氏・亀山氏・小林氏による各国のセマンティック事例に移った。最初に湯本氏から「Twine」「Inform」「Evri」を紹介。
「Twine」はいわゆるパーソナライズドホームを提供するサービスだが、コンテンツを登録する際に自動的にタグがつけられるのが特徴。
「Inform」は検索結果において数種のサービスを自動的にアンカーするサービスで、グーグルニュースがブレンドサーチされたイメージか。キーワード解析にタクソノミーを利用している。
「Evri」はWeb上に掲載されている、コンテンツやニュースなどに登場する人・場所・モノなどを関連付けて表示する検索エンジン。日本の「SPYSEE」と似ている。
次に亀山氏による「hakia」「Powerset」「Zemanta」の紹介。
「hakia」は検索ワードの意味を解釈するセマンティック検索エンジン。司書やIT専門家の専門的な知識を生かした「信頼できるサイト」のコレクションから該当する検索結果が表示されるのも特徴。
「Powerset」も検索エンジンだが、単語による検索だけではなく、文章による質問形式で検索することが出来る。文章の内容を人工知能が理解し、知りたい事柄だけが検索できるのが特徴。例として「When was John Lennon born?(ジョン・レノンは何年に生まれたか?)」を検索すると、「Powerset」は検索クエリを自然言語解析するので答えとして「October 9, 1940」と返してくる。グーグルが検索キーワードに最も関連のあるページを提示してくれるのに対して、「Powerset」は情報そのものを提示してくれるという技術は、まさしくセマンティック的であり、次世代検索技術の方向性示していることについて期待できる、とした。
「Zemanta」は入力された記事の内容を解析し、関連画像・リンク・記事をウェブ上から探し出すサービス。入力情報に関連ある記事をウェブから探し出し、コンテンツを充実させることを手助けする。具体的にはブロガー向けプラグインとして提供されており、ブログを書く際に、書いた内容に応じて関連画像などを表示してくれる。日本語に対応していないものの、セマンティック技術がわかりやすい例であると説明。
そして小林氏による「faviki」「juice」「iMage」の紹介。
「faviki」はソーシャルブックマークサービス。タグが自動でつけられずWikipediaのインデックスから選ぶこと、多言語対応をDBpediaにより実現していることが特徴。タグ付けのゆれ(同義語の問題)を解決している。
「juice」はWebページ上で選択した領域に関する関連情報をサイドバーに表示するサービス。インテリジェント・ディスカバリ・エンジンということで自然言語解析によるサーチソースを切り替える(これをマジックと呼んでいる)。日本語対応が難しく、あまりマジックの恩恵に預かれないのは残念であるとした。
「iMage」はNTT情報流通プラットフォーム研究所、NTTソフトウェアによる共同研究。メタデータに注目した次世代Web流通エンジンである。メタ情報を大きなグラフとして表現し、構造に着目し、特徴的に現れるパターンが有用な知識であるとしたもの。具体的にはRDFパターンを抽出する技術をビジネスに結びつけようとしている。
再び野村氏に戻り、「TripIt!」「UpTake」の紹介。
「TripIt!」はオンライン予約の旅程表を1つにまとめるサービス。Eメールを解析することで5W1Hのパラメータを抽出する。
「UpTake」はWhatとWhereを入力したらお奨め訪問施設等を提案してくれるサービス。マッシュアップにセマンティック技術が載ったかたちとなっている。
次にセマンティック技術の実際として、「Mextractr」の説明とデモに移った。
「Mextractr」は、メタデータ株式会社が開発。テキストから5W1Hの記述(いつ、どこ、誰、何、どう、いくら etc)を抽出して活用できるサーバ・ソフトウェア。抽出した5W1H情報は、元文書のメタデータとして活用したり、マッシュアップにより、地図や組織図、カレンダー上に自動的に配置、登録可能。
日付や場所の数値や、予め登録した情報(上場会社の企業コードなど)を付加して配信可能であり、逆に個人情報、機密情報と認識して、その部分を隠蔽することも可能。
セマンティック技術の今後
様々な形式で、インターネット・イントラネット内に、意味付けされず散らばっている膨大なデジタルコンテンツを、情報を共有できる知識に変換するという課題。それを実現するのがメタデータ自動抽出エンジン等による自動タグ付け(セマンティック技術)である。Mextractr等のAPIの登場により、ユーザは直感的な条件指定により欲しい情報を欲しい形式で素早く得ることができる。日本はこれからであり、まだビジネスチャンスがあると結んだ。
「去年の暮れに隣の事業部の偉いサンが出してインパクトのあった10頁位のレポートを出しておいてね。」このクエリで、探したいドキュメントファイルを見つけられなければエンタープライズサーチを導入する意味がない。これは冒頭の野村氏のイントロダクションにおける発言だが、英語圏で質の高いセマンティック技術とサービスが展開されるなか、日本語の壁を越えることができたとき、次世代のウェブサービスとしてビジネスが拡大する…といった視野を広げてくれるセミナーであった。