本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。

インターネットから社会の関心、意見を収集・分析する

東京工業大学 精密工学研究所 助教授・工学博士 奥村 学 氏


東工大で開発したblogWatcherというシステムの話を中心に、ブログというコンテンツを対象にして、ある種の言語処理をかけるとどういうことができるようになってきているのか、ということについて紹介する。

ブログというターゲットがなぜおもしろいのか

東工大の私の研究所では、もともとは言語処理と言われる、計算機でテキストとか言葉を扱う技術をずっと研究してきた。ここ10年ほどはWebを対象にした研究をしていたが、3、4年前に我々のシステムを開発するという経緯でブログというおもしろい題材に出会ったのである。

では、なぜブログというターゲットがおもしろいのか。
まず第1に、Technoratiがセールストークに必ず使っているように、ブログというコンテンツは非常にリアルタイム性に富んだコンテンツだということ。この時間、今というのは大げさにしても、今日、世の中の人がどういうようなことに関心を持っているのかという意味で、比較的今を知ることができる点がおもしろい特徴だと言われている。

次に、ブログはいわゆる時系列データであるということ。ブログは書かれた日付、具体的に言うとタイムスタンプが付いているので、時系列のデータを含んだテキストになっており、時系列的な動向を見ることが非常に容易である。これはWeb上のコンテンツでは非常に特別である。もちろん、ブログに限らず、掲示板のデータとかチャット等、ログになればタイムスタンプが付くので時系列のデータになるが、時系列というのは普通のWebページに比べると大きな特徴である。したがって、動向分析が容易にできるようになる。

3つ目は、ブログは一般の個人が書いたものなので、他者が何を思っているのかということを知るときの重要な手がかりになるということ。人の意見を見るということと、世の中の人の行動や経験を知ることができるというところがおもしろいところではないか。また、人と人とのつながりのようなものを、リンクなりコメントなりのメタ情報で持つことができるので、日記のような一方向のメディアではなく、双方向性が入ってきているというところが大きな特徴である。

使い古された言葉になったが、Web2.0的に言うとブログは比較的注目を集めているし、基本的にみんなが何を思っているのかということが書かれているので、ある種の分析をかければビジネスにつながる情報が手に入るのではないかという期待がある。

ブログに対してどういうことができるのか

次に、ブログに対してどういうことができるのかという概論の話をする。
言うまでもないことだが、いわゆるCGMの1つとしてのブログが注目されているのは、企業側からすると一般の人の情報がうまくフィードバックされてくることを期待しているためである。

もう1つあるのは、メディアになりうるということである。一般の人が書いているものをうまく集めて加工して、ある種のポータルのようなものを作ることが、ひょっとするとメディアになりうるのではないかということを言う人もいる。

いわゆるマーケティングに利用するということと、Web上の新たなメディア、ポータルのようなものを考えるという大きく2つの方向が、ブログにおいては考えられる。 ここで紹介するのは、その前者のほうで、我々が開発しているブログマイニングの技術が、ビジネスでどう使えるのかということである。

たとえば、これは我々がやっているのではないが、我々が話をしている企業側が言っていることで、

など、さまざまな使い道があるだろうということである。

ブログマイニングの技術の現状と今後

それでは、ブログに対して何ができるようになってきているのか、ブログマイニングの技術の現状と今後について紹介をする。

ブログマイニング技術の現状
まず、現在利用しているブログマイニングの要素技術は図1の通りである。

Authority分析というのは、いわゆるGoogle系のリンクをベースにしたランキングアルゴリズムで有名になったものである。基本的に「リンクされているページは重要だ」という概念があるので、収集してきたブログの中でリンクの数を数え、ある特定のニュースとかある特定の商品がどれくらいリンクされているのかということで、そのものなりニュースのランキングができる。いわゆる、注目度が測れるという技術である。

トレンド分析というのは、いわゆる動向分析で、どういうキーワード、話題がどういう時期に盛り上がっているのかを分析する技術である。ブログは時系列の情報を持っているので、大量のテキストを集めておけば、非常に単純に単語の頻度を数えるだけでも、どういう単語がたくさん出てきているかがわかる。

評判分析は、ブログの中で、「どこの何というラーメンはおいしい」とか、「どこの店はいまいちだった」というようなことが書かれているものをうまく集めてくると、そういうものに対する世の中の評価の集約ができるという話である。

コミュニティ抽出というのは、いわゆる双方向性をうまく利用するというものである。世の中にブログは非常にたくさんあるが、うまくつながっている、まとまりのある部分を見つけてきてあげるのが、コミュニティ抽出である。基本的にはブログ全体の中のある一部分をうまく切り取る。例えばアニメが好きな人たちとか、おいしいものが好きな人たちというような形の、ある関心でblogのサブセットを切り取るというときに使う技術と言われている。これはSNSが出てきたことでさらに注目を集めている部分である。SNSでもこの手の技術は同じように使える。

今後期待されるブログマイニング技術
今後重要になってくると思われる技術には属性推定や実世界の動向との相関分析などがある。知名度とかビジネスとしての出てき方はまだまだだが、今後は期待されるものである。

属性推定は、テキストの中身から、ブログを書いている人が女性か男性か、年齢はどれくらいか、職業は何か、住んでいるところはどこかといったことを当てるというような技術である。トレンド分析や評判分析などの技術と組み合わせることで、たとえば「若い女性に人気があるお店」を見つけることができるようになる。トレンド分析とか評判分析では、ブログの全体を集めてきて、その中での盛り上がりとか評判を見るというだけであったが、世の中にはさまざまな人がいて、さまざまな意見を述べているので、その人の属性によって、評判なり関心を分けてあげることができるといいのではないかということである。

マーケティング分析では、20代の女性というように、年齢と性別で世の中の人を括って分析に利用するが、ブログでそういうことをやるには、ブログを書いている人がどういう人なのかということを知る必要がある。プロフィールを使うという話もあるが、昨今、個人情報のケアとかプライバシーの問題もあるので、使えるかどうかというのは議論のある部分である。したがって、テキストの中身からブログを書いている人の性別や年齢を推定しようということである。

次の、実世界の動向との相関分析というのは、トレンド分析とか評判分析で、ブログの中でのあるものに対する評価とか関心が取り出せるので、それが実際の売上とどのような相関があるのかとか、売上、株価のようなリアルの世界で変動しているものと、バーチャルの世界のブログでの動向が、どれくらい対応するのかを調べようというものである。単に調べるだけではなく、最終的に考えているのは、バーチャルの世界の動向から、リアルの世界の動向がうまく予測できるようにしたいということである。

それ以外にもトピック分類とかSpam filteringなどさまざまなものがあるが、まだ研究途上の話なので、ここではこれくらいにしておく。

blogWatcherでのブログマイニング

ではこれから、東工大のblogWatcherを例に、ブログマイニング技術を利用したWebサイトで、実際どのようなことを行うことができるのかを見ていくわけだが、まず最初にblogWatcherとの比較も含めて、世界最大のブログマイニングのWebサイトであるTechnoratiに少し触れておく。

Technoratiは、2002年11月にサービスを開始し、2005年には日本版のテクノラティジャパンもスタートしている。Technoratiのおもしろいところとしては、Authority分析である。ニュースや、アマゾンの本や映画、また他のブログからどれくらいリンクが飛んでいるのかをランキングにして出すことで、いわゆる人気度のようなものが見られる。これは時系列で変化するので、当然、今日の人気と一週間前の人気が変わるところがおもしろい。非常に単純な技術だが、こういうものが出せるので、おもしろいことができる。

Technoratiはリンクの処理だけで頑張っているが、blogWatcherでは少し方向性を変えて、これに言語処理を入れることで何か他のことができないかということを研究している。Technoratiは、アメリカの場合は選挙の世論調査のようなことを実際に始めているという話もある。

blogWatcherの開発と特徴について
blogWatcherは、平成15年度の1年間をかけて開発したものを、2004年8月に公開したのが最初である。開発している当時は、まだブログという言葉が流行る前で、むしろWeb日記のようなものがかなり大きな割合を占めていた。その頃から研究を始めて今日に至っている。

先ほど紹介したブログのマイニングの技術を幾つか、トレンド分析や評判分析などを実装している。また、ニュース等のマスメディアと、ブログという一般の人のメディア間のマッピングを自動で取るような技術も開発している。

もともと、ニュースならリンクを張ればそれで済むが、実際はリンクを張っている人ばかりではない。ニュースに対して言及しているが、リンクがないような場合も多々ある。そこで、どの程度ニュースに対して言及しているブログがあるのかを取り出すということを実現するような技術も使っている。そうすると、逆にニュース側からブログの中でどういう意見が書かれているかを見ることができる。

blogWatcherのシステムの概要
blogWatcherのシステムについて説明していく。 まず、あるキーワードを入力すると、左半分に普通の検索結果が出て、右半分に分析結果を出すところが特徴的な部分である。バースト検索と評判情報検索のグラフが表示される。

バースト検索は、話題の盛り上がりを測るものである。たとえば「iPod」というキーワードで検索すると、キーワードの出現頻度の棒グラフで表示される。そして、話題の盛り上がりを我々の指標で測ったときのグラフが、赤の折れ線グラフで表示される。赤が立ち上がっているところで、このキーワードが盛り上がっているというふうに判断している。

バースト検索の下には評判情報検索のグラフが表示され、評判の推移が赤とブルーで表示される。

バースト検索
バースト検索の話題の盛り上がりというのは、たとえば「オリンピック」というキーワードでバースト検索を実行すると、1998年、2000年、2002年、2004年と、オリンピックが開催される時期に赤の折れ線グラフがきれいに立ち上がるのがわかる。

評判情報検索
評判情報検索での我々の評判の取り方は、「iPod」で検索した結果、「iPodは音が悪い」の「iPodは」「音が」「悪い」という3つの組で、「iPod」に対してどういう性質のところでどういう評価をしているのかという3つの組を取り出して、その評価がいい評価なのか悪い評価なのかを分類している。この場合は、ブルーの色が着いているのはネガティブ、否定的と判断していることがわかる。

メタブログ
blogWatcherには、話題の盛り上がりで、キーワードでいつ盛り上がっているかを知るほかに、ある日付でどういう話題が盛り上がっているかということを見ることができるメタブログという機能がある。これは、いわゆるプッシュ型で、キーワードで検索するのではなく、ここのページを見ていると、今どういうことが話題になっているのかということを知ることもできるようになっている。

blogWatcherでの評判の取り出し方
ではblogWatcherでは、どうやって評判を取り出しているのかということについて、言語処理の知識が必要になるので、その概要だけを簡単に紹介しておく。基本的な流れは次のようになる。

1. Chasenによる形態素解析
  ↓
2. Cabochaによる係り受け解析
  ↓
3. 対象-属性-評価表現候補の3つ組を抽出
  ↓
4. 3つ組分類(positive/negative/neutral)

まず、言語処理では、日本語はテキストが単語に区切られていないので、単語に区切るという処理をしなければいけない。それを行うのが、最初の形態素解析という処理である。 次に、日本語にも文法があるので、どの単語はどの単語を修飾しているという情報を取り出す。それによって、どの単語とどの単語が関係あるかということがわかるので、その情報をベースに、どのものに対してどういう性質でどういう評価をしているのかという、「iPodは音が悪い」というものを取り出すということをしている。

そのあとで、取り出したものが良い評価なのか、悪い評価なのか、あるいは実際には評価ではないのかということを分類している。分類するというとき、普通は辞書を書いて、たとえば「悪い」なら否定的というように分類するのが一般的である。1単語でやる場合はそれでできるが、3つ組で分類しようとすると、辞書を書くというのは現実的ではないので、人工知能の1つの技術である機械学習という技術を使う。人間が1,000単語の辞書を用意すると、その後、機械が自動的に学習して、大体60万程度の3つ組に対して辞書を作ってくれる。そういうことが人工知能の技術である機械学習を使うとできる。

そういう技術を使って、辞書の中身としては40万程度のものを機械的に作り、その辞書が機械に載っている。もちろん、100%はうまくいかないので、80%程度の精度しか出ないが、そういうものを作ることで現実のシステムは動くようになっている。

blogWatcherの現バージョン3.0について
blogWatcherは、ほぼ毎年バージョンを上げているので、現状のシステムには幾つかの新しい機能が付いている。

非常に単純だが、比較的評判のいいのが、Versus Searchという、いわゆるライバルのキーワードを出してくれるというものである。たとえば、「iPod」と入れると、音楽系の機器、「ウォークマン」のようなものがライバルとして出てくる。「Wii」のようなゲーム機なら、その対抗機種が候補として出てくるという機能である。

これはライバルを出すためだけにやっているのではなく、本来、評判とかトレンドというのは1つの関心があるキーワードで見ることも当然あるが、比較したいものを見比べるというのは結構おもしろいと思う。そういうことを支援するための機能としてこういうものをやっている。

また、ブログは日記なので、人の行動が分析できるとおもしろいと思って、少し始めている。評判を取り出す以外に、その人が何をしたということが書かれている部分だけを取り出して、ここからはお遊びに近いが、その実際の行動が朝行われたのか、昼行われたのか、夕方だったのか、夜だったのか、その行動を行った時間帯を特定するということをやっている。

そうすると、どういう行動をどういう時間帯にやっている人が多いのかという分析もできるようになる。これだけが行動分析ではないと思うが、書かれたものの中で着目すべきところがブログの中にはいろいろあると思うので、そういうことを分析することが今後もできるようになると思う。また、性別の推定のようなこともやっている。

blogWatcherの今後
blogWatcherは今後も開発を続け、年に1回のバージョンアップを目標に開発を進めている。まだ予想しかできないが、評判をより良くするとか、今は性別しか出ていないが、年齢を当てるというようなことをやっていきたい。

また、ブログは一般の人が書いているので、あまり情報のないブログから非常に優良なコンテンツを書いているブログまでさまざまである。そこで、ブログの重要性とか信頼性とか、情報のあり、なしのようなものを測るということも現在やっている。それを使ったランキングなどもやっていきたい。

テクニカルなことは、blogWatcherのヘルプに載せているので、関心のある人はこれを見てもらいたい。

2007年2月8日PAGE2007コンファレンス「C2 次世代Web検索」より(文責編集)


会報「VEHICLE」2007年4月号 Vol.19 No.1通巻217号

会報ページへ

2007/08/15 00:00:00


公益社団法人日本印刷技術協会