匿名掲示板などで噂の真贋を見分ける、あるいはブログで同じ話題を取り上げていても読んだり読み飛ばしたりする。こんな場合、無意識にその文体から判断を下している人が多いのではないか。
広辞苑(岩波書店)によると、「文体=文章のスタイル。語彙・語法・修辞など、いかにもその作者らしい文章表現上の特色」と解説している。
メール、BBS、ブログなど、仕事でも私用でもテキスト情報を発信する機会が増えるとともに、膨大な量のテキストデータがネット上に氾らんしている。この無尽蔵ともいえるデータ群から、いかに必要とする情報を探し出し、有用な情報に加工していくか。
主観的な意見、生活情報、旬な話題が多く含まれるブログから情報を収集し、解析・必要な情報を抽出する研究・開発が進められている。東京工業大学の奥村学氏が中心となって開発したblogWatcherというブログの収集と、そのテキストマイニングを行うツールがある。
ブログエントリの検索から、ある話題の注目度、キーワード評価など、様々な角度からマイニングを行っている。また、最新版では著者の性別の傾向分析も行えるようにした。
ブログの場合、著者プロフィールなど、年齢、性別、職業などの個人をある程度特定できる情報が多い。だが、blogWatcher 3ではプロフィール欄情報を用いることはしていない。
どうやって著者の性別などを判定しているのか、わかりやすい言葉で説明すると、冒頭の「文体」からでも様々な情報が抽出できるそうだ。なお、テキストから推定した属性情報は、定量的な分析レベルでのみ用い、個々のブログに特定した属性情報を付与することは避けるという考え方で研究を進めている。
ますます進化、多岐化する検索技術。最新動向とともに、その開発思想を下記のセッションで聴講していただきたい。
■PAGEデジタルメディアトラック C2「次世代Web検索」
2007年2月8日(木)13:00-15:00
・モデレータ=ゼノン・リミテッド・パートナーズ 神崎正英氏
・スピーカー=東京工業大学精密工学研究所 奥村学氏/チームラボ 猪子寿之氏
●検索された情報が新たな価値を生む。高度なデータマイニング技術を取り入れ、意見分析への活用が進む検索エンジン。次世代Web検索技術を採用したモデルの紹介など、次の時代の検索について議論する。
■PAGEデジタルメディアトラック C4「Web2.0時代のサイト構築」
2007年2月9日(金)10:00-12:00
・モデレータ=デジタルアドバンテージ 小川誉久氏
・スピーカー=キールネットワークス 加賀誠人氏/ナレッジオンデマンド 宮下知起氏
●リッチなWebアプリケーション、Web2.0時代のサイト構築に必要なポイントを技術視点で考察する。また、Windows VistaやInternet Explorer 7の特徴やサイト構築・運営への対応手段を紹介する。
■PAGEデジタルメディアトラック C6「クロスメディアの進化」
2007年2月9日(金)16:00-18:00
・モデレータ=インプレスホールディングス 田村明史氏
・スピーカー=デンソーウェーブ 柴田彰氏/NKB 伊東周晃氏/ゴルフダイジェスト・オンライン 田村信博氏
●Web、ケータイなどを積極的に活用して、プロモーションやビジネスを手掛けている事例から、企業がどのように仕掛けて、想定ターゲットに効果的にメッセージを送り届けるのか、クロスメディアの可能性を探る。
2007/01/27 00:00:00