本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。

自分で自分の欠陥を補う技術

電子文書の初期の議論を思い出してみよう。SGMLは構造化文書が扱える方法として、大規模な文書をメンテナンスする分野で主流となった。逆にその都度勝手に作られる構造のないものは苦手といわれた。一方AdobeのJohn Warnockは、PDFは図版が多いなどグラフィック系のページで構造化しにくいものが得意だといった。コンピュータで情報を扱う上ではいつも構造と非構造は議論されてきた。

WEBサイトの作り方でも企業からするとビジネスの構造に沿った作りを考え、トップページで概要を示した後は、事業部/商品群/商品説明/商品の構成要素、という構造でまとめることが多く、CMSパッケージもそんな作りとなっている。これは理屈にあっているが、情報の利用者からすると企業の一方的な考えであるともいえる。

例えば帽子とシャツとパンツと靴をコーディネートして買おうとすると、商品別の表示ではなく買う人の意向に沿った組み合わせの提示が必要になる。商品間の関連はさまざまな文脈に基づいていて、年齢層別、性別、嗜好別、目的別、学生・社会人・収入‥などがある。つまり商品を作る側の構造では、文脈に沿ったお勧めということはなかなかできない。

今日、非構造的なデータをたぐるにはロボット型検索エンジンが全文検索してインデキシングするような力任せの方法が使われるが、データの管理をXML化してメタデータで対象を絞り込むことが始まっている。それでもメタデータのつけ方が人手によるものだと人の解釈の差によって必要な情報を取りこぼすか、必要以上に拾ってしまう。

人間の解釈の差を越えるためには、辞書的な処理で解釈の関連付けをするアルゴリズムが必要になる。こうすれば日本語で検索しても英語の情報にヒットすることもできる。お勧めというのもそういうアルゴリズムで実現しやすくなる。XMLからセマンティックWEBへ、というのはそのような発展であり、最初の出発点であった構造化文書の苦手なところをカバーする方向で開発が進んでいることがわかる。

とはいっても最初から理想的なものができるのではなく、かな漢字変換が20数年前はダメだといわれたのが、辞書の充実によって日常使用されるようになったのと似ていて、魔法のアルゴリズムによるのではなく、利用の積み重ねで実用に耐えるものになるのだろう。

通信&メディア研究会会報198号」より

2005/10/08 00:00:00


公益社団法人日本印刷技術協会