本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。

XMLの利用目的自身が進化する

WEBが普及した理由のひとつにネット上のロボットによる膨大なテキストデータの検索の発達があり、ポピュラーなキーワードの単純な検索に関しては相当量の情報が容易に得られるようになった。しかし少し複雑な検索になるとand/orの論理演算だけでは絞りきれなくて、途方もない数の結果が出てしまう。しかしこれはテキスト検索なら当然起こることで、WEBの責任ではない。

だがHTMLがSGMLからヒントを得て作られた過程を考えると、このままで技術が凍結されるはずはなく、SGMLが目指していたようなコンピュータによる「意味的処理」、つまりコンピュータが文章の意味をも解釈して必要な処理を行うような技術開発が求めらることになる。それがXMLが生まれた背景でもある。

しかしXMLに最初からそのような応用を期待するのは無理があり、現在は出版・印刷関係では特定のシステムのデータ管理やタグづけ規則に縛られないでコンテンツを使いまわすためにXMLが使われたり、異機種間のデータ交換のために使われたりしている。今日のXMLツールというのはそのような標準データを作ったり変換するためにあるともいえる。

今XMLの利用を検討しているところは、上記のような当面の必要性があるのだろうが、XMLをとりまく環境はそのようになところに留まるものではない。まずマイクロソフトOfficeなどでXMLが使われだすことの影響があるだろうし、その先はW3Cで進められているセマンティックWEBのような進展があるだろう。

実際にセマンティックWEBのとうりに世の中が動いていくかどうかはわからないが、考え方としてはWEB情報を人間が読んで、人間が理解して、人間が操作するのではなく、それらをソフトウェア化することで自動処理させる方向であることは間違いは無い。

WEBの発明者であるTim Berners-Lee がセマンティックWEBのアーキテクチャをW3Cのサイトで説明しているが、XMLの文法の上にメタデータを記述する仕様であるRDFは既に動き出しており、2003年には対応するサイトが増えている。この先の段階である、例えば会社が異なるとか、分野が異なると、同じ意味に別の言葉が使われたり、逆に異なる意味に同じ言葉が使われるなどの調整をする「オントロジー」も進行している。

その先には、人間が文章を理解するように、求められていることをメタデータをもとに推論する「ロジック」や、結果が正しいことを証明する「プルーフ」などの仕掛けが検討されていく。だからセマンティックWEBのRDF以降の開発が順次現実のものとして明らかになるにつれて、XMLを用いて処理するモデルも考え直さなければならなくなるだろう。

あまり目下の利便性のためだけにXML関連の開発をするのは要注意である。Officeなどの簡易ツールでその場しのぎをしながらでも、中期的なことを考える必要がある。

テキスト&グラフィックス研究会会報 Text&Graphics 212号より

2003/11/09 00:00:00


公益社団法人日本印刷技術協会