1999年に当時の大蔵省印刷局で官報のXML化というプロジェクトが実施され,88万ページの官報をデジタル化しXML化することが行なわれた。その一部をイーストが受注した時に開発した工程管理システムがvFolderである。このときのコンテンツは官報のXMLデータだが,それをNewsMLに置き換えたものがNewsBOXである。
改造といってもコーディングは全部やり直した。というのも,基本的な考え方やデータ構造はあまり違わないが,今後,ユーザは意識しないでサーバ同士が会話して業務を進めていくWebサービスという仕組みが出てくるが,それを考えて開発環境はビジュアルスタジオ.net,開発言語はC#を採用したのである。将来は検索をWebサービス化してサーバ間でデータのやり取りを行なったり,記者からの入稿だけでなく,たとえば共同通信から配信されるNewsMLデータをサーバに取り込むなどの仕組みも考えている。
NewsBOXは製品としてではなくサービスとして提供する。サーバの運営も含めてすべてイーストが行なうのでユーザがサーバを保有する必要はない。また,インターネット環境さえあれば会社でも家庭でもどこでも使える。さらに大きな特徴としてカスタムオーダー方式を行なっている。編集のやり方や各種の定義,どういう立場の人が何をやるか,どういう権限があるのかなど新聞社によって違う部分をカスタマイズして提供する。また,モジュールだけの提供も行なっている。たとえば検索と縦書き段組表示部分のみ,NewsML読み込み処理部分のみ,あるいはすでに社内のシステムが整っている場合に,NewsMLデータを受け取って社内のシステムに渡すフロント・サーバのみを提供することも行なっている。
NewsBOXはNewsMLまたはテキストファイルで記事を生成するシステムであり,印刷には対応していない。データを既存のDTPシステムに流し込んで編集する部分では手作業が発生する。今後DTPシステムがNewsMLに対応すればある程度の自動化は可能になるだろう。
基礎技術としてUnicodeを使っており,中国語やハングル語などのいろいろな言語のデータを一元的に扱えるし,アクサン付きの欧文文字やキリル文字など扱える文字数も多い。一方,Unicodeとはべつに,新聞はやはり当分は印刷して販売する形態が続くであろうから,印刷のための外字ソリューションもオプションとして提供している。また,画像・ハイパーリンク・動画などを添付できる機能も持っている。
イーストのNewsBOXのサイトをごらんいただきたい。ここには実際には使わないという条件で日本食糧新聞社のデータを公開している。10年分14万4000件のデータを検索することができる。またIE5.5以降なら縦書き機能があり,新聞と同じように縦書き段組みで見ることもできる。
NewsBOXの稼動環境は,サーバ側がWindows2000サーバと.NET Frameworkで,編集用と検索用の2つのサーバを別々に使っている。編集用はSQLサーバでないといけない。検索用にはXML全文検索エンジンBTONICを入れるから,基本的に最低2台のサーバが必要である。クライアント側はプラグインは不要でIE5.5以降ならそのまま使える。
編集システムは登録者が50人くらいの想定で基本料金380万円である。カスタマイズ費用は120万円から,初期データ設定費は50万円からである。検索システムは基本料金とカスタマイズ費合わせて200万円から,それに運営費は毎月20万円からという価格でイーストからシステムを提供する。
BTONICでは,XMLデータ群からインデックスを3つ作る。「タグのインデックス」はXMLの論理構造のインデックスである。「キーワード・インデックス」は,新聞なら見出し語をキーワードとしたインデックスである。それからフルテキストの全データについての「全文検索インデックス」を作る。インデックスは全文検索用のインデックス生成ツールLaBambaによって生成する。形態素解析方式ではないので検索漏れが起こらず,また,インデックスのサイズが比較的小さいのが特徴である。たとえば三省堂の『大辞林』はプレーンテキストで30MBありXMLのタグが入ると76MBになる。これにタグ・インデックス,キーワード・インデックス,全文検索インデックスを入れても125MB程度にしかならない。
BTONICはXMLならなんでも扱える。たとえばNewsMLは,ある見出しの記事の中にいくつもの記事内容が入れ子構造で入っているが,そうした構造をきちんとそのまま生かして検索できる仕組みになっていて,XMLであればどういうデータでも全文検索が行える。辞書・新聞・雑誌・議事録・論文・官報などどんなコンテンツでもスキーマさえしっかりしていれば全文検索やキーワード検索ができるのである。
BTONICは,EXI(EAST XMLIndex)というファイルの上にEXIライブラリがあり,さらにその上にユーザインタフェース(BTONIC U/I)がある構造になっている。BTONIC U/IはWEB用で動くものとLANで動くもの,パッケージバージョンの3種類ある。たとえばニュースの一部をCD-ROMに入れてそれを販売する場合はBTONIC U/Iのパッケージバージョンを入れてインストーラを作ればよい。ライブラリは同じものがそのまま使える。
インターネットでもイントラネットでも使えるし,パッケージバージョンはWindows PCバージョンが完成しており,現在Pocket PCバージョンを開発中である。
(テキスト&グラフィックス研究会)
2002/12/04 00:00:00