本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。

新聞編集・検索システムNewsBOX

NewsBOXとは

NewsBOXは日本食糧新聞社ともに開発をすすめた。NewsMLはXMLを使ったニュース配信・管理用のデータ形式だが,NewsBOXはNewsMLとインターネットを利用した新聞記事の入稿・編集・検索システムである。

1999年に当時の大蔵省印刷局で官報のXML化というプロジェクトが実施され,88万ページの官報をデジタル化しXML化することが行なわれた。その一部をイーストが受注した時に開発した工程管理システムがvFolderである。このときのコンテンツは官報のXMLデータだが,それをNewsMLに置き換えたものがNewsBOXである。

改造といってもコーディングは全部やり直した。というのも,基本的な考え方やデータ構造はあまり違わないが,今後,ユーザは意識しないでサーバ同士が会話して業務を進めていくWebサービスという仕組みが出てくるが,それを考えて開発環境はビジュアルスタジオ.net,開発言語はC#を採用したのである。将来は検索をWebサービス化してサーバ間でデータのやり取りを行なったり,記者からの入稿だけでなく,たとえば共同通信から配信されるNewsMLデータをサーバに取り込むなどの仕組みも考えている。

NewsBOXは製品としてではなくサービスとして提供する。サーバの運営も含めてすべてイーストが行なうのでユーザがサーバを保有する必要はない。また,インターネット環境さえあれば会社でも家庭でもどこでも使える。さらに大きな特徴としてカスタムオーダー方式を行なっている。編集のやり方や各種の定義,どういう立場の人が何をやるか,どういう権限があるのかなど新聞社によって違う部分をカスタマイズして提供する。また,モジュールだけの提供も行なっている。たとえば検索と縦書き段組表示部分のみ,NewsML読み込み処理部分のみ,あるいはすでに社内のシステムが整っている場合に,NewsMLデータを受け取って社内のシステムに渡すフロント・サーバのみを提供することも行なっている。

NewsBOXはNewsMLまたはテキストファイルで記事を生成するシステムであり,印刷には対応していない。データを既存のDTPシステムに流し込んで編集する部分では手作業が発生する。今後DTPシステムがNewsMLに対応すればある程度の自動化は可能になるだろう。

基礎技術としてUnicodeを使っており,中国語やハングル語などのいろいろな言語のデータを一元的に扱えるし,アクサン付きの欧文文字やキリル文字など扱える文字数も多い。一方,Unicodeとはべつに,新聞はやはり当分は印刷して販売する形態が続くであろうから,印刷のための外字ソリューションもオプションとして提供している。また,画像・ハイパーリンク・動画などを添付できる機能も持っている。

NewsBOXの仕様

NewsBOXは管理者・編集者・入力者などのレベル分けを行なってそれぞれにIDとパスワードを発行し,それに応じて閲覧だけとか,あるレベルの編集までとか,管理フラグの設定などカスタマイズができる。実際には社内に管理者を1人置いて,その人が各担当者のIDとパスワードを設定することになる。編集データは誰がいつどのデータを編集したかというログがすべて取られていて,編集後,校閲するときにファイルを比較できる。

イーストのNewsBOXのサイトをごらんいただきたい。ここには実際には使わないという条件で日本食糧新聞社のデータを公開している。10年分14万4000件のデータを検索することができる。またIE5.5以降なら縦書き機能があり,新聞と同じように縦書き段組みで見ることもできる。

NewsBOXの稼動環境は,サーバ側がWindows2000サーバと.NET Frameworkで,編集用と検索用の2つのサーバを別々に使っている。編集用はSQLサーバでないといけない。検索用にはXML全文検索エンジンBTONICを入れるから,基本的に最低2台のサーバが必要である。クライアント側はプラグインは不要でIE5.5以降ならそのまま使える。

編集システムは登録者が50人くらいの想定で基本料金380万円である。カスタマイズ費用は120万円から,初期データ設定費は50万円からである。検索システムは基本料金とカスタマイズ費合わせて200万円から,それに運営費は毎月20万円からという価格でイーストからシステムを提供する。

検索エンジンBTONIC

官報のXML化はイーストに大きな影響を与えた。12万ページものXMLドキュメントが社内に溢れたとき,これからはこうなるのだと実感した。データがXMLになり,インターネットで世界につながって行く。そのときに情報の検索が大きな問題になるだろうと考えて作ったのがBTONICである。

BTONICでは,XMLデータ群からインデックスを3つ作る。「タグのインデックス」はXMLの論理構造のインデックスである。「キーワード・インデックス」は,新聞なら見出し語をキーワードとしたインデックスである。それからフルテキストの全データについての「全文検索インデックス」を作る。インデックスは全文検索用のインデックス生成ツールLaBambaによって生成する。形態素解析方式ではないので検索漏れが起こらず,また,インデックスのサイズが比較的小さいのが特徴である。たとえば三省堂の『大辞林』はプレーンテキストで30MBありXMLのタグが入ると76MBになる。これにタグ・インデックス,キーワード・インデックス,全文検索インデックスを入れても125MB程度にしかならない。

BTONICはXMLならなんでも扱える。たとえばNewsMLは,ある見出しの記事の中にいくつもの記事内容が入れ子構造で入っているが,そうした構造をきちんとそのまま生かして検索できる仕組みになっていて,XMLであればどういうデータでも全文検索が行える。辞書・新聞・雑誌・議事録・論文・官報などどんなコンテンツでもスキーマさえしっかりしていれば全文検索やキーワード検索ができるのである。

BTONICは,EXI(EAST XMLIndex)というファイルの上にEXIライブラリがあり,さらにその上にユーザインタフェース(BTONIC U/I)がある構造になっている。BTONIC U/IはWEB用で動くものとLANで動くもの,パッケージバージョンの3種類ある。たとえばニュースの一部をCD-ROMに入れてそれを販売する場合はBTONIC U/Iのパッケージバージョンを入れてインストーラを作ればよい。ライブラリは同じものがそのまま使える。

インターネットでもイントラネットでも使えるし,パッケージバージョンはWindows PCバージョンが完成しており,現在Pocket PCバージョンを開発中である。

事例

BTONICの利用事例としては,三省堂の『e辞林』,国際疾病管理研究所のICD病名検索システム(有料),有斐閣の判例CD,政府関係では施策ドキュメントの検索システムや,小学館のJapanKnowledgeなどがある。日本書籍出版協会のBooksもXMLデータで,オリジナルはイーストで作った。国立国語研究所のJiBOOKSもそうである。ほかにも『有斐閣心理学事典』,『Grove世界音楽事典』などがある。NewsBOXについてはイーストのNewsBOXのサイトを見ていただきたい。イーストによる運営方法や食糧新聞の検索用データが載っている。

(テキスト&グラフィックス研究会)

2002/12/04 00:00:00


公益社団法人日本印刷技術協会