本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。

Web用辞書検索サービスへの取り組みと辞書製作

−印刷物とデジタルコンテンツの製作プロセスの進化−

三省堂は1988年に電子ブック版模範六法を手掛けて以来,比較的早い時期から電子出版事業に取り組んできた。その後,1999年にはNTTドコモのiモードとポータルサイトgooの辞書サービスにデータを提供した。さらに,2001年にWeb用辞書検索サービスの三省堂Webディクショナリを開始した。
現在の三省堂の電子出版事業は,CD-ROM出版,Webなどオンラインのサービス提供,電子辞書へのデータ提供,電子辞書(筐体はカシオのOEM)販売の4本柱となっている。同社デジタル情報出版部次長の高野郁子氏に,Web用辞書サービスと辞書製作について話を伺った。

三省堂Webディクショナリ

当初のサービス内容は無料の国語,英和,和英辞典のほか,15点の有料辞書の配信だった。さらに2003年には,「進化する辞書」サービスを「スーパー大辞林」などで開始した。紙の辞書では改訂版まで大幅な修正はできなかったが,更新が容易なWebでは,新しいデータの提供が可能になった。
Webディクショナリのビジネスモデルは,有料の個人会員とポータルサイトなどへのASP事業である。個人会員は,年間3000円で辞書サービスを自由に使うことができる。ASP事業では,月額固定料金,固定料金と広告収入のシェア,会員誘導のためのリンクなどのさまざまな形がある。現在ではかなりの大手ポータルサイトに三省堂のWebディクショナリから何らかの辞書サービスを提供している。ASPである程度の経済的基盤をもち,今後は個人会員や法人会員へビジネスを広げていきたい。
システム構築,データ整備,サービスの管理・運用全般は,イースト株式会社に委託している。辞書検索は,イーストのBTONICというXMLドキュメントの検索エンジンを採用している。現在の辞書データはXML形式で保有しているが,辞書をXML形式にするとかなり複雑なデータ構造になる。BTONICはXMLの複雑なデータ構造をサポートし,高速な全文検索が可能である。

ワンソースマルチユースの夢

デジタルデータとしての辞書の可能性を考えてみると,同じデータをさまざまな媒体で展開することができる。
印刷物のデータがデジタル化されれば,違う媒体に印刷物と同じ内容を展開することが可能になる。Web上のサービス,携帯電話の検索サービス,CD-ROM,電子辞書など,複数の異なる媒体への展開が比較的容易に安価にできる。また,更新が容易で,どの媒体へも最新の内容を提供することができる。
全体として,従来の印刷物製作よりコストが削減でき,しかも媒体が広く展開できるなら,出版社にとっては非常に大きなプラス材料になる。

デジタル辞書製作に対する課題

(1)データの汎用性
現状ではシステムやサービスごとに対応するファイル形式が違っており,データの汎用性がない。あるシステムに対応した形式のデータが,別のシステムには使えない。システムに依存しない形式でデータを用意する必要がある。

(2)項目単位のデータ管理
Webで提供しているデータの誤りを修正したが,携帯電話サービスのデータを修正しなかったため,同じ指摘を受けてしまった。あるいは,一つの辞書データをCD-ROM製品,携帯電話サービスで展開し,次にWeb上のサービスで使おうとした時,最新のデータがどれか分からなくなったなど,素材・項目単位のデータ管理,バージョン管理は多展開するほど複雑で手間が掛かる。
印刷物では奥付に日付と刷り数が明示されており,間違えることはなかった。デジタルデータでは,ファイルのタイムスタンプだけでは最新かどうかが分からない。明示的にバージョン管理できるシステムを作らない限り,どのデータを使うべきか分からなくなる。辞書は5万語クラスのものから,30万語を収録したものもある。項目数,媒体の数が増えると,人力で管理できる規模ではない。多展開するほど,ファイルを一元管理するシステムの必要性が高くなる。

(3)データ整備の確実性
冊子の場合はゲラ刷りに赤字が入っているので,物理的に確認できる。しかしデジタルデータはどこを修正したかが分かりにくく,入力ミスをしても注意しないと分からない。印刷物製作には,これまでに蓄積された工程管理や校正など,検証のノウハウがあり,確実な製品を作ることができる。
しかし,電子出版ではそういうノウハウが十分蓄積されていない。確実にデジタルデータを検証するシステム,ノウハウがまだ確立されていないという大きな問題がある。

課題への取り組み

データの汎用性に対しては,データ仕様の統一を考えている。三省堂フォーマットとして,XML形式のデータ仕様を策定し,仕様に従って今までばらばらに作り込んできたデータを,整理し直している。これまでの辞書データ製作の経験から,どういうタグを用意し,どういう構造にするかを元にデータ仕様の策定を行い,整備されたデータ群をできるだけ早期に構築していきたい。

バージョン管理については,データ管理システムを作るということである。バージョン管理,提供先ごとの管理などができる管理システムを構築する。ただし,システム構築に際しては,使う目的と対象を明確にして,使い勝手が良く,メンテナンスが容易であること,数年経ったら作り直してもあまり負担にならないような開発費用で作るのが良いと考えている。

確実なデータ整備に対しては,確実な検証方法を確立するということに尽きる。XML形式のデータの場合,タグの名前や構成,出現の順番,どこの下に入れるなどについて,内容と形式を確実に検証するノウハウを蓄積し,対応方法を実践していく必要がある。項目の記述内容は人による確認作業が不可欠だが,タグに関しては,プログラムやシステムを活用して検証する仕組みを作らなければならない。

出版社としての課題

今後,印刷物はデータ提供の選択肢の一つとなり,マスターデータはデータベースに格納するように変化していく。同時に,情報を発信する際にどの媒体が最適かを選択することができる。

このような観点に立つと,三省堂の課題は,デジタル形式で構築・保存・展開していくためのノウハウを蓄積し,出版のための安定したシステムを作ることである。本の製作を印刷会社や製本会社と共同でやってきたのと同じように,デジタル形式でデータを作っていくには,印刷会社,システム開発会社などとの協業で安定したシステムを作っていく必要がある。
デジタルデータを校正し,確実なデータを作り上げていく。デジタルデータをさまざまな媒体に展開するには,どういう編集作業を行い,どのように提供するか。印刷物をデジタルに移植しただけでは,ユーザは支持してくれない。デジタルの利点を生かすための編集作業が求められている。出版社が今後担っていくべきなのは,このような編集作業である。媒体の利点を生かし,ユーザから支持を得られる辞書を提供していきたい。

今は書籍の売り上げも伸び悩んでおり,厳しい状況である。しかし,編集技術という面で言えば,ほかの業種にないノウハウをもっているという自負をもって,仕事をしていきたいと考えている。

2004/12/04 00:00:00


公益社団法人日本印刷技術協会