本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。

月刊誌とWeb連携のためのXMLデータ活用

XMLによるパブリッシングには,その表現内容,分野,データの特性やシステム構築など,多様な手法・形式が考えられる。紙への印刷だけでなく,Webでのパブリッシングを踏まえてシステム構築をおこなうのであれば,XMLデータを活用し製作の効率化をはかること,データ再利用のレベルを向上させることは,もはや必須の検討事項といえよう。XMLデータを活用して,月刊の学会誌のDTP製作から効率的にWeb公開をおこなっている取り組みについて,ミラクルカスタマイズ代表取締役の弓田元陸氏にお話を伺った。

月刊ジャーナル誌のXML化

ミラクルカスタマイズは,1991年に創業した。主にページ物のDTPデータ製作をおこなっており,定期刊行物・月刊誌・週刊誌・各種ジャーナル誌などである。Web関連は1998年頃からWebページ作成を中心に取り組んできた。2001年に,ある学会から月刊ジャーナル誌の印刷物発行と同時にWebで公開したいという依頼があった。目的は(1)本ではできないサービスをおこなう(2)他のジャーナルサイトとの差別化(3)知的財産の構築と有効利用とのことであった。

(1)本ではできないサービス
PubMedとは,米国立医学図書館が一般公開している医学文献サイトで,ある文献に引用されている文献を検索・表示することができる。今回のWebジャーナルでは,掲載した論文のリファレンス(参考文献)から,そのPubMedデータベースの該当個所にリンクを張ることになった。閲覧者が本文最後のリファレンス部分をクリックすると,PubMed中のデータベースにアクセスし,タイトル,著者名で検索し,その結果が別ウィンドウに表示される。

(2)他のジャーナルサイトとの差別化
他のほとんどのジャーナルサイトでは,論文をPDFとして表示する方法が取られている。印刷物と同じ体裁で,かえって読みにくく,またレスポンスも良くないことが多い。そのため,PDFではなくHTML形式での表示が望まれた。

(3)知的財産の構築と有効利用
ジャーナルの構造は,タイトル,著者名,アブストラクト,本文,参考文献の順になっているものが多い。したがって全体の構造化に取り組みやすく,XMLデータベース化に向いている。今後,書誌情報をベースに各巻,号別の詳細な検索システムを開発していく予定である。

これらの意向に応えるため,XMLデータベース化をおこなうことにした。また,XMLをそのままブラウザで表示するとなると,現在ではInternet ExplorerのV.5以降に限られてしまう。ブラウザの種類やバージョン,OSに依存しないHTML形式での表示が必須であると考えた。

XMLを表示する方法とシステム構築

XMLデータをHTMLとして表示するには,表示される部分をXSLで指定し,CSSを使って表示する。また,Webサーバ上で動的にHTMLを生成する必要がある。例えば,閲覧者が各号のコンテンツをブラウザで表示し,コンテンツ内の論文をクリックする,ここでイベントが発生する。クリックされた論文のXMLデータの中から必要な情報をXSLを使って,いったんメモリへ取り込み,CSSを通してスタイル変換されブラウザへ展開される。この一連の動作をサーバ上で行われるようにシステムを構築する。マイクロソフト社の.NET(ドットネット)テクノロジーというWebアプリケーション技術を利用することにした。

XMLデータの生成は,DTPデータを二次利用し,XMLデータを抽出することになった。DTPはモトヤ製ELWINを使用しており,組版終了後,DTP用のファンクションをXMLタグへ変換し,本文テキストはそのまま抽出している。さらに手作業で加工して完成させている。XML変換の精度を上げるため,組版時のファンクションの並びなどを工夫し,80〜90%は自動変換している。だがXMLの属性値に関しては,手作業で入力することが避けられず,今後の課題である。

学会は「印刷物配布と同時にWebも公開する」という意向で,1週間しか時間がない。その間にDTPデータからXMLタグの抽出,属性値などの手作業での入力・生成,写真・図版等のグラフィックをJPGやGIFなどへ変換する。また,Web用のコンテンツ作成もASP.NETを使い,並行して進めていく。またWeb公開の際に,「写真や図版はできるだけカラーで表現したい」と要望があったため,これらに関しては,別のグラフィックデータを作成しなければならなかった。次に,リファレンスからPubMedへのリンクは,XSLTを使い<著者名>,<タイトル>,<雑誌名>,<掲載ページ>,<掲載年>のそれぞれのタグを割り当て,いったんメモリへ取り込みPubMedサイトの検索用テキストボックスへ値をマッチさせる方式を選んだ。他にJavaを使う方法もあるが,XSLTを使えば毎回,毎行ソースを書き換える必要がなく効率的である。
ASP.NETでの開発は,プロジェクトと呼ばれるグループ編成を作成し,その中に各号のXML,XSL,aspx,HTML,CSS,XSLT,JPG,GIFなどのファイルをフォルダ別に登録する。2回目(翌月号)以降もほぼ同じ作業でaspxファイルを作成し,サーバアップすれば完了である。

Webジャーナル作成のワークフロー

(1)DTPデータをXMLデータに変換する。モトヤELWIN独自のファンクション,例えばサイズファンクションをXMLタグ<title> へ,また,見出しファンクションを<author> タグへという具合に置換用テーブルを作成し,変換している。
(2)XMLタグ修正
変換されたXMLタグデータは80%程度の未完成データである。例えば,というタグがあるが,そこに手作業で属性値を挿入し,<data id=1>としている。
(3)写真・図版の作成
DTPデータのアップと同時に,図版や写真をもう一度スキャニングしなければならない。
(4)ASP.NETのプロジェクトを作成する
ASP.NETのツールであるVisual Studio.NETを使う。Webフォームページと呼ばれるaspxファイルに,例えば論文タイトルなどをHTML形式のタグで追加入力する。2回目以降は,フォームページ上で追加修正するだけである。
(5)ASP.NETにXML,JPGなど素材を組み込む
Webフォームページ上のツールボックスからXMLコントロールを追加し,表示されるXMLファイルとスタイル情報などが書かれたXSLTファイルを指定する。そうするとブラウザにXSLTで指定したスタイルのXMLがHTML4まで下げられた状態で表示される。JPG,GIF等のファイルもリンク先フォルダへプロジェクトへの組み込みという形で配置する。
(6)サーバアップ,公開
いったんダミーのサーバへアップロードして確認後,本サーバへアップする。

今後の課題

(1)PubMedへのリンクの他に,サイト内検索を充実させる。
(2)サーバ内のXMLからDTPデータを作成し,特別号などの印刷物を作成する。
(3)XMLデータをDTPデータから自動作成し,公開と同時にPubMedへアップしたい。
これらを近い将来実現するべく,開発検討を進めている。
今後もXML技術はWeb・印刷・出版に留まらず,益々いろいろな方面で利用される。当社も現時点に留まることは許されないだろう。

2004/02/14 00:00:00


公益社団法人日本印刷技術協会