SGML/XMLによる電子文書処理

1999年11月29日


 パソコンの低価格・高性能化とインターネットの急速な普及などによって,企業ではパソコンとネットワークの導入が急ピッチで進められ,コピー機とファクスによるOA化とは異なった,本格的なオフィスオートメーション化が進行している。
 それに従って,電子化した情報を効率良く利用するために,電子化する文書の形態やその管理がますます重要になってきた。

印刷発注側では


 社団法人日本印刷産業連合会では,平成10年度の調査研究事業のなかで,印刷発注側にアンケート調査を実施した。その調査結果によれば,既に全社的に電子文書を共有・利用している企業が5割弱,共有を計画中の企業が4割弱であった。
 また,共有する電子文書のデータ形式は,「HTML※1 形式」が3割弱,「PDF※2 形式」,「SGML※3 形式」がそれぞれ2割弱で,「ワープロや表計算形式」との回答が7割近くでトップだった(複数回答)。
 しかしながら,「ひとつの情報から多媒体が作れる形式を検討中」が2割,「長期間保存し利用可能な形式を検討中」も1割強の回答があり,現状の共有データ形式の問題点を解決しようとする姿勢がうかがえる。また共有する情報を,「印刷物と,ホームページやCD-ROMなどの電子媒体との,両方に使用する」との回答は7割に達している。
 印刷会社に対しては,5割強が「ネットワークを利用した原稿の受け渡し」を望み,4割が「SGML/XML(Extensible Markup Language)など,どのような形式の電子データでも取り扱えること」と,「共有化システムやデータ形式に対する提案」とを望んでいる。

電子文書の問題点


 印刷発注側企業の7割近くが共有情報としている「ワープロや表計算形式」の電子文書には,どのような問題点があるのだろうか。
 問題点の第1は,固有のワープロや表計算ソフトに依存しているため,同一ソフトがなければ読めないことと,そのソフトがいつまで使用可能かわからないことである。実際,Windows3.1で動作したソフトでも,Windows98では動作しないものもある。また,アメリカ国立公文書館では,固有ソフトの形式で保存したために,既に読めない情報もあると報道された。
 問題点の第2は,固有ソフトの形式では,情報処理などのプログラムが必要とする,情報の内容,意味,使用条件などの文書付属情報を記述できないことである。これは,処理の自動化を進めたい企業にとって,最大の欠陥ともいえる。
 そこで企業では,電子文書をより効率的に使用するためのデータ形式が検討されている。
 文書情報を高度に活用するためには,@長期間保存し使用できるA情報の内容や意味,使用条件などを記述できるB利用者の使用状態に合わせた設定ができるC各種媒体の特性に合わせた情報を生成できるD情報加工を自動化できる,などの条件をクリアする必要がある。そのひとつの手段として,特殊な制御符号や体裁情報を含まないテキスト形式で文書を記述するSGML/XMLが採用されている。

文書記述言語SGML


 SGMLは文書の記述方法を規定しており,文書中の文字列が示す内容,意味,使用条件などを,タグとその属性情報としてテキスト形式で記述できる。
 例えば,[例1]のように開始タグ<title>と終了タグ</title>でくくることで,くくられた文字列がtitleであることを示す。
 [例1] <title>電子文書処理</title>
 また,「公開(public)」と「非公開(secret)」があるreportの場合には,reportの属性情報として[例2]のように指定することもできる。
 [例2] <report status=”secret”>
 重要なことは,SGMLでは,タグや属性情報などの記述方法を規定しているだけで,名前や属性を固定的に決めているわけではなく,使用者が定義すれば自由に設定できることである。また,固有ソフトに依存しないテキスト形式で記述するため,保存した文書を長期間使用できる。

Web上での問題点とXML


 Web上で使用されているHTMLは,表示体裁を重視した少数の決まったタグと,ブラウザのビジュアルな表示機能とによって急速に普及した。しかしながら,HTMLの手軽さは,タグを設定できない,情報の意味を記述できないなどの問題もある。それゆえ,HTML文書を保存してもブラウザで見ることしかできないというデメリットを生み出した。
 この対策としてWeb上でSGMLを利用しようとしても,正しいSGML文書かを検証するために処理速度が遅いこと,オプション機能が複雑であること,使用文字種が英語圏ベースを基本としていることなど,多くの問題を抱えていた。
 そこで,SGMLの文書情報記述機能の優れた点と,HTMLのWeb上での情報交換機能として優れた点とを取り入れ,SGMLの不要な機能や余分な機能を削除したXML1.0が,1998年2月にWeb関連の標準化を推進しているW3C ※4によって勧告された。従って,XMLはSGMLのサブセットであり,すべてのXML文書はSGML文書でもある。このXMLが最も関心をよんでいるのは,マイクロソフトなど大手のソフトメーカーが対応を表明し,各種の対応ソフトの開発を進行させているからである。既に,インターネット・エクスプローラなど,XMLに対応したアプリケーションソフトも出てきている。
 また,XMLには,SGMLと同様の文書という面と,ネットワークを利用して交換するデータ(例えばソフトウエア配信や電子商取引のデータなど)という面の両面がある。従って,情報処理分野やネットワークを利用したデータ交換分野などにも大きな影響を与え,利用分野も急速に広がりをみせている。このため,XMLに関連するリンク指定,体裁指定,ベクトル描画,動的情報記述,APIなど多くの規格はまだ開発段階にあり,その全貌はなかなかつかみにくい。しかしながら,XMLが今後の文書処理技術に大きな影響を与えることは間違いない。

行政・出版・印刷業界の動向


 行政では,21世紀初頭の「電子政府」実現を目指して,インフラ整備,電子的な申請や届出,電子文書交換,電子文書作成から廃棄までの管理など,各種の情報化政策を行っている。そのなかで,SGML/XMLによる文書記述が推進されている。例えば,厚生省は医薬品製造・販売や医薬品添付文書の届出に,総務庁は霞が関WANを利用した電子公文書の交換や白書などのデータベースにSGMLを採用した。このほか,建設省の建設CALS,大蔵省の財務報告書申請・公開,特許庁の特許申請など,各省庁でSGML/XMLの利用が検討されている。
 出版業界では,最初に作成したSGML文書から印刷物などを制作することは,従来から行われていた。しかし,最近,印刷物制作後に自社コンテンツをSGML/XML文書にして,CD-ROMやインターネットを通じたビジネス展開を行う動きが出ている。
 印刷業界は顧客の文書利用状況や文書処理に関するノウハウに精通している場合が多い。なかには,NECドキュメンテクス(東京都港区)エッグ(鳥取県米子市)共進社印刷(大阪市中央区)共立印刷(東京都板橋区),コーホク印刷(岡山市),西日本印刷(広島市)フジ印刷(大阪市東成区)マックス(東京都府中市)丸星(東京都港区)を代表に,顧客に電子文書ビジネス,電子文書作成・管理などを提案し業務を請け負う,SGML/XMLビジネスを展開しているところもある。。

SGML/XML関連ツール


SGML/XMLを利用した文書処理のために,各種のソフトが市販されている。

1)文書型定義作成
 タグや属性情報を自社の利用環境に合わせて定義するためには,文書型定義DTD ※5を作成する必要があり,そのためのツールである。代表的なものにMicroStarのNear&Far Designerがある。

2)文書作成
 SGML/XMLタグ付き文書作成ツールである。
a)専用エディタの使用
 専用エディタは,DTDに従って文字を入力し,タグ付き文書を作成するツールで,DTDとの整合性をチェックするパーサ機能や,体裁をつけた表示やプリント機能などをもつものもある。専用エディタには,BullのGrif SGMLエディタ,富士ゼロックス情報システムのInContextなどや,SGML/XML両用のArborTextのADEPT・Editor,アンテナハウスのTagEditorなどがある。また,XMLに特化した東芝アドバンストシステムのXMLSpyもある。
b)ワープロソフトの使用
 富士通のOASYS V6,ジャストシステムの一太郎などのように,一般のワープロソフトのなかにも,オプションの付加などで,SGML/XMLの文書の読み込みや保存を可能としているものがある。また,MicroStarのNear&Far Authorは,マイクロソフトのWordとともに使用し,文書編集が完了したらSGML文書を出力する。
c)ワープロ文書からの変換
 ワープロの入力・編集機能を使用して作成した文書を,SGML/XML文書に変換するツールである。変換ツールには,マイクロソフトのWordのdoc形式から変換するInsoのDynaTag,RTF形式から変換する富士電機総設のSGML/AssistとXML/Assist,日立のDocIntegra Converter,シンクプランのウルトラSGMLコンバータ,OmniMark TechnologiesのOmniMarkなどがあり,いずれもパーサ機能をもっている。なかにはHTML文書への変換など,多くの変換機能をもつものもある。
d)DTPの使用
 DTPソフトを使用して入力・編集後,SGML文書として出力する方法である。例えば,AdobeのFrameMaker+SGML,富士ゼロックスのAkaneなどである。また,QuarkもSEYBOLDで,Avenue.quarkと呼ぶXML文書出力機能のサポートを表明している。

3)文書管理
 SGML/XML文書の管理は,一般的なファイル管理ソフトやデータベースソフトを使用しても良いが,目的によってはSGML/XMLを利用した構造化文書管理ソフトを利用する方法もある。このような管理ソフトには,TexcelのInformation Manager,富士ゼロックス情報システムのAstoriaなどがある。

4)オーサリング
 体裁情報をもっていないSGML/XML文書に,自由な表示体裁をつけて閲覧するツールで,検索機能,画像表示機能,リンク機能,目次などからのナビゲート機能などもある。このツールには,SoftQuadのPanorama Publisher,富士通のHyBrick,InsoのDynaTextなどがある。

5)配布物制作
 SGML/XML文書から,印刷物,CD-ROMなどの配布物を制作するツールである。印刷物制作用としては,ArborTextのADEPT・Publisher,AdobeのFrameMaker+SGML,InterleafのInterleaf 5<SGML>,富士ゼロックスのDocuTailorとDocuPressの組み合わせなどがある。また,体裁付けをDSSSLスクリプトで指定するネクストソリューションのDSSSLprintもある。
 CD-ROM制作用としては,EPWING形式データを作成する富士通のSGML-CDROM,DynaText電子ブック形式データを作成するInsoのDynaTextなどがある。Insoには,DynaText電子ブックの閲覧したい部分のみをダイナミックにHTMLに変換して配信するDynaWebもある。

6)その他
 文書構造を利用した全文検索ソフトのOpenTextや,最近になってインフォテリアのXML処理エンジンも販売された。

※1 HTML Hypertext Markup Language
※2 PDF Portable Document Format
※3 SGML Standard Generalized Markup Language
※4 W3C World Wide Web Consortium
※5 DTD Document Type Definition

(プリンターズサークル 1999年11月号より)

(C)Japan Association of Graphic Arts Technology

HOMEJAGATについて