本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。

自治体が導入したPDF全文検索データベース

2000年9月26日,通信&メディア研究会主催 拡大ミーティング「PDFを利用した電子文書管理」において,第一法規出版(株) 平林 宏章 氏より以下のご講演をいただいた。

第一法規出版(株)の会社概要と事業内容

第一法規出版は,明治36年に法令に関する加除式書籍を出版する目的で創業された。主な商品は,現行法規総覧をはじめとした加除式の法令集や解説書,判例体系などがある。近年は,現行法規をCD-ROM化した電子版現行法規,判例体系のCD-ROMという電子媒体などの提供を行っている。

PDF全文検索データベースのシステム概要

自治体の例規集をPDF化し,それにより単行本やデータベースも作成した事例を紹介する。具体的なシステム概要は以下の通り。
1.目次からの選択
データベースに格納された例規/規程は目次をたどって閲覧することができる。
2.フリーワード・属性による検索
日軽インフォブリッジの全文検索エンジンSAVVY/EFSを活用し,データベースに格納された例規/規程は,フリーワードによる全文検索及び設定された属性の指定により,ヒットした該当例規/規程を一覧し,閲覧できる。また,フリーワードと属性の掛け合わせによる絞り込み検索も可能である。過去の検索結果は,検索画面上に一覧として表示される。クリックすると,再度結果一覧を表示できる。
3.検索結果の一覧表示
フリーワードによる全文検索または設定された属性の指定により,検索結果を一覧する。検索結果をクリックすると,Acrobat Readerが起動し,PDFファイルによって全文を表示する。
4.全文表示
検索結果一覧から該当例規/規程をクリックするとAcrobat Readerが起動し,PDFが表示される。
5.リンク機能
表示されたPDFファイルの例規中に他例規の引用がある場合,該当例規とリンク設定を行い,クリックにより指定された例規を表示する。
6.印刷機能
Acrobat Readerの印刷機能を利用し,例規集(書籍)と同様の体裁による印刷出力が例規単位に可能である。

システム環境

システム環境は以下の通り。
1.サーバー推奨マシン環境
・PC-AT互換機
・CPU Pentium V 500MHz以上
・メモリ 256MB以上
・ディスク容量4GB以上
・OS:WindowsNT Server4.0 ServicePack3以上
・Webサーバ:Internet Information Server3.0以上
・全文検索エンジン:SAVVY/EFS(日軽インフォブリッジ(株)製)
2.クライアント 推奨マシン環境
・PC-AT互換機
・CPU Pentium 200MHz以上
・メモリ 64MB以上
・OS:Windows95/98または,WindowsNT Server4.0 ServicePack3以上
・ブラウザ:Internet Explorer 4.0以上
・PDFビューワ:Acrobat Reader 3.0以上

自治体の導入例

都下のA市では,以下のようなシステムが稼動している。トップ画面では,例規集データベースの特長を載せ,CGIへのリンクを張ってある。画面の開始ボタンをクリックすると,最初のメイン画面として,検索メニュー画面が表示される。この画面で,フリーワード検索か目次検索のどちらかを選択するようになっている。

目次検索

基本的には本の目次を,階層を追って下り,最終的に該当例規を選ぶ形になる。第1階層は第1類から第13類まであり,自治体の様式,例規集の中に規程されている様式類を1つのキャビネットとして管理している。その階層を下へ,下へと下りるイメージになる。第3類の行政通則の下に1章から5章までまた目次があるというイメージである。例えば,第2章の職務権限というところを選ぶと,その中に全部で8つの例規集が入っている。これは一般的に本を使う使い方と同様である。今回見たい例規集をクリックすると,Acrobat Readerが起動して,PDFファイルが表示される。データは,単行本の版下データと同様で,柱があってノンブルがあるという形になっている。基本的にはここから出力したものを製本すると単行本ができ上がる。つまり,版下データとデータベースが一元管理できる。

フリーワード検索

フリーワード検索は,カスタマイズが可能だが,基本的には検索語句を同時に3つ入れられ,and検索,or検索,sub検索,用語の掛け合わせができるようになっている。画面下の欄で検索範囲の指定ができ,各例規の題名や,公布年月日などの属性情報による検索もできる。データ量は,A5版で組体裁が44文字×42行,約2,000ページくらいになる。例規集だと約60MBほどの情報になる。PDFが全部で約100MBあるが,全文検索で各文字列を検索し,かなり速いスピードで検索結果が返ってくる。最終的にはPDF化された条文が検索できる。 このシステムは現在バージョンアップが進んでいる。例えば,ヒットした文字列を光らせるなどの追加機能が,現実に近い段階にある。

データベース構築フロー

データベースの構築作業については,ソフトウェアハウスと印刷会社とパートナーを組んで進めた。 まず第一法規出版は,原稿を作成し,データを検証する。次に印刷会社は,原稿に基づいて,組版ソフトを使ってデータ入力する。現在のソフトは,NECのSuper DigitorialとFrameMaker+SGMLを使っている。SGMLのデータベースを構築できるので,タグ付けしたデータが作れる。また,同じAdobe製のFrameMaker+SGMLを利用し,出来上がった版下をPDFデータに変換する。印刷物,単行本などがある場合は,製本まで含めて印刷会社に印刷物作成を依頼する。次の工程はPDFの変換,リンク処理をAcrobat Exchange上で行う。ここまでが印刷会社の作業である。その先は,出来上がった登録システムを使い,PDFからテキスト文字列を抽出する。Acrobat Exchangeと全文検索エンジンのSAVVY/EFSのPDFフィルターを利用し,実際にSAVVY/EFSの全文検索エンジンに登録する。この工程はすべて自社で作業をするのではなく,プログラミングに関してはソフトウェアハウスにアウトソーシングしている。ソフトウェアハウスには,プログラムのバグ修正だけでなく,トラブルサポートや最新技術情報も提供してもらう。最終的な納品媒体は,ほとんどCD-ROMである。PDFとデータベースSAVVYを合わせた形でCD-ROMに焼き付けて,あとは顧客のサーバ上でインストールするという流れになる。

(通信&メディア研究会)
出典:社団法人 日本印刷技術協会 機関誌 JAGAT info 2000年11月号

2000/11/13 00:00:00


公益社団法人日本印刷技術協会