文書の電子化と再現性
Digital Document
PDFイニシアティブジャパン 井上 務
総務庁の研究
総務庁の研究に電子文書の原本性確保方策というものがあります。総務庁のホームページには,その報告がPDFファイルで掲載されています。「共通課題研究会中間報告〜電子文書の原本性確保方策を中心として〜」※1がそれです。同じく総務庁のホームページには,官庁の文書の管理状況などに関する興味深い調査結果※2が出ています。
日本では,OCRの本質とか原本性の問題,字形,外字の問題などをほとんど理解せずに,文書の電子化が進んでいると常々危惧しているのですが,このレポートはその点を強く意識して作られています。
Acrobat Captureがもたらした革新
欧米では,Acrobat Captureという製品が既存文書の電子化に活躍しています。この製品の簡易版が,Acrobat欧米版にも付属しています。
Acrobat Captureは,スキャナをコントロールして,文書をビットマップイメージで取り込みます。さらに,内蔵のOCR機能を使って文字認識を行いますが,使われているフォントの種類,文字の大きさ,写真,色,絵柄などを識別して,最終的には再DTPしたかのようなPDFファイルを作成してくれます。
これだけでも画期的なのですが,Acrobat Captureには使う者を唸らせる究極の機能があります。
「イメージ+テキスト」という型式のPDF。このPDFでは,画面表示やプリントアウトの際,スキャンしたイメージがそのまま使われます。画面上ではビットマップの文字の部分を選択したり,コピーアンドペーストもでき,もちろん検索もできます。直接は見えませんが,OCRで抽出したテキストがビットマップの文字の下に隠れているのです。
これにより,PDFの特徴である,テキストデータを使う高速全文検索による大量の既存文書の検索を実現すると同時に,オリジナル文書の再現性を確保できます。
Acrobat Captureはなぜ,ビットマップイメージを画面,プリントアウトで使いながら,テキスト情報をもたせるようなフォーマットになっているのでしょうか。原本の再現性の点で,ビットマップイメージに勝るものがないからです。なぜ,アメリカの官公庁がこのフォーマットで電子化を進めているのかというと,原本性確保そのものなのです。
デジタル化技術はこれからが本番
いったん紙になったもの,戦前の新聞,古文書,大統領のサインのある文書など,既存の貴重な文書を電子化して公開することは,社会的にも大きな価値があります。しかし,私たちが現在持ち得る技術には限界があります。すべての文字の形をフォントに置き換えることも,OCRで識別することもできません。しかし,いずれは高度に発達したコンピュータ技術が,まるで熟練した人間のように,人に代わって文書を認識してくれる時代がくるでしょう。
Acrobat Captuerが実現した,ビットマップイメージを残した形で電子化されたPDF文書は,将来にわたって原本性を確保する一方,そうした新しい技術が実用化されれば,再度新しい形での電子化が可能です。いわば,未来へ印籠を渡すという新しい考え方(可能性)をわれわれに提供してくれます。
Acrobat Capture日本語版の情報はまだ明らかになっていませんが,ハイパーギア※3では同様の機能をもつ製品を開発・販売しています。
来年3月をめどに官報がXMLベースで電子化されますが,昔の新聞ならではの趣ある広告,写真やイラスト,書体といった,その時代を醸し出す雰囲気(官報にはないでしょうが)は,紙面そのものを見なければ感じ取れないものです。次の世代に残せる確かな電子化が今,求められています。
※1 http://www.somucho.go.jp/gyoukan/kanri/990413.htm#0352
※2 http://www.somucho.go.jp/gyoukan/kanri/bun30_3.htm
※3 http://www.hypergear.com
(「Digital Document」は月刊プリンターズサークルに連載しています。詳しい内容はプリンターズサークル12月号の記事をご覧ください)
月刊プリンターズサークルと最新号のご案内へ
購読お申し込みはこちら
月刊プリンターズサークル12月号特集「2000年印刷ビジネスのキーワード」へ
月刊プリンターズサークル12月号連載,デジタル営業見聞録「雑誌では得られない「生きた」情報」へ
2000/01/03 00:00:00