本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。

ネットワーク対応のドキュメント管理

 スピードが要求される時代では,これまで蓄積されてきた情報や知識,ノウハウをいかに有効活用できるかがポイントになる。
 いろいろなデータを一元管理する方法を総合的に提供する製品群「imageWARE」シリーズについての概要,関連する検索技術や高圧縮PDF変換技術についてキヤノン映像事務機事業本部江尻征志氏に伺った。

ImageWAREシリーズ概要

 キヤノンは「Document Cycle」をキーワードとして,製品開発を行っている。従来,アナログ複写機を開発していたが,最近はデジタル化が進んでいる。さらにスキャナやオフィスでも使用でき,SOHOなどをターゲットにしたマルチファンクション機MultiPASS(スキャナ,プリンタ,FAX,コピーも兼ねる)のような入出力機器を開発,販売している。

 一般的に,MS-OfficeやDTPと言われるアプリケーションを使用して編集する。それをプリンタに出力し,複写機でコピーする。紙の文書を読み取り,どこかに保管したり再利用することもある。またファックスで送ったり,最近はスキャンした電子データをメールに添付して送ることもある。それらを保管して,retrieve(再利用)する。このように,edit→distribute→print→copy→scan→send→save→retriveという作業が,イントラネットだけではなくインターネットの環境まで含めて循環する。これを捉えてキヤノンは「Document Cycle」をキーワードとしている。

 Document Management Systemとは,Document Cycleに関するsave,retrieveの部分である。retrieve,editに関しては,Form ManagerやPublishing Managerが,蓄積されているドキュメントをいかに利用するかをカバーする製品である。
 さらにプリント機能のために,通常のローカル接続のプリンタやネットワークプリンタに出力するだけではなく,ネットワーク中の複数台のプリンタに一度に出力することもできる。10枚/分のプリンタで出力にかなりの時間を要しても,3台に分けて同時に出力すれば3倍のスピードになる。プリンタを24時間回してしいるオフィスはない。プリンタのダウンタイムを少なくすることで,実質的に安い物でも高速な物を手に入れたのと同じ結果が得られることを目指し,Output Managerで実現している。

概念検索の概要

 イメージデータで探したり,作成日時でデータを探す属性検索や,アノテーション(Annotaion)と言われるオリジナルのイメージデータに,イメージとして付せんを貼ってメモ書きをするようなものがビューアの中でできる。
 次にDocument Managerで備えているのが全文検索である。これはWordやExcelのようなOfficeアプリケーションで作られた電子ドキュメントだけではなく,デバイスから読み取ったイメージデータの中にOCRを掛けて文字情報を取り出すものである。

 さらに概念検索を追加提供している。検索する文書に自由文を入力すると,検索したいユーザの意図を,その文章の中からキーワードとして抜き出す。そのキーワードも単にANDではなく,どのキーワードがどのキーワードに対してどのような関係をもっているという分析をして,何が探したいのかを認識する。その認識した段階で該当するものを検索し提示する。
 ランクとしては,ある判定ロジックでは,100%とは言えないが5割以上の確率で該当のものを表示する。違うかもしれないが該当しそうなものを,ヒット率,マッチングの度合いを示して候補を表示する機能をもたせている。

 概念検索のステップは,検索キーワードを自由文で入力すると,登録文書から単語を切り出す。この段階でいろいろな辞書と逐次参照を行い,その中から単語,文章の意味もある程度解析する。また,同義語,類義語を検索キーワードから自動的に生成し,概念ベクトル解析で,意味合いに関しても配慮するのが概念ベクトル検索である。
 ここに表れた言葉を基にどういう意識,希望をもっているかをある手法で数値化する。数値化したものを,最終的には概念ベクトル辞書をベースに落とし込み,登録されている文書の概念ベクトルの解析とマッチングを取り,最も近いものを選んでくる仕組みである。よって基本的には単語切り出しから,このような展開をして,検索の自由文の意識を数値化し,もともともっている文章を数値化してあったデータとマッチングして,最終的にはこの程度合っているという結果を表示するものである。

高圧縮PDFの変換技術

 Page Analysis Compression Technology(画像解析圧縮技術)で長年研究をしている。大きな意味では像域分離という技術を使うのだが,文字部と背景部に分けて抽出するものである。
 ある特徴を数値化し分離することをベースに高圧縮する。300dpiでスキャンしたフルカラードキュメントを,今までの一般的な圧縮に比べて,はるかに小さくすることが可能になった。

 一般的にフルカラーの高精細画像を電子化すると数MBと大きくなる。よって,ネットワークでの流通も容易ではなく,ストレージや処理時間も次第に増加して良いことがない。ここを高圧縮することはいろいろな面で有効である。
 カラードキュメントをスキャンして,それを高圧縮PDFという仕組みをとおして読み出すことにより,キヤノンの比較で従来機に対して10分の1程度の圧縮が可能である。比較には一般的に使われているカラーイメージをJPEG圧縮し,PDFに落とす方法で,A4サイズ300dpiで1.5MBを使用した。

 通常のJPEGを高圧縮モードで使用すると文字部が劣化する。文字の判読性が良くない状態になり,文字の品質が落ちる傾向になる。JPEGというのはデータが完全に保存される圧縮形式ではなく,情報が欠落することを前提にした圧縮方式である。人間の目には見えにくい写真のようなもので,あまり気にならない部分の情報を落として品位を保つものである。
 文字部分に関しては,どうしてもかなり品位が落ちる傾向になる。それは特に高品位で圧縮すれば気にならないが,高圧縮により圧縮率を上げたJPEGを指定すると,一般的には文字部が劣化する。それはオフィスカラーという面においては不向きであり,この文字部の劣化を最小限にして,最終的に10分の1の圧縮を目指したものである。

 具体的には,あるドキュメントを300dpiでスキャンする。これを普通に圧縮すると1.5MBのJPEGのPDFファイルができるが,スキャン画像を地模様が付いている中の文字や,カラーや白黒の文字,表の中の文字など独自の解析技術で抽出する。それ以外の部分の情報が背景となる。よって地模様,線,表の罫線,図形,写真などと文字を明確に分ける。それらをそれぞれに適した圧縮方式,圧縮率で圧縮を掛けて,一つのPDFとして生成するということが,高圧縮の基本的な原理である。
 これにより,すべてを画像として扱ってJPEGで圧縮したものに比べて10分の1のデータにできる。文字部を抽出し,劣化のないロスレスの圧縮形式を使用するので,圧縮率も高くでき文字部の劣化は,JPEGを掛けても品位の劣化は顕著ではない。

(テキスト&グラフィックス研究会)

2003/12/22 00:00:00


公益社団法人日本印刷技術協会