2.1  ページネーションのデータ

コンピュータの中で、文字・画像・図形データのそれぞれがどのように扱われるか(コード・ピクセル・座標値)、それぞれの細部内容(コード体系・画像処理内容・図形データのもち方など)を理解する。


2.1.1  データの表現

コンピュータ内部でのデータの基本である2進数と、それを人間が扱う際に使用する16進表現との対応を理解する。

◆ コンピュータの中では、すべてのデータを0と1の2通りの状態しかない2進数で表して処理をする。
◆ 2進数(バイナリ)では「0」と「1」だけが多数桁並ぶため、人がデータを識別するのが困難である。そのため、2進化10進表現(BCD)や16進表現(ヘキサデシマル)でデータを表す。
◆ 16進表現と10進表現、16進表現と2進表現の対応を知っておくことが必要である。
◆ デジタルの最小単位であるビットは、主に通信の世界で使われるものでデータを扱う場合は、1バイト=8ビットが単位となる。
◆ 実際にはコンピュータのハードウェア/ソフトウェアでは、2〜8バイトをワードという単位で処理する。
◆ 1バイトは10進数で0〜255に相当し、文字なら最大256字の識別ができる。2バイトならその2乗で、色を表現するのに1ドットあたり2バイト用いると最大65536色表示になる。


2.1.2  文字データ

◆ コンピュータは、文字をコード(符号)化して、その値で識別している。文字コードとは、例えば日本語のある文字の範囲(文字セットという)の文字の1つずつに識別番号を割り振ったものである。
◆ 異なるコンピュータシステム間での文字データの交換を可能にするために、基本となる文字セットの文字コードは標準化が行われている。
◆ 文字コード系が異なれば、コード化している範囲も、コード番号も異なる。
◆ 入力や編集の各段階で、文字データを受け渡しする場合は、どのような文字コードを使用して作成されているかを慎重に確認する。

2.1.2.1  常用漢字表と表外漢字字体表

◆ 明治以降、日本の漢字は『康熙字典』典拠の字体を標準の字体としてきたが、第2次世界大戦後、漢字を制限し最終的にはなくす方向の政策が行われた。その具体的な実施が1946年の「当用漢字表」1850字の告示であった。その2年後には「当用漢字字体表」が告示され、約600字が簡易体となった。当用漢字表の「当用」とは、さしあたりこれらの漢字を使うという意味である。
◆ 1981年には「当用漢字表」の改正ともいうべき「常用漢字表」が告示された。これは当用漢字に95字を加え1945字としたものである。これが現在の字種、音訓、字体の標準となっている。
◆ 小学校で習う「教育漢字」は、「常用漢字表」から1006字を抜き出したもので、小学校6年間の学年ごとに学習する漢字が学年別漢字配当表に定められている。
◆ 「常用漢字表」には比較的よく使われる「噂」「匂」「辻」などの漢字がないこと、また常用漢字以外の文字(表外漢字という)に『康熙字典』を典拠としない俗字が出て混乱をきたしそうになったことで、新聞社や印刷会社などから表外漢字の字体標準化を求める声が強くなった。そのため2000年、国語審議会は「表外漢字字体表」を答申した。
◆ 「表外漢字字体表」は主に康熙字典体を典拠とする「印刷標準字体」以外に、すでに広く使われている字体を容認した簡易慣用字体を22字決めている。また部首についても「3部首許容」を示し、しんにゅう、しめすへん、しょくへんの3種の部首についてはすでに使われている簡易体でよいとしている。これより「辻」は「辻」でもよいことになる。このように国語審議会の答申になった「表外漢字字体表」は、「常用漢字表」と異なり、すべての漢字を1種類の字体で示しているのではなく、一部許容される幅を設けている。
◆ 「表外漢字字体表」とJISコード表の関係を見ると、JIS X 0213:2004が対応している。ただし、漢字の字種全体をみれば、JIS X 0208の「包摂」の概念と一致していないこと、また簡易慣用字体と3部首許容については、個々のコンピュータのOSやアプリケーションに依存してしまうなど課題も多い。

2.1.2.2  JIS X 0208

◆ JIS X 0208の漢字の選定は、文部省管轄の「常用漢字」および法務省管轄の「人名用漢字」を合わせた政令文字を基礎に、他の必要な文字を追加して作られた。
◆ JIS X 0208は、JISにおける漢字コードとして1997年「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」で規定された。それ以前の、1978年、1983年、1990年版とは字数や基準にしている字形に差があるが、最新版を使うことが原則である。
◆ JIS X 0208の第1水準漢字は教育漢字のように50音順に並んでいるが、第2水準漢字は漢和辞典のように部首順に並んでいる。
◆ 漢字数は、JIS第1水準が2965字とJIS第2水準が3390字と、合わせて6355字になる。規格票には例字が示されているが、その字形のわずかな差はあってもよいこと(包摂)にしており、漢字の骨格の細部まで決めていない。
◆ 符号表は第1バイトの並びが「区」、第2バイトが「点」として、それぞれに1〜94までアドレスが振られ、区点表示はこれらを組み合わせて4桁の10進数字で文字を特定する方法である。
◆ 非漢字の中には外国文字セットとして、アルファベット、ギリシア文字、ロシア文字が含まれる。
◆ JIS漢字コードに準拠したシステムで作成した文字データであっても、機器メーカーが独自にX 0208にない文字を追加したり、ユーザが独自に登録した文字が含まれる場合がある。これらメーカー独自文字とユーザ登録文字を外字(コード体系外の文字)といい、外字を異なるシステム間で交換するのは困難である。
◆ JISのコード体系を使っていても、JIS未定義エリアの文字コードについては、他のシステムへデータを渡したときの再現が保証されていない。

2.1.2.3  JIS X 0213

◆ JIS X 0213は、JIS X 0208が郵便番号簿、検定教科書、現行法令、人名漢字など不足の漢字があったため、JIS X 0208を包含する規格として2000年に制定された。
◆ JIS X 0213では、JIS X 0208に対して非漢字659字、漢字は第3水準の1249字と第4水準の2436字の合計3685漢字が規定された。
◆ JIS X 0213の文字コードは、94×94の表が2面ある構成になっており、1面に非漢字、第1〜第3水準漢字が配置されている。94×94の表の行と列は、JIS X 0208と同様、区と点と呼び符号化表現の第1、第2バイトにそれぞれ対応し、これに面番号を加えた面区点番号で表す。

2.1.2.3.1  JIS X 0213:2004

◆ 2004年に改正されたJIS X 0213:2004は、国語審議会が2000年12月に答申した「表外漢字字体表」に沿って、168字の例示字体の変更と漢字10字を追加した。しかしこれはJISが「表外漢字字体表」中の例示字体にのみ対応しているという意味ではない。包摂によってすでに広く使われている字体にも対応している。
◆ JISにおける「例示字体」とは、JIS X 0213:2000の付属書6に次のように記載されている(この部分はJIS X 0213:2004にも適用される)「ここで示す例示字体、部首、画数、音訓などは、一般に用いられている漢字とこの規格でビット組合せを規定する図形文字との対応を示し、文字の同定を容易にするためだけに用いるのであって、漢字の字体・字形、部首、画数、音訓などに対して、何ら制限をするものでもなく、また、いかなる基準を与えるものでもない」。
◆ JIS X 0213:2004の改正の主目的は、文部科学省の国語施策と整合性をもたせることであるが、例示字体およびその包摂規準も含めて、字体や字形を定めるものではない。文字の同定を行うための情報にすぎず、字体についての標準はあくまで、「表外漢字字体表」を参考にしなければならない。

2.1.2.3.2  JIS X 0213:2004とWindowsVista

◆ 「表外漢字字体表」に最初に対応したのがWindowsVistaに標準装備されているMSゴシックとMS明朝のVersion5.0であるが、正確には「表外漢字字体表」中の印刷標準字体に対応しているというべきである。
◆ MSゴシック、MS明朝のVersion2.5のフォントをマイクロソフトのホームページよりWindowsVistaにダウンロードすることで、旧来の字形表示の互換を得ることができる。
◆ Adobeのフォント環境であるAdobe-Japan 1-6はAdobe独自のグリフ集合であり、それに対応したOpenTypeは、一部のアプリケーションで字体切り替えができ、表外漢字字体表に対応することができる。
◆ 印刷原稿としての適切な文字への対応は、できるだけ印刷ワークフローのフロント部分で処理されるべきであり、正しい文字の処理が後工程まで引きずらないというのが、間違いのない印刷物を作るためにも必要である。

2.1.2.4  シフトJIS

◆ シフトJISは、JIS X 0201(半角英数字と半角カナ)と、JIS X 0208(第1水準と第2水準の漢字と非漢字)を表現するため、JIS X 0208の2バイトの最上位ビットを1にして漢字を扱うものである。
◆ 文字の配列は、JIS X 0208に基づいてもコード系を区別する制御記号を使わない体系であり、代表的なものにMicrosoft社の普及させたシフトJISがある。
◆ シフトJISは、1バイトコード体系(255個)で未定義の欄C8、C9、CEを、2バイトコードの1バイト目に使う方式で(それぞれ16進法で81〜8F、90〜9F、E0〜EFとなる)、簡単な計算処理でJISコードに変換できる。1997年版のJIS X 0208から規格として認められている。

2.1.2.5  JIS X 0221とユニコード

◆ ISO(国際標準化機構)とIEC(国際電気標準会議)が定めた万国統一文字コード規格「ISO/IEC 10646-1 Universal Multiple-Octet Coded Character Set」(UCS)をJIS化したのがJIS X 0221である。
◆ UCSの全体構造は4バイトコードで、上位から1バイトずつをそれぞれ群、面、区、点と分けて表す。
◆ このうち2バイトで1文字を表すUCS2は、群と面がともに00hの面、すなわち区と点だけを使って表すものをいう。これはUnicodeと同じもので、1面だけを基本多言語面(BMP)ともいう。
◆ 基本多言語面は、アルファベットと記号類が約2万字と、漢字はCJK統合漢字が約2万字含まれており、この1つのコードで各国の文字を包含している。JIS X 0208と異なり、制御文字のエリアにも漢字を割り当てている。
◆ UCS-2では1つのコードでユニークなグリフを表しているわけではなく、中国、台湾、日本、韓国のそれぞれの字体の「ゆれ」を許している。実装面でどの文字を使うかを指定する仕組みとして、Windowsではロケールという機能で、日本語と中国語での漢字表示の切り替えをする。
◆ 日本のJIS X 0208とX 0212(補助漢字)の文字が全部含まれているが、その並び方はまったく異なる。
◆ Webやメールが多言語対応になり、Unicodeが使われることが増えているが、ファイルのエンコード方式は、ASCII、UCS-2、UTF-8、UTF-7など多様であり、テキストをカット&ペーストする際は文字化けに注意が必要である。

2.1.2.6  外字

◆ 同じ文字コード体系のシステム間でも、一部の文字の表示・出力が意図しないものに変わってしまうのは、表示や印字のフォント実装の方法が個別に異なることに原因がある。
◆ 「@」などJIS X 0208で定義されていないグリフを外字といい、機種、OS、フォントにより独自に拡張されていた。これらを「機種依存文字」と称し、通信や原稿ファイルに使うと、異なる環境での再現が保証されない。
◆ Unicodeにおいても過去のシステムとの互換を取るために拡張文字として同じ文字が複数のコードに割り当てられているものがあり、異なるシステム文字コード体系に変換しても表示されないことがある。
◆ Mac OS Xからは、内部構造をUNIXベースにしてUnicodeへの対応が図られた。AdobeのAJ1-5グリフセットは、JIS X 0213、写植の外字グリフ、常用漢字の表外漢字ほかを含んで拡張されているため、他システムのフォントと互換性のないものもある。

2.1.2.6.1  外字ソリューション

◆ SINGとは、Smart Independent Glyphletsの略で、Adobe CS2において本格的に採用された外字ソリューションである。
◆ 従来、外字を作成する場合は、Illustartorでグリフを作り、画像としてレイアウトソフトに貼り込んだり、FontoGrapherなどで外字用の1バイトフォントを作成していた。しかし、画像では貼り込み位置の確認が難しく、また1バイトフォントではグリフと禁則処理の関係に整合性がないこともあるなど、問題があった。
◆ SINGのワークフローで作成した文字は、グリフレット(拡張子は「gai」)と呼ばれる、小さなフォントファイルとして保存され、1文字分の字形情報と付属情報(メタデータ)を持っている。フォントに組み込まれた文字として扱われ、保存するときに、ドキュメントに埋め込まれる。外字フォントをドキュメント自身が持つことで、入力や編集、出力などに一貫性を持った作業が容易になる。


2.1.3  図形データ

図形データの特徴、各種データのもち方の原理と特長を理解する。

◆ 図形データは、座標値と直線・曲線を定義する式から構成される。自由曲線の定義方法にはスプライン、ベジェなどがある。

2.1.3.1  スプライン

◆ スプライン曲線とは、指定した点をスプライン(自在定規の意味)関数を使って滑らかな曲線で結んで曲線を表現する。
◆ ベジェ曲線ほど操作の自由度は高くないが、すべての点が曲線上に位置するため、ベジェ曲線よりは計算が簡単になる。

2.1.3.2  ベジェ

◆ ベジェ曲線では、始点と終点およびその間に2つの制御点を指定する。制御点は曲線の外側にあり、これを移動させることにより曲線を変化させられる。
◆ 任意の自由曲線が制御点の移動で描け、また一度描かれた曲線の変更が容易であるのが特徴である。
◆ PostScriptでは、文字と図形の基本を直線とベジェ曲線で表している。


2.1.4  画像データ

連続的に濃度が変化する画像をどのようにして、コンピュータのデータにするか、また画像データのファイルの形式には、どのようなものがあるかを理解する。

2.1.4.1  画像のデジタル化

◆ 画像をデジタル化する場合、画像を一定の間隔で最小の単位(画素=pixel)に分割し、各画素に対する平均の濃度を求める。これをサンプリング(標本化)という。
◆ 各画素あたりの濃度の情報は、本来連続的に変化しているものを、一定数の段階に分けて処理することを量子化という。通常10ビットなら1024段階、8ビットなら256段階で量子化が行われる。
◆ dpiとはdot(s) per inchの略で、レーザプロッタなどラスターイメージをドット単位で出力する際の露光の密度を表す。
◆ ppiとはpixel(pels)per inchの略で、スキャナでアナログの画像をデジタル化する際の画素のサンプリング密度を表す。
◆ lpiとはline(s) per inchの略で、アナログのfaxのようなラスター信号を扱う場合やハーフトーンの線数を表す。

2.1.4.2  デジタル画像の精度

◆ デジタル画像は必要以上に精細にデータ化すると、作業効率が落ち、逆に出力に対して粗い設定になると、品質が著しくそこなわれる。そのため一般に出力に必要な大きさや解像度から逆算してスキャニングする。
◆ カラー画像をスキャンする際に、入力解像度を決定するためには、出力線数の2倍をベースに、入力と出力の拡大縮小率を加味した解像度にするのが一般的である。
◆ 画像データに必要な解像度は出力線数の2倍が目安だが、低い線数の出力に比例して入力解像度を下げるのは不適切であり、逆に必要以上の高解像度で入力しても、画質の向上には結びつかないことがある。
◆ 出力装置の解像度により必要な階調数と画素数が決まる。2400dpiの出力装置で200線相当の網点出力の場合、1つのハーフトーンセルの1辺は12ドット相当となり、そのハーフトーンセルで表現できる階調数は144となる。

2.1.4.3  画像データのフォーマット

◆ 濃度変化のある画像をデータ化するには、濃度レベルの段階数とその表現方法、記録する方向、画像の大きさその他の形式を決定しておく。
◆ 画像データをファイルに書き出す場合には、画像データの形式とファイルフォーマットを選定する。
◆ 図形と画像のフォーマットは、パソコンのようなプラットフォーム側が決めたPICTや、アプリケーションソフトが決めたTIFF、出力側が決めたPostScript / EPS、情報規格であるJPEG、そのほかそれぞれの業界での主流のものなどが混在している。
◆ TIFFは、Aldus(現、Adobe)、Microsoftなどが集まって制定したもの。新たにタグを作ることで独自に拡張が可能だが、互換性がなくなる。
◆ PICTは、Mac独自のフォーマットでQuickDrawコマンドをファイル化したものであり、Macのアプリケーションに広く対応している。
◆ BMPは、WindowsとOS/2で標準的に使用されているビットマップデータ専用のフォーマットで、24ビットRGBカラーや8ビットインデックスカラーに対応している。
◆ GIFやPNGは、WEBなどオンラインで小サイズの画像データを扱う場合に広く使われる。
◆ JPEGは、人間の目にわかりにくい部分の情報を間引くDCT(離散コサイン変換)という技術を中心にし、主に非可逆の高圧縮に用いられる。
◆ JPEG2000は、JPEG圧縮で目立つノイズが発生せず、より高い圧縮率が可能なウェーブレット変換に基づいている。電子透かしの挿入もできる。
◆ デジタルカメラ画像には、タグ情報ももてるExif、TIFF-RGBなどが使われる(1.4.1.2 RGBデータ入稿参照)。
◆ EPSは、レイアウトソフトでPostScriptファイルの中に埋めこんで使うことが多い。PostScriptで記述できる全オブジェクトが対象である。
◆ PSDは、Photoshopのネイティブ画像形式で、Photoshopの機能を残したまま画像を保存できる。InDesignやIllustratorがPSDをサポートしてきたので、近年はネイティブ形式のままで使用することも増えている。

2.1.4.4  TIFF

◆ TIFFはTag(ged) Image File Formatの略で、MacやWindowsなどで最も広く使われている。異なる多くのシステムやアプリケーションとデータのやり取りができ、互換性が高い。
◆ TIFFにはさまざまな拡張や種類があり、個々のプログラムで少しずつ異なった記述がされており、拡張されたTIFFで保存された画像はプログラムによっては読めない場合もある。RGBのTIFF、分版出力用のCMYK-TIFFなどに加え、JPEG-TIFFやYCC-TIFF、さらにはLab-TIFFまで定義されている。
◆ TIFFはデータ処理に必要な用件をタグという形で書き込める構造である。読み出すコンピュータはタグに基づいて処理をすればよいので、TIFFは拡張しやすく、ハイエンド用TIFF-ITや報道写真用など「業界規約」があり、必ずしも一般的なアプリケーションで読めるとは限らない。
◆ TC130のTIFF/ITをベースにした日本新聞協会のNSK TIFFや各社の画像処理システムで1bitTIFFの2値画像データが利用されている。

2.1.4.5  EPS

◆ EPSとはEncapsulated PostScriptの略で、PostScriptの記述様式のひとつである。1つのPostScriptのページの中に、レイアウトソフトなどを使って、PostScriptで記述された別の画像や小組みを埋め込むために、Adobeの文書構造規約DSCに従ってカプセル化したものである。
◆ EPSファイルには、「%!PS-Adobe-3.0EPSF-3.0」のように、EPSFのバージョンや作成ソフト名など、ファイルに関する諸情報がヘッダに記述される。DSCコメントに必須であるのはEPSFという文字列と、領域を表す%%BoundingBoxである。
◆ TIFFやPICTファイルをプレビューファイルとして添付する場合がある。アプリケーションによって添付されないとグレーの枠が表示される。

2.1.4.6  GIFとPNG

◆ GIFは、Graphics Interchange Formatの略で、ネットワーク上でのグラフィックスデータのオンライン転送のために考えられた。
◆ GIFは、最多で256色のパレットを使った8ビットのインデックスカラーをサポートしており、最大65,536×65,536ピクセルの大きさのイメージが扱える。
◆ GIFは、LZW圧縮を使い、複数のイメージのシーケンスやオーバレイ、画面に対するインタレース方式での描画、テキストのオーバレイなどの機能がある。仕様は、87aと89aがある。
◆ GIFは、イラストや図形などの色数が少なくて済むイメージをWEB用に保存する場合に向いている。連続階調の写真画像の保存には向かない。
◆ PNG(Portable Network Graphics)は、W3CがGIFの機能を向上させてライセンスなしで使えるフォーマットとして推奨している。
◆ PNGは、64ビットRGBカラーまでサポートしており、透明情報が持てる。


2.1.5  文書データ

2.1.5.1  テキストデータ

◆ 一般にDOSテキスト形式といわれるような、目に見える文字以外はスペースや改行とかタブコードだけを使って構成されたファイルをプレーンテキストという。
◆ プレーンテキストは異なるコンピュータ環境や、異なるアプリケーションでも文字コンテンツが変わらないので、文章原稿データの整理の段階や原稿データの保存に広く使われる。


2.1.6  PDF

◆ PDF(Portable Document Format)はDTP環境で作成された文書を、表現の再現性を確保しつつ、デジタル化された文書データとしての利用を拡張する。PDFは書籍のメタファーとして特段の予備知識もなしに利用でき、紙媒体への標準出力フォーマットでもある。
◆ 従来のPostScript環境では、文書ファイルの独立性が低く、フォントの有無やファイルの複雑さによって出力できなかったり、処理時間が予測できないことがあった。
◆ PDFはPostScriptのプログラミング言語的な要素を取り払って、表示のためのプリミティブな演算子を並べた構造をもつ。
◆ PostScriptは先頭から解釈しなければ特定ページの内容が決まらず、任意のページだけの処理ができないが、PDFはページごとに切り分けて処理を行うことができる。
◆ PDFでは、ファイルサイズを小さくするために、テキストや円、四角などのラインアートはLZW圧縮し、カラーイメージはJPEG圧縮する。
◆ PDFではフォントを含めた全オブジェクトが、ページ単位でデータとして記述される。任意のページが独立したPDFであるので、ページ単位で差し替えが可能である。
◆ 文字コードは、Mac、Windows、UNIXそれぞれのエンコーディングが違うため、PDFは独自にニュートラルなエンコーディングに変換し、文字を自動置換することもある。
◆ PDFはICCプロファイルの埋め込みやプロファイルを参照した色変換を行うことができ、印刷データを遠隔地に配信してリモートプルーフを行う場合に利用できる。
◆ PDFには、電子署名機能、コメント記入などが行える注釈(annotation)機能、パスワードと128ビット暗号化によるセキュリティ機能などが装備されている。

2.1.6.1  PDFでのフォントの扱い

◆ フォントの埋め込み(エンベッド)とは、アウトラインを記録するということではなくフォントの属性や性質をそのまま維持し、再現できる仕組みをいう。2バイトフォントの埋め込みでは、OCFフォントはサポートされない。
◆ PDFを作成するAcrobatなどのプログラムが、文書中のTrueTypeやType1、OpenTypeによるフォントデータを取り出し、埋め込みに必要な処理をする。

2.1.6.2  PDF/X

◆ PDF/Xは、CGATS(Committee for Graphic Arts Technical Standards)によって標準化され、ISOに規定された印刷用データ交換を主眼にしたPDFの規格である。
◆ PDF/Xには、PDF/X-1a、PDF/X-3などいくつかの規格がある。PDF/X-1aは、PDF1.3ベースで、画像が実画像であること(OPI禁止)、CMYK(Bk)+特色の範囲に限定されること、フォントがすべてエンベットされていることなどが規定されている。またPDF/X-3では、これに加えてLabカラー、ICCベースのカラースペースがサポートされている(それ以外はPDF/X-1aと同じ)。
◆ PDF/Xは、PDFの自由度を制限し、カラー・フォント・トラッピング・ハーフトーンなどPDFの仕様に制約を与えることにより、印刷における信頼性を高める仕様となっている。ただし、PDF/Xは、あくまでもフォーマットのみを規定するもので、結果として出力は保証できるものの、品質を保証するものではない
◆ PDF/Xによるデータ入稿のもっとも大きな利点は、カラースペース、フォントや画像に関する規定が明確になっていることで、出力に関するトラブルを回避し信頼度が向上すること、またフォントやOS、アプリケーションのバージョン等、出力側の環境に依存しないことである。
◆ PDF/Xによる印刷データ入稿では、データ製作側で校正済みの完全データを製作することが原則である。
◆ PDF/X-1a標準に準拠したファイルでも品質が保証される訳ではなく、解像度や版数、オーバープリントやトラッピングの処理は適切に行っておくことが必要である。
◆ CTPワークフローにおいて、デジタルフィルムとして使用されるレンダリングの済んだ中間ファイルを処理する場合、はじめに中間ファイルを作成したレンダリングのエンジンと受け取るレンダリングエンジンが同一でないと、RIP結果の互換性が保障できない。つまりAdobePDF Print Engineであっても、アプリケーションと同様に受け取るサイドが同じコアでなければ、RIP結果の互換性は保証できない。
◆ PDF/X-4は、2007年から規格が発行され、国際規格 「ISO15930-7」で PDF/X-1aやPDF/X-3の後継の規格として策定されている。
◆ PDF/X-4では、Adobe CS3から正式サポートされている透明が使える機能が追加されたことで文字品質の向上、RGBワークフローの品質向上が可能となる。透明分割・統合オプションの設定には、ラスタライズ/ベクトルの割合設定、ラインアートとテキストの解像度の設定、グラデーションとメッシュの解像度の設定などがある。
◆ 透明の分割統合処理の設定は、出力されるデバイスの解像度もしくは出力環境に依存する。よって分割統合により、文字がアウトライン化される場合もある。AdobePDF Print Engine以前のRIPでは、この透明分割・統合の処理を施してPDFを作成しないと処理ができない。

2.1.6.3  XML/SGML

◆ データの資産性を高めるためには、データが公的な標準に基づき、プラットフォームやアプリケーションから独立している必要がある。そのため、SGMLやXMLなどで作成した文書が重要となる。

2.1.6.3.1  SGML

◆ ワープロやDTPソフトで作成した文書は、実体としてのテキストと、属性としてのレイアウトやスタイルなどが一体になったデータである。そのため、コンピュータが自動的に文書を部品化したり再利用するのに制約がある。
◆ SGML(Standard Generalized Markup Language)は、属性と実体を別々に用意しておき、必要に応じて編集できる。SGMLは直接レイアウトを指定するものではなく、別途レイアウト指示して、フォーマッタを介して出力する。
◆ SGMLはコンピュータの言語仕様であり、この形式で表現された文書データをSGML文書と呼ぶ。
◆ SGML文書は、コンピュータの解析/処理の対象として厳密な構造化を行い、かつヒューマンリーダブルであるために、構造の表現はテキストにタグでマーク付けして行う。
◆ SGMLは、SGML文書実体のほかに、その利用環境に関するSGML宣言、およびDTDといわれる文書型定義の3つの部分から構成される。
◆ SGMLは、DTDで文書の論理構造を定義する一方、DTDの定義に従ってタグ付けした文書実体を作成しなければならない。
◆ DTDを作るには、対象となる文書を分析し、要素や属性を把握して構造化することが必要である。具体的な文書の様式や使用するシステム、また利用形態などからDTDを作る。

2.1.6.3.2  HTML文書

◆ インターネットのホームページには、HTML (Hyper Text Markup Language)とWWW(World Wide Web)の技術が使われている。
◆ HTMLはSGMLのサブセットであり、SGMLと同様にテキストファイルにタグを挿入する。他の情報にジャンプするハイパーリンクも、この仕組みで記述する。
◆ HTML文書はオフラインでも使用できるが、これをWWWサーバに入れて、インターネット上に公開すれば情報サービスを提供できる。
◆ HTMLは機能が限定されているため、SGMLに近づいたXMLが規格化された。

2.1.6.4  XML

◆ XMLはSGMLのサブセットであるが、オンラインシステムに適合する各種の機能を備え、文書/データ両方のデジタルコンテンツに対応する。
◆ XMLはSGMLと同様に、XML宣言/文書型定義/文書実体の3つの部分から構成される。XML文書においてはDTDなど文書型定義を省略した文書形式も可能である。
◆ データの資産性を高めるためには、データが公的な標準に基づき、プラットフォームやアプリケーションから独立している必要がある。
◆ XML宣言ではXMLに使われる文字コードが定義され、文字コードの違いによるデータの互換性の問題は最小限に押さえられる。
◆ XMLでは、紙媒体/オンライン媒体で統一したデータモデルをワンソースマルチユースのために適用することができる。各メディアに依存する表現形式であるレイアウト情報は、内容と分離することによって汎用的なデータモデルを実現する。
◆ XML記述には、DTDなどスキーマ定義を必要としその構造に合ったvalid XML文書と、DTDなどスキーマ定義がなくても検証できる整形式のwell-formed XML文書がある。

2.1.6.5  XMLによるデータ交換

◆ データの表現形式をXMLで標準化すれば、一企業内のコンピュータ処理を効率化できるだけでなく、企業間でも取引データの交換に使える。
◆ 電子商取引プロセスの標準化を目指して、複数のバイヤーとeマーケットプレイスの間のメッセージングにcXMLが使われている。
◆ 各業界ごとに、医療機関相互のMML、デジタルデータ放送ではBML、新聞ではNewsMLなどの技術があり、印刷の受発注や工程間の情報交換にはJDF、CIP4がある。
◆ XMLによるデータ交換において、相互で同じ文書型を用いている場合は問題ないが、異なる文書型ではそのままでは交換できないことになる。この解決のためにそれぞれの名前空間を文書型で定義する。

2.1.6.6  XML文書のレイアウト

◆ XMLによって記述されたXMLデータには、どのような体裁で紙面やWebブラウザなどに表示されるかを指示するレイアウト(スタイル)情報は含まれていない。XMLデータを表示するためには、XMLデータの構造を文書の整形を行うアプリケーションであるフォーマッタが受け付けるオブジェクトへと構造変換する処理と、文字の大きさや色などのスタイル付けをする処理が必要になる。
◆ XSL(Extensible Stylesheet Language)は、XML文書にスタイルを設定して、画面や印刷などの書式を整えたり、組版を行うための仕様である。
◆ XSL-FO(XSL Formatting Objects)は、組版のためのXMLに準拠したマークアップ言語であり、XSLで定義されている組版対象オブジェクトのことや、XSL仕様そのものを指すこともある。
◆ XSLT(eXtensible Stylesheet Language Transformations)は、XMLデータの構造変換を指定する部分を独立した規格として取り出したのものである。
◆ XSLTには、変数や関数、繰り返しや条件付き処理などさまざまなプログラミング機能が盛り込まれており、複雑なデータ変換処理にも対応できるよう設計されている。XMLのデータ構造を変換する機能は、あるXMLデータから別フォーマットのXMLデータやHTMLデータ、テキストやCSVなど非XMLデータへの変換を実現する。そのため、XMLデータをWebブラウザ表示のためにHTMLへ変換したり、汎用コンバージョンツールとしても活用できる。
◆ 文書レイアウトを指定するタグが廃止され、Webブラウザの表示をすべてCSS(Cascading Style Sheets)で制御するのがXHTML(eXtensible HyperText Markup Language)である。XHTMLにより文書の構造記述に特化することになり、XSLTの変換をすることで、Webブラウザ以外でもコンテンツを有効に活用できるようになる。HTMLで書かれた文書をこの形式に書き換えることは比較的容易であり、各種変換用ツールも存在する。

2.1.6.7  メタデータ

◆ メタデータとは、データの内容に関する付加情報やデータの属性を表すものの総称である。
◆ OSレベル、アプリケーションレベルでも、ファイル情報やプロパティとして、作成者名、コメントなどの情報を自動的に記録したり、任意に書き換えることができるものもある。たとえば、Photoshop CSでは、画像にキーワードなどのメタデータを付加することができる。
◆ Webでは、内容に関する情報(メタデータ)をWebページに持たせることができるが、さらにXMLの技術を使ってコンピュータがそのページの意味を理解できるようにし、情報を自動的に処理させる取り組みがなされている。
◆ ニュースなどでは個別サイトで作られるニュースのサマリーを横断的に検索するために、XML名前空間とRDFに基づいたRSS配信が始まっている。これはアプリケーションや企業・共同体を超えて、データを共有し再利用することを目的としたセマンティックWebの一環である。
◆ ダブリンコアは、Web上のリソースを記述するためのメタデータの共通語彙で、著作者、タイトル、主題、作成日時などの15の基本要素語彙がある。
◆ ダブリンコアは、RDF/XMLやHTMLなどのWeb文書に埋め込んで利用する。
◆ DTPの分野では、Adobeアプリケーションファイルにメタデータを埋め込む技術にXMPがあり、CS製品に実装されている。XMPに対応したDTPアプリケーションでは、アプリケーションファイル中のメタデータを読み書きできる。
◆ IPTC(国際新聞電気通信評議会)は、独自に策定した画像のIPTCメタデータをXMLベースのプラットフォームXMPで利用するためのIPTC Core Schema for XMP をAdobe社と協力して開発、これを利用して、連絡先情報、キャプション、クレジットなどの特性を写真などに埋め込むことができ、コンテンツ管理システムでの読み取りや記事に掲載したい写真の見直しなどに利用できる。

カリキュラム目次へ