【DTPキーワード】テキストのエンコード

掲載日:2016年9月2日
このエントリーをはてなブックマークに追加

テキストとエンコード

テキストデータはコンピューターなどで扱われる文字情報である。この文字の集合を同時に扱うために規則的に符号化された一定の範囲で扱う仕組みをエンコード(文字コードと同意)という。この種類によって文字種が異なる、表示できないなどの文字化けになることがあるため注意が必要である。

テキストファイル

一般にデータが文字コードのみで構成される保存形式をいう。

プレーンテキスト(TXT)

フォント、色、大きさ、レイアウトなどの属性情報を持たない純粋な文字や記号などと、改行やタブなどの基本的な制御文字をいう。機種依存文字を除いてす
べてのコンピューターで互換性がある。

リッチテキスト(RTF)

文字や記号に加えて、その文字の大きさや色、書式などの情報が、タグと呼ばれる制御記号を用いて文書中に盛り込まれた文字データをいう。

文字のJIS規格

日本工業規格(JIS)が日本で最初に「情報交換用漢字符号系」として規格化し制定したものである。文字のJIS 規格は改正や新たな制定を重ねることで、事実上多くの規格が存在し混乱のもとにもなっている。

シフトJIS

1982 年にマイクロソフト、アスキー、三菱電機などが共同で策定し、日本のパソコンに最初に採用したコード体系。JISコードを移動(シフト)したものである。MS-DOS やMicrosoft Windows、Mac OS、一部のUNIXなどで使われている。

EUC

Extended UNIX Code の略で、UNIX で使用するコード体系である。日本語UNIX システム諮問委員会の提案に基づいて1985 年にAT&T が定めた、複数バイトの文字を扱う文字コードの枠組みである。日本語だけでなく複数バイト言語の各国の文字コードが規定されている。日本語のEUC コードを特に「EUC-JP」「日本語EUC」と呼ぶこともある。

UTF-8

UTF-8とは、Unicode の16 ビット文字セットを、8ビットのバイト列に変換するための技術仕様のことである。UTF-8 方式を用いて文字列を変換すると、Unicode の最初の128 文字を変換した結果がASCIIコードと全く同じになる。そのため、旧来の処理システムとも親和性を高く保つことができる。

UTF-16

UTF-16 とは、Unicode、または、UCS(Universal multi-octet coded Character Set )を16 ビットを単位とした可変長マルチバイトでエンコーディングする方式のことである。UTF-8 とUTF16 の違いは、文字を表現するときのビット単位が異なる。UTF-8は8ビットの可変長マルチバイトで文字を表現し、UTF-16 は16 ビットの可変長マルチバイトで文字を表現する。

UTF-32

世界の主要な国のほとんどの文字を収録するコード体系である。Unicodeのすべての符号位置を固定長の符号単位として32ビットで表現する文字符号化形式である。1文字当たり4バイト使用するため UCS-4 ともいう。

SKコード

写真植字機、専用組版システムの製造販売および書体の開発販売を行う、株式会社写研の電算写植機で使われる独自の文字コードシステムをいう。

CID

Character IDentified-keyed fontの略で、Characterは個別の文字や記号などでIDentifier は識別子を意味する。アドビシステムズが開発したPostScript フォントの仕組みの一つで、OCFフォントに比べてファイルの構造がシンプルでデータも比較的小さい。文字詰め情報を持つことができ、異体字変換などに対応している。

SYLK

Symbolic Link File の略でシルクと読む。表計算ソフトであるマイクロソフトのMultiplan で採用した、汎用的なテキストベースの保存形式である。セルの番
地情報に加え、セル内の文字と数値を区別する情報などが含まれる。拡張は.SLKである。主に表計算ソフトやデータベースソフトなどでデータ交換用に使われる。

有限会社 セネカ
代表取締役
野尻 研一
(Jagat info 2014年5月号より転載)

DTPエキスパート
出願・更新希望の方はこちら

資格制度