本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。

外字問題を根本的に解決するインデックスフォント

漢字は甲骨文字から始まり3000年という歴史のあるもので、文字は文化資産である。コンピュータで漢字を扱うための文字コードは、30年程度の歴史しかない。社会的な要請として、漢字は少ない方がよいという考え方もあり、それが国語施策や教育漢字に反映されてきた。
しかし、現在のコンピュータ環境はどんなに文字が多くても扱うことができる。デジタル環境で漢字文化を継承するという課題は、印刷出版業界の重要なテーマとなっている。

文字のインデックス化の必要性

コード化されていない外字は、今まで必要に迫られ、ローカルに、テンポラリーに対応されてきた。印刷会社やベンダーがそれぞれ独自の文字セットを構築し、管理している。また、文字コードの中にも包摂や例示字形の変更などがあるため、文字セットの違いで文字化けが発生する。これらは、文字コードが文字図形と1対1で対応していないために起こる。

文字コードと文字政策も紆余曲折があった。文字政策では当用漢字表、常用漢字表に始まり、表外漢字字体表、文字コードは78JISから始まってJIS2004となり、Unicodeは1993年の1.1からUnicode3.2へと変遷している。これらの中には、さまざまな包摂基準があり、同一のコードでありながらさまざまな字形を含んでいる。

このように見ると、文字コードだけで外字問題は解決しない。重要なのは文字共有基盤としてのインデックスである。文字図形に番号を付け、それぞれの図形を管理しないと、いつまでも混乱が続く。文字図形に1対1で対応する番号を付け、その番号を皆で共有する。異なったコード体系間では、この文字図形番号を中間テーブルとして運用することで解決の道が開けるのではないか。クローズドのシステムであれば独自のコード体系で運用できたが、インターネット環境では、共通化の仕掛けがなければ、クロスメディアに対応することはできない。

文字共有基盤として、規格の例示図形、包摂字形、規格外の外字を含め、さらに新たに出現する図形も収集していく。これを共有基盤としてものさしとする。今、「文字鏡」の番号も6桁であるが、これを運用することで100万字まで対応可能になる。

難字の管理・検索

「インデックスフォント」および「文字鏡」の考え方は、存在した証拠のある全ての文字図形を収集し、番号を付けようということである。文字図形データベースの中でインデックスフォント番号を付け、管理されている。大きな特徴として、大漢和辞典番号に準拠している。多くの図書館や公文書館が、「これは大漢和の何番の字」という形でデータを持っているケースが多く、こういう場合にもそのまま使える。ユニークさを保証する方法として、情報処理学会の試行標準である「文字図形識別情報」を利用し、文字のユニークさを識別する。それがISO/IEC 10036で図形登録され、この番号はこの図形ということが公開されている。

検索方法として、「インデックスフォント」・今昔文字鏡のプロフェッショナル版には、いろいろな方法がある。例えば、「部首で探す」とし、表示順を規格に切り替えると、JISの文字、Unicodeの文字と分類され、それぞれのコードが表示される。康煕字典にあれば○が付いて、大漢和では何番の字だということが示される。規格外の文字は、外字であり、グレーで表示される。

人名地名でも、徳川幕府の「徳」の字や、西郷隆盛の「郷」「隆」、それぞれ少し違う異体字を使っている。このような字体を区別する場合、従来の文字コードだけではうまくいかず、その番号が必要とされる。例えば仏教の世界でも、般「若」心経、「観」自在「菩薩」等、我々が普通ワープロで打っている字は、本当の字体ではないことを識別して使わなければならないケースもある。「インデックスフォント」の中では、規格が何であるか、康煕字典にあるか、大漢和の何番か、さらに読みや部首、画数という情報も含まれている。

このように、「インデックスフォント」は検索のシステムを持ち、16万字のデータベースをユニークな番号を付けて構築している。これをベースに、インデックスフォント研究会で、具体的にどのように使うのが印刷出版の現場で可能なのかという研究を進めている。

(この続きはJagat Info 2008年7月号、詳細報告はテキスト&グラフィックス研究会会報 Text & Graphics No.268に掲載しています) 2008年7月

2008/07/26 00:00:00


公益社団法人日本印刷技術協会