本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。

符号化文字基本集合(BUCS)と異体字処理をめぐって

 日本人は日常生活のなかで,どのくらいの漢字を使用しているのであろうか。新聞などで使われる漢字は,5,000字程度にとどまるが,ISO/IEC 10646には,約7万字もの漢字が符号化され,さらに拡張作業が続いている。

 今回は,国際提案の乏しい日本において国際標準となりつつある,基本サブセット「符号化文字基本集合」について,東京学芸大学教授松岡氏に伺った。

情報処理学会試行標準IPSJ-TS 0005の趣旨

 まず本試行標準利用上の注意に,「情報処理学会試行標準は,情報技術に関する国際標準の提案を目的として準備された技術仕様,あるいは情報技術分野の標準開発,研究開発,システム開発,および技術評価等に有用で,公開可能な技術情報の利用と評価を促進するために,情報処理学会が試行的な標準規格として制定し,公開するものである」とある。ここで非常に重要なのは,「情報技術に関する国際標準の提案を目的として準備された」という点である。

 現在,国内のJISを作り,それを国際の場に提案していくという形が一般的である。そして国内の規格を作るのにかなり時間がかかる。さまざまな手続きが必要であり,いろいろなヒアリングをしたり,公開で意見を求めたりレビューをしたりする。そしていったんできたものは,改変するのは難しい。
 しかし,それでは国際社会の流れについていけないことが多い。そこで,国内で多くの手続きを必要とするものであっても,いったん試行標準化をして,そこで実際に使いながらいろいろな意見を求めて修正していくと同時に,先に国際標準に出して国際標準化されたものから逆にJIS化していくという道があってもよい。これまでのJISからISOの国際規格への流れとまた別途の流れが考えられている。

 IPSJ-TS 0005は,国際符号化文字集合(UCS,Universal Multiple-Octet Coded Character Set)のUnicode20,902字をもとにしている。20,902字は二度拡張されて現在7万字になっており,まだ拡張の予定がある。一体これを誰がどう使うのだろうか。文字コードをどんどん振っていくというのは,メモリやCPUが非常に進化しているため,構造的には簡単であるが,機械的な検索や,出てきた字形が同じかどうか,正しいかどうか人間が判断することは,非常に難しい。

符号化文字基本集合(BUCS)の提案

 従来のISO/IEC 10646の流れを,唯一の選択ではなく,もう1つ別の選択ができないかと考えたのがBUCS(Basic Subset of Coded Character Sets)の提案である。
 0005を作成し,日本からISO/IEC JTC1/SC2/WG2/IRGに提案する。提案したものをIRGからWG2へ上げて,そこからの指示があって作業に入るということで国際規格になるという流れになる。

 2002年にNP(New Work Item Proposal)が出されたが,これは20,902の中のサブセットを作ろうという働きかけであり,日本からIRGに出された初めての能動的な提案である。それまでは,提案されたものについて日本が対応していく形が多かった。
 IRGに正式にプロポーズされ,International Basic Subsets of CJK Unified Ideographsという提案がWGで出され,WG2を通過して,国際的なサブセットを作る段階になった。
 IRGというのは,日本,中国,台湾,韓国,ベトナム,ユニコードコンソーシアム等,いろいろな国や地域,組織が参加しているワーキンググループである。0005は,「国際セットを実際に作ってみるとこのようになる」というものである。

 それぞれの国が持ち帰り必要かどうか議論して,必要なものを出すもので,全体として5,000字程度のものと,8,000から1万字程度のものを作る。
 そこで日本から,Japan Submission to CJK Subsetsというものを提出した。これがIPSJ-TS 0007である。それぞれの国が5,000字以内を持ちより,それをマージ,整理して1万字以内のサブセットを作ろうとしている。

符号化文字基本集合(BUCS)の特徴

 試行標準のよい点は,永遠に変更のきかないものではなく,短いスパンで修正したり,増補したり削除することが可能ということが前提として考えられているところである。かつてのJISは,できてしまったら大日本国憲法のように,誰も手をつけられなかった。それがその前の議論をより複雑にしていた。
 10646のエクステンションA,Bまで入れると約7万字という大きな集合である。エクステンションCも入れると,さらに大きくなる。今BMPでは20,902字がUnicodeの基本部分である。大きさからいうと,TS-0005が7,945,JIS X 0208が6,355,そしてTS-0007日本のコア集合が4,593字である。
 その次に,コアコアという約3,000字程度の小さなものも作るという話がある。特に家電製品の表示部分などを考えている。

異体字処理の構造化と今後の課題

 大量の異体字を集めて,関係づけしなければならない。従来のモデルは,代表字を1つとって,異体字をただ横に並べていくという方法であった。私自身がWG5の委員会の中で議論しているのは,それだけでは足りないということである。その中の順番をどうするのかということである。

 私の提案は2つで,異体字の中を分けたいということと,もう1つは変形字という概念を入れたいことである。異体字の中にも,常用と非常用それぞれの異体字がある。
 今までは誤字なども全部異体字として扱っていたが,そういうものを選別するコンセプト,枠組みが必要である。
 構造化に対して非常に困難であることは,いくら言ってもきりがないが,今後の課題として,構造化を考えなければならない。日本の場合は新字と旧字の関係だけを考えればよかったが,国際的な利用を考えていくと,関係づけを行わなくてはならない。そのとき,機械的にできないということである。

 今後,それぞれの国あるいは地域の中での構造化を考える必要がある。日本の場合は,利用を考えずに構造化してもあまり意味はない。目的を考えることと同時に,どの範囲で処理するかによっても違ってくる。
 また,属性の相互の情報を整理することである。文字属性については,中国でも属性辞典が出ているが,日本やIRGに属する各国や地域を網羅したような属性辞典やデータベースはできていない。それらを作ることは必要である。

 漢字の標準化は,文字が足りない,危ないといった漢字の危機というステージを超えて,もう次のステージに入ったというのが私の印象である。また,人間が使いこなすということを考えると,1万字を超えると非常に難しい。よって,代表的な正しい字にプライオリティをつけ,人間が使いこなすことを考えなければならない。機械はいくらでも処理することはできるが,機械を使うのは人間である。
 用途別のコード表を使っていくことが,これからの新しい流れになる可能性がある。そして今後,試行標準から国際標準,そこから国内標準という流れが非常に加速していくだろう。

(テキスト&グラフィックス研究会)

2003/11/16 00:00:00


公益社団法人日本印刷技術協会