■趣旨 |
日本人は日常生活のなかで,どのくらいの漢字を使用しているのであろうか。
「常用漢字」は1,945字であり,第一水準2,945字,第二水準3,390字の合計6,355字である。また,新聞などで使われる漢字は,5,000字程度にとどまり,『大辞林』のような大型の国語辞典でも,7,000字程度になっている。
広く使われているISO/IEC 10646には,約7万字もの漢字が符号化され,さらに拡張作業が続いている。これは,研究・学術上では価値を持つが,日常生活にはふさわしいのだろうか。また,漢字のフルセット開発には,膨大なコストと時間を必要とするにもかかわらず,それに見合う適用業務の需要が多くはないのである。
そこで,情報処理学会試行標準IPSJ-TS 005:2002として符号化文字基本集合(BUCS,Basic Subset of Coded Character Sets )が公開された。
これは携帯情報機器,OCR認識などの漢字情報処理装置の普及に対応した適切なサブセットであり,学会試行標準/WG 5小委員会(主査 松岡 榮志氏)が,ISO/IEC 10646-1:2000の中から,約8,000字を選んだものである。
本ミーティングでは,国際提案の乏しい日本において国際標準となりつつある,基本サブセット「符号化文字基本集合」を中心に,漢字コード標準化や電子化に伴う異体字処理についてお話を伺う。
符号化文字基本集合(BUCS)
|